پنجشنبه, ۶ اردیبهشت, ۱۴۰۳ / 25 April, 2024

مجله ویستا

نگاهی به موتورهای جست وجو در اینترنت

حتماً شما هم بارها، زمانی که به یک مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت کامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان کوتاهی آن را پیدا کرده اید. اما آیا تابه حال فکر کرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی که شما می خواهید در مورد یک موضوع مخصوص اطلاعات کسب کنید، چگونه می دانید که چه صفحاتی را باید بخوانید؟ احتمالاً مانند اکثر مردم، شما از یک موتور جست وجوی اینترنت بازدید می کنید.
موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبکه هستند و طوری طراحی شده اند که به افراد کمک می کنند تا اطلاعات مورد نیازشان را که در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملکرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱) در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس کلمات مهم جست وجو را انجام می دهند.
۲) یک فهرست از کلماتی که پیداکرده اند و جایی که آنها را پیدا کرده اند، تهیه می کنند.
۳) این امکان را برای کاربران فراهم می کنند تا کلمات یا مجموعه ای از کلمات مورد نظر خود را که در فهرست یافت می شود جست وجو کنند.
موتورهای جست وجوی اولیه یک فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می کردند و در روز شاید یک یا دو هزار بازدیدکننده داشتند. امروزه یک موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می کند و در روز پاسخگوی ده ها میلیون جست وجو کننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به کار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبکه بیابیم.
● جست وجو میان صدها میلیون صفحه
قبل از اینکه یک موتور جست وجوگر بتواند به شما بگوید که یک فایل در کجا قرار دارد، باید آن فایل پیدا شود. یک موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه که در شبکه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به کار می گیرد تا لیستی از کلماتی که در سایت های شبکه یافت می شود را ایجاد کند. فرآیندی که یک spider لیست خود را ایجاد می کند، Web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید و مناسب از کلمات، یک spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی کند. چگونه هر spider مسیرش را در شبکه آغاز می کند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است که توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی که عمومی تر و معروف تر هستند. spider از یک سایت عمومی شروع می کند، کلمات موجود در صفحات آن را لیست می کند و هر لینکی که در آن سایت یافت می شود را دنبال می کند. به این طریق سیستم جست وجوگر به سرعت شروع به حرکت می کند و در بخش هایی که بیشتر از همه مورد استفاده قرار می گیرد حرکت می کند.
Google.com به عنوان یک موتور جست وجوگر علمی آغاز به کار کرد. سرجی برین و لورنس پیج بیان کرده اند که spiderهای سیستم آنها با چه سرعتی می توانند کار کنند. آنها سیستم اولیه خود را به گونه ای ساختند که از چندین spider استفاده کند، معمولاً سه تا در یک زمان. هر spider می توانست با حدود سیصد صفحه شبکه که در یک زمان باز بودند اتصال برقرار کند. در بهترین عملکرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ کیلو بایت داده را در هر ثانیه ایجاد کند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود که به فراهم کردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یک فراهم کننده سرویس اینترنتی برای DNS که نام یک سرور را به یک آدرس تبدیل می کند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانی که spider گوگل یک صفحه HTML را مشاهده می کرد، به دو نکته توجه می کرد: کلمات درون صفحه، در کجا کلمات پیدا شده اند.
کلماتی که در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی که دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی کاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر کلمه معنی داری در صفحه را فهرست می کرد و از کلمات a an, the صرف نظر می کرد. سایر spider ها از روش های متفاوتی استفاده می کردند. در کل تمامی این روش ها معمولاً سعی می کند تا عملکرد spider را سریع تر کند، به کاربران اجازه بدهد تا با کارایی بهتر و بهینه تر جست وجو کنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها کلماتی که در عنوان ها، عنوان های فرعی و لینک ها وجود دارند یا کلماتی که بارها در صفحه تکرار می شوند و هر کلمه ای در بیست خط اولیه متن را نگهداری می کند. سایت Lycos از این روش استفاده می کند.
سایر سیستم ها، از قبیل AltaVista، هر کلمه در صفحه، شاملa an, the و سایر کلمات که بی اهمیت هستند را هم لیست می کنند.
● ایجاد فهرست
زمانی که spider ها وظیفه یافتن اطلاعات از صفحات شبکه را به اتمام رساندند (البته باید در نظر داشته باشیم که این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبکه به این معنی است که spiders ها همیشه در حال حرکت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شکلی که مفید باشد، ذخیره کند. دو مولفه کلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای کاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی که توسط آن اطلاعات فهرست می شود.
در آسان ترین حالت، موتور جست وجوگر می تواند تنها کلمه و URL را ذخیره کند. در حقیقت، این روش برای موتوری با کاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینکه تعیین کند آیا کلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا کلمه تنها یک بار یا چندین مرتبه تکرار شده است یا صفحه لینک هایی به صفحات دیگری که شامل آن کلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده که تلاش می کند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.
برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر کلمه و URL ذخیره می کنند. موتور ممکن است تعداد دفعاتی که کلمه در صفحه تکرار شده است را ذخیره کند، یا ممکن است مقداری را به هر ورودی اختصاص بدهد و زمانی که کلمات در عناوین، عنوان های فرعی و لینک ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری کلمات فهرست خود دارد. این مسئله یکی از دلایلی است که موجب می شود جست وجوی یک کلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.
داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینکه آیا کلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت کلمه و سایر اطلاعاتی که به رتبه بندی آن کمک می کند را به صورت بیت و بایت ذخیره می کند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شکل بسیار فشرده ای ذخیره شود. بعد از اینکه اطلاعات فشرده شد، برای فهرست شدن آماده است.
هدف از ایجاد یک فهرست این است که باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممکن پیدا کنیم. به طور کل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یکی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به کار می رود تا به هر کلمه یک ارزش عددی اختصاص بدهد.
پرسش و جست وجوی انجام شده توسط کاربر می تواند خیلی ساده باشد، حتی یک کلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده کنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملکرد یک موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از کلمات و جایی که قرار دارند فراهم می کند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می کند، داده ها را رمزگذاری می کند و سرانجام اطلاعات را برای دسترسی کاربران ذخیره می کند.
● آینده موتورهای جست وجوگر
در جست وجوهایی که از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان کلمات یا عبارتی که وارد شده است را جست وجو می کند. زمانی که کلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشکل است. در این حالت، اگر برای شما تنها یکی از معانی آن کلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را که شامل معانی دیگر کلمه است ببینید. شما می توانید یک جست وجوی لفظی ایجاد کنید که تا حدودی معنی های ناخواسته را حذف کند، اما بهتر این بود که خود موتور جست وجو می توانست این کار را انجام بدهد.
یکی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده کردن از تحلیل های آماری صفحاتی که شامل کلمات یا عباراتی است که شما جست وجو می کنید، برای اینکه صفحات دیگری را که ممکن است شما به آن علاقه داشته باشید پیدا کند. بدیهی است که در یک موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می کنند تا نتایج و عملکرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری که پژوهشگران درباره آن تلاش می کنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است که شما بتوانید پرسش تان را به گونه ای تایپ کنید مثل اینکه آن را از شخصی که کنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده کنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده کار می کند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.
همچنان تلاش های بسیاری برای افزایش کیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.
لیستی از سایت های مهم دارای موتور جست وجو
▪ AltaVista
▪ Dogpile
▪ Go
▪ Google
▪ HotBot
▪ Looksmart
▪ Lycos
▪ Mamma
▪ Metacrawler
▪ Northern Light
▪ Open Directory Project
▪ Search.com
▪ NBCi
▪ WebCrawler
▪ Yahoo

پنجشنبه, ۶ اردیبهشت, ۱۴۰۳ / 25 April, 2024

نگاهی به موتورهای جست وجو در اینترنت

تجهیزات پزشکی

فروش و تعمییرات تخصصی ماشین های اداری

سینمای خصوصی سون

شیشه اتومبیل غرب تهران

دقت موتورهای کاوش اینترنتی: مطالعه‌ای موردی در ارتباط با علوم زمین

با برخی از روشهای ابتدایی جستجو آسان در موتورجستجو گوگل آشنا شویم

یکی از پرکاربردترین و مفیدترین موتورهای جستجو، گوگل نام دارد که این روزها جام پیروزی را از دیگر رقبا ربوده است و روز به روز برتعداد کاربران خود می افزاید.

رقابت «معنا‌»دار

خرید Powerset برگ جدیدی که مایکروسافت در برابر گوگل رو می‌کند

معامله مایکروسافت و یاهو بی‌سرانجام ماند

بدون سر گرفتن هیچ معامله‌ای، دو غول دنیای اینترنت به سر خانه‌های اول خود بازگشتند و باز هم با فاصله زیادی در پشت سر گوگل حرکت می‌کنند

اینترنت را خلاصه کنید!

آر.‏اِس‏.اِس‏ها می‏توانند راحتی بیشتری را برای شمادر اینترنت فراهم آورند. یک لحظه به موتور جست‏وجوی دلخواه خود فکر کنید.

زبان این عنکبوت را یاد بگیرید

رتبه بندی سایتها در موتورهای جستجو چگونه انجام می شود ؟

Googlebot، روبات جست‌وجوگر

شباهتهای آفلاین و آنلاین:موتور جستجوگر و شکارچی

مهران در روستایی زیبا نزدیک منطقه حفاظت شده ابیورد واقع در شمال شرقی ایران زندگی می کند.او شکارچی ماهری است و همیشه با گوشت لذیذ شکار از میهمانانش پذیرایی می کند.

چطور از تجسس موتورهای جست‌وجو در امان بمانیم؟

اخیراً دادگستری آمریکا نظارت خود را گسترش داده و از موتورهای جست‌وجو خواسته تا مطالبی را که کاربران در یک هفته گذشته در آنها جست‌وجو کرده‌اند، تحویل دهند

عنوان بهتر، محتوای بهتر، رتبه بالاتر

در اصل حیات و بقای وب‌سایت‌ها در گروی اقدامات موتورهای جستجوست و این که تا چه اندازه پذیرای آن‌ها باشند و در کجای لیست عریض و طویل وب‌سایت‌هایشان جا دهند.

اهمیت متن پیوندی (Anchor text ) در بهینه سازی سایتها در موتورهای جستجو

راهنمایی های گوگل به طراحان وب سایت ها

دنیای گوگلیزه

نگاهی به حضور گوگل در وقایع مهم دو سال گذشته جهان

نگاهی به گوگل غول موتور جستجو و موفقیت‌هایش

یک موتور جست‏وجو برای خودِ خودِ شما

کدامیک برای شما مهم‌تر است؟ بازدیدکننده یا موتور جستجو؟

موتورهای جستجو

کاستی های الگوریتمی در موتورهای جست و جوی وب

یک دنبالگرد crawler که صفحات وب را پیدا می کند تا داخل مجموعه صفحات وب آن موتور قرار گیرد،

اضافه کردن سایت به موتورهای جستجو

روباتهای موتور جستجو نمی توانند سایتهائی که برای ورود نیاز به شناسه کاربر و کلمه عبور دارند را، ثبت کنند.

تحلیلی بر موتور جستجوی فارسی پارسیک

موتور جستجوی پارسیک در اردیبهشت ۱۳۸۱ و با هدف ایجادخدمات جستجو به پارسی‌ زبانان تاسیس شده است. و توانسته در سال ۱۳۸۲ جایزه ذره بین طلایی را دریافت نماید ....

پشت صحنه گوگل

گوگل

جول اچینباچ، یکی از اعضای نویسند‌ه‌ی واشنگتن پست، درباره‌ی استفاده از موتور جستجوی اینترنت و بازتاب آن در کتاب‌خانه‌ها، مقاله‌یی نوشته است.

جایگاه موتور های جست وجو

موتور های جست وجو (search engines) اکنون در فعالیت های اینترنتی، نقش غیرقابل انکاری پیدا کرده اند.

انتخاب کردن نام شرکت و یک نام دامنه (Domain )

اگر نام مورد نظر شما با تعدادی کلمات کلیدی همراه است باید توجه کنید که برای بهینه سازی بهتر در موتور جستجو , بهتر است که کلمات کلیدی را توسط خط های تیره ازهم جدا کنید.

جست وجو در دنیای مجازی

PageRank گوگل چیست ؟ چگونه افزایش می یابد؟

بهینه سازی و ارتقاء رتبه سایت در موتورهای جستجو

تنها موتور جستجو گر محبوب گوگل, روزانه با بیش از ۱۶ میلیارد کلیک, میلیونها کاربر را به سوی سایتهای گوناگون سرازیر می کند.

اشتباه متداول درباره موتور های جستجو و راه‌حل‌های آن

اشتباه اول: انباشتگی لغات کلیدی (key words) اشکال:سعی در بهینه کردن یک صفحه خانگی یا (home page)، برای تمامی کلمات کلیدی ممکن.

فارسی جستجو کنیم

سهولت دسترسی به منابع اطلاعاتی اعم از متن و سایر رسانه ها عمده ترین مزیت اینترنت محسوب می شود.

فروش سیم‌کارت 912 به صورت اقساط

نمایندگی رسمی فروش کلیه محصولات شرکت صنعتی …

نمایندگی زیمنس | فروش محصولات فشار ضعیف و …

چاپ کارت pvc،چاپ کارت پی وی سی،چاپ افست کارت …

روشی جدید و امیدوار کننده برای تشخیص سرطان

جزئیات جدید درباره حکم اعدام توماج صالحی

اصولگرایان موافق برخورد با زنان بدون حجاب، بعد از فوت مهسا امینی چه …

پیش‌بینی نگران کننده: امسال رشد اقتصادی نداریم؛ منتظر کاهش قیمت ارز …

جزئیاتی عجیب از لایحه بودجه ۱۴۰۳؛ چرا مجلس آن را رد کرده بود؟

مروری بر بودجه در سال ۱۴۰۳؛ دست دولت در جیب مردم برای جبران کسری!

درخواست آرژانتین از پاکستان و سریلانکا : احمد وحیدی را بازداشت کنید

دولت، برنده واگذاری سهام سرخابی‌ها

آدم‌های مشهور حریم خصوصی ندارند؟ | رویداد24

آزمون دشوار بهارستان در «چند صدایی و کارآمدی»

کپسول نفتی مهار تورم

سایه‌روشن سهام سرخابی‌ها

ماجرای تنش ایران و آرژانتین چیست؟

تماشا کنید: روایت وال استریت ژورنال از انقلاب پهپادها در اقتصاد جنگ …

محمد صادقی از کشور خارج شد

تماشا کنید: از دولت به دولت! / ماجرای خصوصی‌سازی استقلال و پرسپولیس

خام‌دستی

توضیحات سردار رادان درباره توقیف خودرو به دلیل حجاب/ هیچ ماموریتی …

هشدار محمد خوش‌چهره: دنبال ناامید کردن نیستم اما در اقتصاد داریم می‌بازیم/ …

سفرى بعد از ۱۲ سال

وزیر صمت در پیچ‌وخم خودروهای برقی؛ وزارت نیرو: برق نداریم

سهم پلتفرمها از بازار جست و جوی شغل،‌ روند مشاغل پرتقاضا در ایران

درخواست آرژانتین از پاکستان و سریلانکا : احمد وحیدی وزیر ایران را …