پنجشنبه, ۶ اردیبهشت, ۱۴۰۳ / 25 April, 2024
مجله ویستا

نگاهی به موتورهای جست وجو در اینترنت


نگاهی به موتورهای جست وجو در اینترنت
حتماً شما هم بارها، زمانی که به یک مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت کامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان کوتاهی آن را پیدا کرده اید. اما آیا تابه حال فکر کرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی که شما می خواهید در مورد یک موضوع مخصوص اطلاعات کسب کنید، چگونه می دانید که چه صفحاتی را باید بخوانید؟ احتمالاً مانند اکثر مردم، شما از یک موتور جست وجوی اینترنت بازدید می کنید.
موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبکه هستند و طوری طراحی شده اند که به افراد کمک می کنند تا اطلاعات مورد نیازشان را که در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملکرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱) در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس کلمات مهم جست وجو را انجام می دهند.
۲) یک فهرست از کلماتی که پیداکرده اند و جایی که آنها را پیدا کرده اند، تهیه می کنند.
۳) این امکان را برای کاربران فراهم می کنند تا کلمات یا مجموعه ای از کلمات مورد نظر خود را که در فهرست یافت می شود جست وجو کنند.
موتورهای جست وجوی اولیه یک فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می کردند و در روز شاید یک یا دو هزار بازدیدکننده داشتند. امروزه یک موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می کند و در روز پاسخگوی ده ها میلیون جست وجو کننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به کار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبکه بیابیم.
● جست وجو میان صدها میلیون صفحه
قبل از اینکه یک موتور جست وجوگر بتواند به شما بگوید که یک فایل در کجا قرار دارد، باید آن فایل پیدا شود. یک موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه که در شبکه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به کار می گیرد تا لیستی از کلماتی که در سایت های شبکه یافت می شود را ایجاد کند. فرآیندی که یک spider لیست خود را ایجاد می کند، Web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید و مناسب از کلمات، یک spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی کند. چگونه هر spider مسیرش را در شبکه آغاز می کند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است که توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی که عمومی تر و معروف تر هستند. spider از یک سایت عمومی شروع می کند، کلمات موجود در صفحات آن را لیست می کند و هر لینکی که در آن سایت یافت می شود را دنبال می کند. به این طریق سیستم جست وجوگر به سرعت شروع به حرکت می کند و در بخش هایی که بیشتر از همه مورد استفاده قرار می گیرد حرکت می کند.
Google.com به عنوان یک موتور جست وجوگر علمی آغاز به کار کرد. سرجی برین و لورنس پیج بیان کرده اند که spiderهای سیستم آنها با چه سرعتی می توانند کار کنند. آنها سیستم اولیه خود را به گونه ای ساختند که از چندین spider استفاده کند، معمولاً سه تا در یک زمان. هر spider می توانست با حدود سیصد صفحه شبکه که در یک زمان باز بودند اتصال برقرار کند. در بهترین عملکرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ کیلو بایت داده را در هر ثانیه ایجاد کند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود که به فراهم کردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یک فراهم کننده سرویس اینترنتی برای DNS که نام یک سرور را به یک آدرس تبدیل می کند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانی که spider گوگل یک صفحه HTML را مشاهده می کرد، به دو نکته توجه می کرد: کلمات درون صفحه، در کجا کلمات پیدا شده اند.
کلماتی که در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی که دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی کاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر کلمه معنی داری در صفحه را فهرست می کرد و از کلمات a an, the صرف نظر می کرد. سایر spider ها از روش های متفاوتی استفاده می کردند. در کل تمامی این روش ها معمولاً سعی می کند تا عملکرد spider را سریع تر کند، به کاربران اجازه بدهد تا با کارایی بهتر و بهینه تر جست وجو کنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها کلماتی که در عنوان ها، عنوان های فرعی و لینک ها وجود دارند یا کلماتی که بارها در صفحه تکرار می شوند و هر کلمه ای در بیست خط اولیه متن را نگهداری می کند. سایت Lycos از این روش استفاده می کند.
سایر سیستم ها، از قبیل AltaVista، هر کلمه در صفحه، شاملa an, the و سایر کلمات که بی اهمیت هستند را هم لیست می کنند.
● ایجاد فهرست
زمانی که spider ها وظیفه یافتن اطلاعات از صفحات شبکه را به اتمام رساندند (البته باید در نظر داشته باشیم که این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبکه به این معنی است که spiders ها همیشه در حال حرکت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شکلی که مفید باشد، ذخیره کند. دو مولفه کلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای کاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی که توسط آن اطلاعات فهرست می شود.
در آسان ترین حالت، موتور جست وجوگر می تواند تنها کلمه و URL را ذخیره کند. در حقیقت، این روش برای موتوری با کاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینکه تعیین کند آیا کلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا کلمه تنها یک بار یا چندین مرتبه تکرار شده است یا صفحه لینک هایی به صفحات دیگری که شامل آن کلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده که تلاش می کند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.
برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر کلمه و URL ذخیره می کنند. موتور ممکن است تعداد دفعاتی که کلمه در صفحه تکرار شده است را ذخیره کند، یا ممکن است مقداری را به هر ورودی اختصاص بدهد و زمانی که کلمات در عناوین، عنوان های فرعی و لینک ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری کلمات فهرست خود دارد. این مسئله یکی از دلایلی است که موجب می شود جست وجوی یک کلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.
داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینکه آیا کلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت کلمه و سایر اطلاعاتی که به رتبه بندی آن کمک می کند را به صورت بیت و بایت ذخیره می کند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شکل بسیار فشرده ای ذخیره شود. بعد از اینکه اطلاعات فشرده شد، برای فهرست شدن آماده است.
هدف از ایجاد یک فهرست این است که باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممکن پیدا کنیم. به طور کل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یکی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به کار می رود تا به هر کلمه یک ارزش عددی اختصاص بدهد.
پرسش و جست وجوی انجام شده توسط کاربر می تواند خیلی ساده باشد، حتی یک کلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده کنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملکرد یک موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از کلمات و جایی که قرار دارند فراهم می کند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می کند، داده ها را رمزگذاری می کند و سرانجام اطلاعات را برای دسترسی کاربران ذخیره می کند.
● آینده موتورهای جست وجوگر
در جست وجوهایی که از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان کلمات یا عبارتی که وارد شده است را جست وجو می کند. زمانی که کلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشکل است. در این حالت، اگر برای شما تنها یکی از معانی آن کلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را که شامل معانی دیگر کلمه است ببینید. شما می توانید یک جست وجوی لفظی ایجاد کنید که تا حدودی معنی های ناخواسته را حذف کند، اما بهتر این بود که خود موتور جست وجو می توانست این کار را انجام بدهد.
یکی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده کردن از تحلیل های آماری صفحاتی که شامل کلمات یا عباراتی است که شما جست وجو می کنید، برای اینکه صفحات دیگری را که ممکن است شما به آن علاقه داشته باشید پیدا کند. بدیهی است که در یک موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می کنند تا نتایج و عملکرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری که پژوهشگران درباره آن تلاش می کنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است که شما بتوانید پرسش تان را به گونه ای تایپ کنید مثل اینکه آن را از شخصی که کنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده کنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده کار می کند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.
همچنان تلاش های بسیاری برای افزایش کیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.
لیستی از سایت های مهم دارای موتور جست وجو
▪ AltaVista
▪ Dogpile
▪ Go
▪ Google
▪ HotBot
▪ Looksmart
▪ Lycos
▪ Mamma
▪ Metacrawler
▪ Northern Light
▪ Open Directory Project
▪ Search.com
▪ NBCi
▪ WebCrawler
▪ Yahoo
منبع : ایده پویا


همچنین مشاهده کنید