یکشنبه, ۲۲ مهر, ۱۴۰۳ / 13 October, 2024
مجله ویستا

جست وجو میان صدها میلیون صفحه


جست وجو میان صدها میلیون صفحه
حتماً شما هم بارها، زمانی كه به یك مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت كامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان كوتاهی آن را پیدا كرده اید. اما آیا تابه حال فكر كرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی كه شما می خواهید در مورد یك موضوع مخصوص اطلاعات كسب كنید، چگونه می دانید كه چه صفحاتی را باید بخوانید؟ احتمالاً مانند اكثر مردم، شما از یك موتور جست وجوی اینترنت بازدید می كنید.موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبكه هستند و طوری طراحی شده اند كه به افراد كمك می كنند تا اطلاعات مورد نیازشان را كه در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملكرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱ - در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس كلمات مهم جست وجو را انجام می دهند.
۲- یك فهرست از كلماتی كه پیداكرده اند و جایی كه آنها را پیدا كرده اند، تهیه می كنند.
۳ - این امكان را برای كاربران فراهم می كنند تا كلمات یا مجموعه ای از كلمات مورد نظر خود را كه در فهرست یافت می شود جست وجو كنند.
موتورهای جست وجوی اولیه یك فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می كردند و در روز شاید یك یا دو هزار بازدیدكننده داشتند. امروزه یك موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می كند و در روز پاسخگوی ده ها میلیون جست وجو كننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به كار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبكه بیابیم.
• جست وجو میان صدها میلیون صفحه
قبل از اینكه یك موتور جست وجوگر بتواند به شما بگوید كه یك فایل در كجا قرار دارد، باید آن فایل پیدا شود. یك موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه كه در شبكه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به كار می گیرد تا لیستی از كلماتی كه در سایت های شبكه یافت می شود را ایجاد كند. فرآیندی كه یك spider لیست خود را ایجاد می كند، Web crawling نامیده می شود. برای ایجاد و نگهداری یك لیست مفید و مناسب از كلمات، یك spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی كند. چگونه هر spider مسیرش را در شبكه آغاز می كند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است كه توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی كه عمومی تر و معروف تر هستند. spider از یك سایت عمومی شروع می كند، كلمات موجود در صفحات آن را لیست می كند و هر لینكی كه در آن سایت یافت می شود را دنبال می كند. به این طریق سیستم جست وجوگر به سرعت شروع به حركت می كند و در بخش هایی كه بیشتر از همه مورد استفاده قرار می گیرد حركت می كند.Google.com به عنوان یك موتور جست وجوگر علمی آغاز به كار كرد. سرجی برین و لورنس پیج بیان كرده اند كه spiderهای سیستم آنها با چه سرعتی می توانند كار كنند. آنها سیستم اولیه خود را به گونه ای ساختند كه از چندین spider استفاده كند، معمولاً سه تا در یك زمان. هر spider می توانست با حدود سیصد صفحه شبكه كه در یك زمان باز بودند اتصال برقرار كند. در بهترین عملكرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ كیلو بایت داده را در هر ثانیه ایجاد كند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود كه به فراهم كردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یك فراهم كننده سرویس اینترنتی برای DNS كه نام یك سرور را به یك آدرس تبدیل می كند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.زمانی كه spider گوگل یك صفحه HTML را مشاهده می كرد، به دو نكته توجه می كرد: كلمات درون صفحه، در كجا كلمات پیدا شده اند. كلماتی كه در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی كه دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی كاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر كلمه معنی داری در صفحه را فهرست می كرد و از كلمات a an, the صرف نظر می كرد. سایر spider ها از روش های متفاوتی استفاده می كردند. در كل تمامی این روش ها معمولاً سعی می كند تا عملكرد spider را سریع تر كند، به كاربران اجازه بدهد تا با كارایی بهتر و بهینه تر جست وجو كنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها كلماتی كه در عنوان ها، عنوان های فرعی و لینك ها وجود دارند یا كلماتی كه بارها در صفحه تكرار می شوند و هر كلمه ای در بیست خط اولیه متن را نگهداری می كند. سایت Lycos از این روش استفاده می كند. سایر سیستم ها، از قبیل AltaVista، هر كلمه در صفحه، شاملa an, the و سایر كلمات كه بی اهمیت هستند را هم لیست می كنند.
• ایجاد فهرست
زمانی كه spider ها وظیفه یافتن اطلاعات از صفحات شبكه را به اتمام رساندند (البته باید در نظر داشته باشیم كه این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبكه به این معنی است كه spiders ها همیشه در حال حركت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شكلی كه مفید باشد، ذخیره كند. دو مولفه كلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای كاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی كه توسط آن اطلاعات فهرست می شود.در آسان ترین حالت، موتور جست وجوگر می تواند تنها كلمه و URL را ذخیره كند. در حقیقت، این روش برای موتوری با كاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینكه تعیین كند آیا كلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا كلمه تنها یك بار یا چندین مرتبه تكرار شده است یا صفحه لینك هایی به صفحات دیگری كه شامل آن كلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده كه تلاش می كند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر كلمه و URL ذخیره می كنند. موتور ممكن است تعداد دفعاتی كه كلمه در صفحه تكرار شده است را ذخیره كند، یا ممكن است مقداری را به هر ورودی اختصاص بدهد و زمانی كه كلمات در عناوین، عنوان های فرعی و لینك ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری كلمات فهرست خود دارد. این مسئله یكی از دلایلی است كه موجب می شود جست وجوی یك كلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینكه آیا كلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت كلمه و سایر اطلاعاتی كه به رتبه بندی آن كمك می كند را به صورت بیت و بایت ذخیره می كند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شكل بسیار فشرده ای ذخیره شود. بعد از اینكه اطلاعات فشرده شد، برای فهرست شدن آماده است.هدف از ایجاد یك فهرست این است كه باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممكن پیدا كنیم. به طور كل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یكی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به كار می رود تا به هر كلمه یك ارزش عددی اختصاص بدهد.پرسش و جست وجوی انجام شده توسط كاربر می تواند خیلی ساده باشد، حتی یك كلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده كنید تا بتوانید شرایط جست وجو را گسترش بدهید.به طور خلاصه عملكرد یك موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از كلمات و جایی كه قرار دارند فراهم می كند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می كند، داده ها را رمزگذاری می كند و سرانجام اطلاعات را برای دسترسی كاربران ذخیره می كند.
• آینده موتورهای جست وجوگر
در جست وجوهایی كه از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان كلمات یا عبارتی كه وارد شده است را جست وجو می كند. زمانی كه كلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشكل است. در این حالت، اگر برای شما تنها یكی از معانی آن كلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را كه شامل معانی دیگر كلمه است ببینید. شما می توانید یك جست وجوی لفظی ایجاد كنید كه تا حدودی معنی های ناخواسته را حذف كند، اما بهتر این بود كه خود موتور جست وجو می توانست این كار را انجام بدهد.یكی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده كردن از تحلیل های آماری صفحاتی كه شامل كلمات یا عباراتی است كه شما جست وجو می كنید، برای اینكه صفحات دیگری را كه ممكن است شما به آن علاقه داشته باشید پیدا كند. بدیهی است كه در یك موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می كنند تا نتایج و عملكرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری كه پژوهشگران درباره آن تلاش می كنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است كه شما بتوانید پرسش تان را به گونه ای تایپ كنید مثل اینكه آن را از شخصی كه كنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده كنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده كار می كند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.همچنان تلاش های بسیاری برای افزایش كیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.
منبع : روزنامه شرق