دوشنبه ۳ مهر ۱۳۹۶ / Monday, 25 September, 2017

نگاهی به موتورهای جست وجو در اینترنت


نگاهی به موتورهای جست وجو در اینترنت
حتماً شما هم بارها، زمانی که به یک مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت کامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان کوتاهی آن را پیدا کرده اید. اما آیا تابه حال فکر کرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی که شما می خواهید در مورد یک موضوع مخصوص اطلاعات کسب کنید، چگونه می دانید که چه صفحاتی را باید بخوانید؟ احتمالاً مانند اکثر مردم، شما از یک موتور جست وجوی اینترنت بازدید می کنید.
موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبکه هستند و طوری طراحی شده اند که به افراد کمک می کنند تا اطلاعات مورد نیازشان را که در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملکرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱) در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس کلمات مهم جست وجو را انجام می دهند.
۲) یک فهرست از کلماتی که پیداکرده اند و جایی که آنها را پیدا کرده اند، تهیه می کنند.
۳) این امکان را برای کاربران فراهم می کنند تا کلمات یا مجموعه ای از کلمات مورد نظر خود را که در فهرست یافت می شود جست وجو کنند.
موتورهای جست وجوی اولیه یک فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می کردند و در روز شاید یک یا دو هزار بازدیدکننده داشتند. امروزه یک موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می کند و در روز پاسخگوی ده ها میلیون جست وجو کننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به کار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبکه بیابیم.
● جست وجو میان صدها میلیون صفحه
قبل از اینکه یک موتور جست وجوگر بتواند به شما بگوید که یک فایل در کجا قرار دارد، باید آن فایل پیدا شود. یک موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه که در شبکه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به کار می گیرد تا لیستی از کلماتی که در سایت های شبکه یافت می شود را ایجاد کند. فرآیندی که یک spider لیست خود را ایجاد می کند، Web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید و مناسب از کلمات، یک spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی کند. چگونه هر spider مسیرش را در شبکه آغاز می کند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است که توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی که عمومی تر و معروف تر هستند. spider از یک سایت عمومی شروع می کند، کلمات موجود در صفحات آن را لیست می کند و هر لینکی که در آن سایت یافت می شود را دنبال می کند. به این طریق سیستم جست وجوگر به سرعت شروع به حرکت می کند و در بخش هایی که بیشتر از همه مورد استفاده قرار می گیرد حرکت می کند.
Google.com به عنوان یک موتور جست وجوگر علمی آغاز به کار کرد. سرجی برین و لورنس پیج بیان کرده اند که spiderهای سیستم آنها با چه سرعتی می توانند کار کنند. آنها سیستم اولیه خود را به گونه ای ساختند که از چندین spider استفاده کند، معمولاً سه تا در یک زمان. هر spider می توانست با حدود سیصد صفحه شبکه که در یک زمان باز بودند اتصال برقرار کند. در بهترین عملکرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ کیلو بایت داده را در هر ثانیه ایجاد کند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود که به فراهم کردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یک فراهم کننده سرویس اینترنتی برای DNS که نام یک سرور را به یک آدرس تبدیل می کند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانی که spider گوگل یک صفحه HTML را مشاهده می کرد، به دو نکته توجه می کرد: کلمات درون صفحه، در کجا کلمات پیدا شده اند.
کلماتی که در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی که دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی کاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر کلمه معنی داری در صفحه را فهرست می کرد و از کلمات a an, the صرف نظر می کرد. سایر spider ها از روش های متفاوتی استفاده می کردند. در کل تمامی این روش ها معمولاً سعی می کند تا عملکرد spider را سریع تر کند، به کاربران اجازه بدهد تا با کارایی بهتر و بهینه تر جست وجو کنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها کلماتی که در عنوان ها، عنوان های فرعی و لینک ها وجود دارند یا کلماتی که بارها در صفحه تکرار می شوند و هر کلمه ای در بیست خط اولیه متن را نگهداری می کند. سایت Lycos از این روش استفاده می کند.
سایر سیستم ها، از قبیل AltaVista، هر کلمه در صفحه، شاملa an, the و سایر کلمات که بی اهمیت هستند را هم لیست می کنند.
● ایجاد فهرست
زمانی که spider ها وظیفه یافتن اطلاعات از صفحات شبکه را به اتمام رساندند (البته باید در نظر داشته باشیم که این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبکه به این معنی است که spiders ها همیشه در حال حرکت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شکلی که مفید باشد، ذخیره کند. دو مولفه کلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای کاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی که توسط آن اطلاعات فهرست می شود.
در آسان ترین حالت، موتور جست وجوگر می تواند تنها کلمه و URL را ذخیره کند. در حقیقت، این روش برای موتوری با کاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینکه تعیین کند آیا کلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا کلمه تنها یک بار یا چندین مرتبه تکرار شده است یا صفحه لینک هایی به صفحات دیگری که شامل آن کلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده که تلاش می کند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.
برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر کلمه و URL ذخیره می کنند. موتور ممکن است تعداد دفعاتی که کلمه در صفحه تکرار شده است را ذخیره کند، یا ممکن است مقداری را به هر ورودی اختصاص بدهد و زمانی که کلمات در عناوین، عنوان های فرعی و لینک ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری کلمات فهرست خود دارد. این مسئله یکی از دلایلی است که موجب می شود جست وجوی یک کلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.
داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینکه آیا کلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت کلمه و سایر اطلاعاتی که به رتبه بندی آن کمک می کند را به صورت بیت و بایت ذخیره می کند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شکل بسیار فشرده ای ذخیره شود. بعد از اینکه اطلاعات فشرده شد، برای فهرست شدن آماده است.
هدف از ایجاد یک فهرست این است که باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممکن پیدا کنیم. به طور کل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یکی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به کار می رود تا به هر کلمه یک ارزش عددی اختصاص بدهد.
پرسش و جست وجوی انجام شده توسط کاربر می تواند خیلی ساده باشد، حتی یک کلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده کنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملکرد یک موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از کلمات و جایی که قرار دارند فراهم می کند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می کند، داده ها را رمزگذاری می کند و سرانجام اطلاعات را برای دسترسی کاربران ذخیره می کند.
● آینده موتورهای جست وجوگر
در جست وجوهایی که از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان کلمات یا عبارتی که وارد شده است را جست وجو می کند. زمانی که کلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشکل است. در این حالت، اگر برای شما تنها یکی از معانی آن کلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را که شامل معانی دیگر کلمه است ببینید. شما می توانید یک جست وجوی لفظی ایجاد کنید که تا حدودی معنی های ناخواسته را حذف کند، اما بهتر این بود که خود موتور جست وجو می توانست این کار را انجام بدهد.
یکی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده کردن از تحلیل های آماری صفحاتی که شامل کلمات یا عباراتی است که شما جست وجو می کنید، برای اینکه صفحات دیگری را که ممکن است شما به آن علاقه داشته باشید پیدا کند. بدیهی است که در یک موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می کنند تا نتایج و عملکرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری که پژوهشگران درباره آن تلاش می کنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است که شما بتوانید پرسش تان را به گونه ای تایپ کنید مثل اینکه آن را از شخصی که کنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده کنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده کار می کند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.
همچنان تلاش های بسیاری برای افزایش کیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.
لیستی از سایت های مهم دارای موتور جست وجو
▪ AltaVista
▪ Dogpile
▪ Go
▪ Google
▪ HotBot
▪ Looksmart
▪ Lycos
▪ Mamma
▪ Metacrawler
▪ Northern Light
▪ Open Directory Project
▪ Search.com
▪ NBCi
▪ WebCrawler
▪ Yahoo


منبع : ایده پویا

مطالب مرتبط

کلمات در حال جستجو
پرونده زمین خواری , بی حالی , حرمت شکنی , جشنواره گیاهان دارویی , پرورش مرغ , انجمن کتابخانه ها , یادر دیرین امام ورهبری , مقطع ابتدایی , نماینده آبادان , فرانس پرس , معاون علمی و فناوری رئیس جمهوری , دادگاه‌های تجدید نظر , موضع , مؤسسه عالی فقه اسلامی , دستاورد نظامی , فواید ورزش , حزب سعادت , ملل , نخبگی , جرایم مرتبط , حکم مرسی , اف 16 , حزب حاکم لهستان , موسسه تحقیقات و سرم سازی رازی , هواپیمای مسافربری ایران , تراکتور سازی , جذب ثروتمندان جهان , برتری اسراییل , ستاد اجرای , نرخ کارمزد بانکی , اداره کل میراث فرهنگی استان تهران , تصلب شراین , مجلسی , اتاق اصناف همدان , پارک هوانوردی , قهرمانی یاران برادران استکی در جام حذفی رومانی , اشغالی , Snug Vest , نفت کش , تخلفات نسخ , زیربنای رشد و توسعه , مکانیکی‌ها , ام‌اس , هجمه کفر , جذب فراگیر , انگ زدایی , بامیه، , الجبیل , مدارس نمونه دولتی , کاهش محدودیت ,

برخی از مطالبی که کاربران هم اکنون در حال خواندن آن هستند
صوفی گلی بچین و مرقع به خار بخش , این صید هنوز نیم رام است , ترجیع بند , ماده بیست و چهارم , جدول جمعیت در سال ۱۹۹۱ , جدول نسبت سرطان پستان که به عوامل خطر قابل اصلاح منتسب است. , بنه‌کی , محراب سرمسجد، مسجدسلیمان , چله‌بری , یا وصل تو را نشانه بایستی , اجزای بررسی همگروهی , خلیج‌فارس , اسپنسر , آنچ روی تو کند نور رخ خور نکند , استروژن، کونژوگیت (سیستمیک) - ESTROGENS, CONJUGATED (Systemic) , مدل منبع معنی در ارتباط فرد با فرد , گوجه , خرید , بازرگانی خارجی (۳) , سندیکاها و اتحادیه‌های مردمی ,

برخی منابع مهم خبری
cinemapress.ir سینما پرس , arshnews.ir عرش , iscanews.ir ایسکانیوز , noet.ir سازمان سنجش , asreazadi.com عصر آزادی , hamshahrilinks.org روزنامه همشهری , asreertebat.com عصر ارتباط , khanevarzesh.com خانه‌ ورزش , zendeginews.com زندگی , presstv.ir پرس تی وی , rahyabnews.com رهیاب نیوز , asrekhodro.com عصر خودرو , ical.ir کتابخانه مجلس , press.jamejamonline.ir روزنامه جام جم , vista.ir اخبار روز , taraznews.com تراز نیوز , banifilm.ir روزنامه بانی فیلم , tejaratnews.com تجارت نیوز , eshraf.ir اشراف , musicerooz.ir موسیقی روز , econews.ir اکونیوز , inn.ir شبکه ایران , funiha.com فانیها , shafaf.ir شفاف , jahanesanat.ir جهان صنعت , 90ict.com نود آی سی تی , ilamefarda.ir ایلام فردا , donyayesanat.com دنیای صنعت , lemonpress.ir لمون پرس , iranojahan.com ایران و جهان ,

وبگردی
میلیاردر ایرانی بار دیگر خودرویBMW خود را به آتش کشید
میلیاردر ایرانی بار دیگر خودرویBMW خود را به آتش کشید - فیلم / آقا این ماشینو بفروش یک پراید بخر راحت شو.
فیلم | درگیری شدید رضا کیانیان با فعالان محیط زیست
فیلم | درگیری شدید رضا کیانیان با فعالان محیط زیست - فیلم - رضاکیانیان، در همایش «صدای پای آب»، در پاسخ به اعتراض یکی از فعالان محیط زیستی خطاب به او گفت: شما حق ندارید صحبت کنید... قواعد ما را قبول ندارید بفرمایید بیرون!
آغداش تو را سننه !؟
آغداش تو را سننه !؟ - علی معلم دامغانی، رییس فرهنگستان هنر اخیرا نامه ای به روسای قوای سه گانه و وزرای ارشاد و اطلاعات و نیز فرمانده ‏ناجا ‏درباره 500 اثر هنری ضبط شده در این فرهنگستان نوشته است.‏
ازدواج قربانی اسید پاشی اصفهان
ازدواج قربانی اسید پاشی اصفهان - مرضیه ابراهیمی در جریان اسیدپاشی یکی از قرنیه‌هایش را از دست داد و بدنش نیز به‌ شدت آسیب دید و یک قسمت از سرش سوراخ شد.
پخش شدن محموله تریاک کف جاده در میناب
پخش شدن محموله تریاک کف جاده در میناب - فیلم پخش شدن محموله تریاک کف جاده و جمع کردن توسط مردم!
نگار جواهریان همسر رامبد جوان در خندوانه / فیلم
نگار جواهریان همسر رامبد جوان در خندوانه / فیلم - رامبد جوان همسر سوم خود نگار جواهریان را به خندوانه دعوت کرد.
مشاهده زندگی جدید خانم رهنما فعلآ بلامانع است / عکس
مشاهده زندگی جدید خانم رهنما فعلآ بلامانع است / عکس - عقد «بهاره رهنما» و همسرش در حرم امام رضا (ع)
تصاویر ازدواج مجدد بهاره رهنما
تصاویر ازدواج مجدد بهاره رهنما - بهاره رهنما که بیشتر کارهای او با مضمون ظنز و کمدی است . روز شنیه 4 شهریور با امیر خسرو عباسی ازدواج کرد.
اولین گفتگو با حمید صفت پس از دستگیری / تصاویر
اولین گفتگو با حمید صفت پس از دستگیری / تصاویر - حمید صفت خواننده رپ،پس از پنج ساعت انکار سرانجام در جریان تحقیقات پلیس به قتل پدرخوانده اش اعتراف کرد.
فیلم حضور تینا آخوندتبار در مسابقات بوکس!
فیلم حضور تینا آخوندتبار در مسابقات بوکس! - این بازیگر ایرانی که مدتهاست خبری از حضور او در عرصه هنر نیست برای اولین بار مقابل حریف چینی مسابقه داد.
جشن تولد ۶۰ سالگی مهرانه مهین‌ترابی
جشن تولد ۶۰ سالگی مهرانه مهین‌ترابی - جمعه ۲۰ مرداد بیست و پنجمین مراسم «تولد ماه» به مناسبت سالروز تولد مهرانه مهین‌ترابی، بازیگر سینما و تلویزیون، با حضور جمعی از هنرمندان در موزه هنرهای دینی برگزار شد.
حرکات عجیب احمدی  نژاد هنگام تعریف خاطرات بقایی از زندان!
حرکات عجیب احمدی نژاد هنگام تعریف خاطرات بقایی از زندان! - حرکات عجیب احمدی نژاد هنگام تعریف خاطرات حمید بقایی از دوران زندان کوتاه مدتش
آزاده نامداری تیتر یک پرتیراژترین روزنامه سوئیس/ عکس
آزاده نامداری تیتر یک پرتیراژترین روزنامه سوئیس/ عکس - روزنامه پرتیراژ عصر سوییس بنام بلیک که بصورت رایگان توزیع میشود ، این تیتر را برای آزاده نامدارى انتخاب کرد:دورویی!
 اولین تصاویر از مهران مدیری و دخترش شهرزاد
اولین تصاویر از مهران مدیری و دخترش شهرزاد - مراسم افتتاحیه فیلم «ساعت 5 عصر» اولین ساخته مهران مدیری در حالی برگزار شد که شهرزاد دختر این کارگردان نیز در مراسم حضور داشت و برای اولین بار است که دختر مهران مدیری در چنین مراسمی حضور می یابد.
    پربازدیدها