دوشنبه ۳۱ اردیبهشت ۱۳۹۷ / Monday, 21 May, 2018

نگاهی به موتورهای جست وجو در اینترنت


نگاهی به موتورهای جست وجو در اینترنت
حتماً شما هم بارها، زمانی که به یک مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت کامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان کوتاهی آن را پیدا کرده اید. اما آیا تابه حال فکر کرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی که شما می خواهید در مورد یک موضوع مخصوص اطلاعات کسب کنید، چگونه می دانید که چه صفحاتی را باید بخوانید؟ احتمالاً مانند اکثر مردم، شما از یک موتور جست وجوی اینترنت بازدید می کنید.
موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبکه هستند و طوری طراحی شده اند که به افراد کمک می کنند تا اطلاعات مورد نیازشان را که در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملکرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱) در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس کلمات مهم جست وجو را انجام می دهند.
۲) یک فهرست از کلماتی که پیداکرده اند و جایی که آنها را پیدا کرده اند، تهیه می کنند.
۳) این امکان را برای کاربران فراهم می کنند تا کلمات یا مجموعه ای از کلمات مورد نظر خود را که در فهرست یافت می شود جست وجو کنند.
موتورهای جست وجوی اولیه یک فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می کردند و در روز شاید یک یا دو هزار بازدیدکننده داشتند. امروزه یک موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می کند و در روز پاسخگوی ده ها میلیون جست وجو کننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به کار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبکه بیابیم.
● جست وجو میان صدها میلیون صفحه
قبل از اینکه یک موتور جست وجوگر بتواند به شما بگوید که یک فایل در کجا قرار دارد، باید آن فایل پیدا شود. یک موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه که در شبکه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به کار می گیرد تا لیستی از کلماتی که در سایت های شبکه یافت می شود را ایجاد کند. فرآیندی که یک spider لیست خود را ایجاد می کند، Web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید و مناسب از کلمات، یک spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی کند. چگونه هر spider مسیرش را در شبکه آغاز می کند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است که توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی که عمومی تر و معروف تر هستند. spider از یک سایت عمومی شروع می کند، کلمات موجود در صفحات آن را لیست می کند و هر لینکی که در آن سایت یافت می شود را دنبال می کند. به این طریق سیستم جست وجوگر به سرعت شروع به حرکت می کند و در بخش هایی که بیشتر از همه مورد استفاده قرار می گیرد حرکت می کند.
Google.com به عنوان یک موتور جست وجوگر علمی آغاز به کار کرد. سرجی برین و لورنس پیج بیان کرده اند که spiderهای سیستم آنها با چه سرعتی می توانند کار کنند. آنها سیستم اولیه خود را به گونه ای ساختند که از چندین spider استفاده کند، معمولاً سه تا در یک زمان. هر spider می توانست با حدود سیصد صفحه شبکه که در یک زمان باز بودند اتصال برقرار کند. در بهترین عملکرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ کیلو بایت داده را در هر ثانیه ایجاد کند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود که به فراهم کردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یک فراهم کننده سرویس اینترنتی برای DNS که نام یک سرور را به یک آدرس تبدیل می کند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانی که spider گوگل یک صفحه HTML را مشاهده می کرد، به دو نکته توجه می کرد: کلمات درون صفحه، در کجا کلمات پیدا شده اند.
کلماتی که در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی که دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی کاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر کلمه معنی داری در صفحه را فهرست می کرد و از کلمات a an, the صرف نظر می کرد. سایر spider ها از روش های متفاوتی استفاده می کردند. در کل تمامی این روش ها معمولاً سعی می کند تا عملکرد spider را سریع تر کند، به کاربران اجازه بدهد تا با کارایی بهتر و بهینه تر جست وجو کنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها کلماتی که در عنوان ها، عنوان های فرعی و لینک ها وجود دارند یا کلماتی که بارها در صفحه تکرار می شوند و هر کلمه ای در بیست خط اولیه متن را نگهداری می کند. سایت Lycos از این روش استفاده می کند.
سایر سیستم ها، از قبیل AltaVista، هر کلمه در صفحه، شاملa an, the و سایر کلمات که بی اهمیت هستند را هم لیست می کنند.
● ایجاد فهرست
زمانی که spider ها وظیفه یافتن اطلاعات از صفحات شبکه را به اتمام رساندند (البته باید در نظر داشته باشیم که این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبکه به این معنی است که spiders ها همیشه در حال حرکت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شکلی که مفید باشد، ذخیره کند. دو مولفه کلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای کاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی که توسط آن اطلاعات فهرست می شود.
در آسان ترین حالت، موتور جست وجوگر می تواند تنها کلمه و URL را ذخیره کند. در حقیقت، این روش برای موتوری با کاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینکه تعیین کند آیا کلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا کلمه تنها یک بار یا چندین مرتبه تکرار شده است یا صفحه لینک هایی به صفحات دیگری که شامل آن کلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده که تلاش می کند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.
برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر کلمه و URL ذخیره می کنند. موتور ممکن است تعداد دفعاتی که کلمه در صفحه تکرار شده است را ذخیره کند، یا ممکن است مقداری را به هر ورودی اختصاص بدهد و زمانی که کلمات در عناوین، عنوان های فرعی و لینک ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری کلمات فهرست خود دارد. این مسئله یکی از دلایلی است که موجب می شود جست وجوی یک کلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.
داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینکه آیا کلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت کلمه و سایر اطلاعاتی که به رتبه بندی آن کمک می کند را به صورت بیت و بایت ذخیره می کند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شکل بسیار فشرده ای ذخیره شود. بعد از اینکه اطلاعات فشرده شد، برای فهرست شدن آماده است.
هدف از ایجاد یک فهرست این است که باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممکن پیدا کنیم. به طور کل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یکی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به کار می رود تا به هر کلمه یک ارزش عددی اختصاص بدهد.
پرسش و جست وجوی انجام شده توسط کاربر می تواند خیلی ساده باشد، حتی یک کلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده کنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملکرد یک موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از کلمات و جایی که قرار دارند فراهم می کند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می کند، داده ها را رمزگذاری می کند و سرانجام اطلاعات را برای دسترسی کاربران ذخیره می کند.
● آینده موتورهای جست وجوگر
در جست وجوهایی که از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان کلمات یا عبارتی که وارد شده است را جست وجو می کند. زمانی که کلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشکل است. در این حالت، اگر برای شما تنها یکی از معانی آن کلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را که شامل معانی دیگر کلمه است ببینید. شما می توانید یک جست وجوی لفظی ایجاد کنید که تا حدودی معنی های ناخواسته را حذف کند، اما بهتر این بود که خود موتور جست وجو می توانست این کار را انجام بدهد.
یکی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده کردن از تحلیل های آماری صفحاتی که شامل کلمات یا عباراتی است که شما جست وجو می کنید، برای اینکه صفحات دیگری را که ممکن است شما به آن علاقه داشته باشید پیدا کند. بدیهی است که در یک موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می کنند تا نتایج و عملکرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری که پژوهشگران درباره آن تلاش می کنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است که شما بتوانید پرسش تان را به گونه ای تایپ کنید مثل اینکه آن را از شخصی که کنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده کنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده کار می کند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.
همچنان تلاش های بسیاری برای افزایش کیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.
لیستی از سایت های مهم دارای موتور جست وجو
▪ AltaVista
▪ Dogpile
▪ Go
▪ Google
▪ HotBot
▪ Looksmart
▪ Lycos
▪ Mamma
▪ Metacrawler
▪ Northern Light
▪ Open Directory Project
▪ Search.com
▪ NBCi
▪ WebCrawler
▪ Yahoo


منبع : ایده پویا

مطالب مرتبط

بررسی کمی و کیفی موتور های جستجو

بررسی کمی و کیفی موتور های جستجو

وبگردی
عکسی عجیب و جنجالی از سید ابراهیم رئیسی
عکسی عجیب و جنجالی از سید ابراهیم رئیسی - عکسی از حضور سید ابراهیم رئیسی در مراسمی ویژه منتشر شده است که گفته می شود متعلق به کنفرانس افق نو در مشهد بوده است. در این عکس حرکات عجیب خانمی با لباس های قرمز، چفیه بر گردن و پرچم در دست در مقابل ابراهیم رییسی به چشم می خورد که توجه کاربران بسیاری را در شبکه های اجتماعی جلب کرده است!
ویدئو / مراسم بدرقه تیم ملی فوتبال ایران
ویدئو / مراسم بدرقه تیم ملی فوتبال ایران - مراسم بدرقه تیم ملی فوتبال ایران با حضور اصحاب هنر و ورزش یکشنبه ۳۰ اردیبهشت در تالار وحدت برگزار شد. در این مراسم که با حضور بازیکنان و کادر فنی تیم ملی به همراه اعضای هیات رییسه فدراسیون فوتبال انجام شد، از سرود رسمی تیم ملی ایران رونمایی گردید.
ویدئو / دیدار ملی‌پوشان فوتبال ایران با روحانی
ویدئو / دیدار ملی‌پوشان فوتبال ایران با روحانی - رئیس جمهور در دیدار با ملی‌پوشام فوتبال ایران از بازیکنان و کادر فنی تقدیر کرد. در این مراسم پیراهن شماره ۱۲ تیم ملی فوتبال کشورمان به حسن روحانی اهدا شد.
حمله ماموران شهرداری به پلیس راهور!
حمله ماموران شهرداری به پلیس راهور! - حمله ور شدن ماموران سد معبر شهرداری به ماموران راهنمایی رانندگی
دستگیری معروف ترین شرور تهران، در ۵۰۰ متری مرز ترکیه
دستگیری معروف ترین شرور تهران، در ۵۰۰ متری مرز ترکیه - شرور سطح یک که در آخرین اقدام خود یکی از دوستانش را در منطقه ولنجک به قتل رسانده بود؛ در ۵۰۰ متری مرز ترکیه دستگیر شد.
لحظه ریزش وحشتناک کوه در جاده هراز!
لحظه ریزش وحشتناک کوه در جاده هراز! - ریزش ناگهانی کوه که توسط مسافران به ثبت رسیده است...!
همسر محسن افشانی با ریش و سبیل در استادیوم آزادی دستگیر شد
همسر محسن افشانی با ریش و سبیل در استادیوم آزادی دستگیر شد - قبل از شروع بازی تیم‌های پرسپولیس و الجزیره یکی از بازیگران سینما کشورمان قصد داشت به همراه همسرش وارد ورزشگاه آزادی شوند که این دو نفر توسط نیروهای انتظامی بازداشت شدند.
فیلم | خسرو معتضد: جسد مومیایی قطعا متعلق به رضاخان است
فیلم | خسرو معتضد: جسد مومیایی قطعا متعلق به رضاخان است - فیلم - در ویدئوی زیر بخشی از صحبت های خسرو معتضد، مورخ را می شنوید که نتیجه تحقیقاتش را درباره مومیایی پیدا شده در حرم حضرت عبدالعظیم بیان می کند.
پهلوانان این روزهای ما
پهلوانان این روزهای ما - تصویری زننده و به شدت ناراحت کننده بر جا مانده از مسابقه انتخابی تیم ملی کشتی ایران که به کتک کاری و جنجال کشید. خانواده عبدولی باز هم پای ثابت این درگیری بود که چهره ورزش پهلوانی ایران را تیره کرد
(ویدئو) تشویق اصغر فرهادی در جشنواره کن توسط بزرگان سینمای جهان
(ویدئو) تشویق اصغر فرهادی در جشنواره کن توسط بزرگان سینمای جهان - در این ویدئو تشویق اصغر فرهادی و پنه لوپه کروز، خاویر باردم و دیگر عوامل فیلم «همه میﺩﺍنند» در جشنواره کن توسط بزرگان سینمای جهان را مشاهده می‌کنید.
فیلم حجوم داعشی‌های حاتمی کیا به یک مرکز خرید و وحشت و اعتراض مردم
فیلم حجوم داعشی‌های حاتمی کیا به یک مرکز خرید و وحشت و اعتراض مردم - عوامل فیلم «به وقت شام» روز گذشته با حضور عجیب و رعب آور در پردیس سینمایی کوروش مردم را وحشت زده کردند. در این حرکت تبلیغاتی بازیگران نقش داعش، با گریم و پوشش داعشی ها، سوار بر اسب راهی پردیس سینمایی کوروش شدند و با حضور در مرکز خرید و فودکورت مجموعه، رفتارهای عجیبی نشان دادند که باعث وحشت و اعتراض مردم شد.
تصاویر مخفی از بزرگترین مرکز فروش مواد مخدر در جنوب تهران / فیلم
تصاویر مخفی از بزرگترین مرکز فروش مواد مخدر در جنوب تهران / فیلم - این گزارش حاوی تصاویری از بزرگترین مرکز فروش و مصرف مواد مخدر در جنوب شرق تهران است که مخفیانه ضبط شده‌است.
کشتار اسب‌های کولبران / فیلم
کشتار اسب‌های کولبران / فیلم - متاسفانه طی یک ماه گذشته دستکم سه نوبت و هر نوبت دستکم 30 اسب باربر متعلق به کولبران در جنگل میرآباد شهرستان اشنویه با شلیک گلوله از پای درآمده‌اند.
سید احمد خمینی معمم شد
سید احمد خمینی معمم شد - سید احمد خمینی فرزند آیت‌الله سید حسن خمینی در حضور جمعی از علما و پدر و پدربزرگ خود در حسینیه جماران معمم شد.
دختران پرسپولیسی با ریش و سبیل در ورزشگاه آزادی!
دختران پرسپولیسی با ریش و سبیل در ورزشگاه آزادی! - امروز عکسی از 5 تماشاگر بازی روز گذشته در رسانه‌ها و شبکه‌های اجتماعی منتشر شده که نشان می‌دهد 5 دختر جوان با گریم‌های عجیب و حرفه‌ای خودشان را به عنوان پسر جا زده و وارد ورزشگاه شده‌اند.
اگر با وجود این مشکلات ملت قیام کند همه ما را به دریا خواهد ریخت
اگر با وجود این مشکلات ملت قیام کند همه ما را به دریا خواهد ریخت - از ملتی که ستون فقراتش شکسته انتظار مقاومت دارید؟ بسیاری از کشور فرار کردند یا جای فرار خود را فراهم آوردند اما ما جای فرار نداریم
جنجال ویدیو دختر بازیگر روی کول بازیکن پرسپولیس!
جنجال ویدیو دختر بازیگر روی کول بازیکن پرسپولیس! - عکس و ویدیویی منتسب به ستاره پرسپولیس فرشاد احمدزاده و ترلان پروانه بازیگر سینما و تلویزیون در فضای مجازی منتشر شده است. عجب پاپراتزی‌هایی داریم!