چهارشنبه, ۱۵ اسفند, ۱۴۰۳ / 5 March, 2025

مجله ویستا

جست وجو میان صدها میلیون صفحه

حتماً شما هم بارها، زمانی كه به یك مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت كامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان كوتاهی آن را پیدا كرده اید. اما آیا تابه حال فكر كرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی كه شما می خواهید در مورد یك موضوع مخصوص اطلاعات كسب كنید، چگونه می دانید كه چه صفحاتی را باید بخوانید؟ احتمالاً مانند اكثر مردم، شما از یك موتور جست وجوی اینترنت بازدید می كنید.موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبكه هستند و طوری طراحی شده اند كه به افراد كمك می كنند تا اطلاعات مورد نیازشان را كه در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملكرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱ - در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس كلمات مهم جست وجو را انجام می دهند.
۲- یك فهرست از كلماتی كه پیداكرده اند و جایی كه آنها را پیدا كرده اند، تهیه می كنند.
۳ - این امكان را برای كاربران فراهم می كنند تا كلمات یا مجموعه ای از كلمات مورد نظر خود را كه در فهرست یافت می شود جست وجو كنند.
موتورهای جست وجوی اولیه یك فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می كردند و در روز شاید یك یا دو هزار بازدیدكننده داشتند. امروزه یك موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می كند و در روز پاسخگوی ده ها میلیون جست وجو كننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به كار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبكه بیابیم.
• جست وجو میان صدها میلیون صفحه
قبل از اینكه یك موتور جست وجوگر بتواند به شما بگوید كه یك فایل در كجا قرار دارد، باید آن فایل پیدا شود. یك موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه كه در شبكه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به كار می گیرد تا لیستی از كلماتی كه در سایت های شبكه یافت می شود را ایجاد كند. فرآیندی كه یك spider لیست خود را ایجاد می كند، Web crawling نامیده می شود. برای ایجاد و نگهداری یك لیست مفید و مناسب از كلمات، یك spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی كند. چگونه هر spider مسیرش را در شبكه آغاز می كند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است كه توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی كه عمومی تر و معروف تر هستند. spider از یك سایت عمومی شروع می كند، كلمات موجود در صفحات آن را لیست می كند و هر لینكی كه در آن سایت یافت می شود را دنبال می كند. به این طریق سیستم جست وجوگر به سرعت شروع به حركت می كند و در بخش هایی كه بیشتر از همه مورد استفاده قرار می گیرد حركت می كند.Google.com به عنوان یك موتور جست وجوگر علمی آغاز به كار كرد. سرجی برین و لورنس پیج بیان كرده اند كه spiderهای سیستم آنها با چه سرعتی می توانند كار كنند. آنها سیستم اولیه خود را به گونه ای ساختند كه از چندین spider استفاده كند، معمولاً سه تا در یك زمان. هر spider می توانست با حدود سیصد صفحه شبكه كه در یك زمان باز بودند اتصال برقرار كند. در بهترین عملكرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ كیلو بایت داده را در هر ثانیه ایجاد كند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود كه به فراهم كردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یك فراهم كننده سرویس اینترنتی برای DNS كه نام یك سرور را به یك آدرس تبدیل می كند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.زمانی كه spider گوگل یك صفحه HTML را مشاهده می كرد، به دو نكته توجه می كرد: كلمات درون صفحه، در كجا كلمات پیدا شده اند. كلماتی كه در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی كه دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی كاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر كلمه معنی داری در صفحه را فهرست می كرد و از كلمات a an, the صرف نظر می كرد. سایر spider ها از روش های متفاوتی استفاده می كردند. در كل تمامی این روش ها معمولاً سعی می كند تا عملكرد spider را سریع تر كند، به كاربران اجازه بدهد تا با كارایی بهتر و بهینه تر جست وجو كنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها كلماتی كه در عنوان ها، عنوان های فرعی و لینك ها وجود دارند یا كلماتی كه بارها در صفحه تكرار می شوند و هر كلمه ای در بیست خط اولیه متن را نگهداری می كند. سایت Lycos از این روش استفاده می كند. سایر سیستم ها، از قبیل AltaVista، هر كلمه در صفحه، شاملa an, the و سایر كلمات كه بی اهمیت هستند را هم لیست می كنند.
• ایجاد فهرست
زمانی كه spider ها وظیفه یافتن اطلاعات از صفحات شبكه را به اتمام رساندند (البته باید در نظر داشته باشیم كه این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبكه به این معنی است كه spiders ها همیشه در حال حركت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شكلی كه مفید باشد، ذخیره كند. دو مولفه كلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای كاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی كه توسط آن اطلاعات فهرست می شود.در آسان ترین حالت، موتور جست وجوگر می تواند تنها كلمه و URL را ذخیره كند. در حقیقت، این روش برای موتوری با كاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینكه تعیین كند آیا كلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا كلمه تنها یك بار یا چندین مرتبه تكرار شده است یا صفحه لینك هایی به صفحات دیگری كه شامل آن كلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده كه تلاش می كند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر كلمه و URL ذخیره می كنند. موتور ممكن است تعداد دفعاتی كه كلمه در صفحه تكرار شده است را ذخیره كند، یا ممكن است مقداری را به هر ورودی اختصاص بدهد و زمانی كه كلمات در عناوین، عنوان های فرعی و لینك ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری كلمات فهرست خود دارد. این مسئله یكی از دلایلی است كه موجب می شود جست وجوی یك كلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینكه آیا كلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت كلمه و سایر اطلاعاتی كه به رتبه بندی آن كمك می كند را به صورت بیت و بایت ذخیره می كند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شكل بسیار فشرده ای ذخیره شود. بعد از اینكه اطلاعات فشرده شد، برای فهرست شدن آماده است.هدف از ایجاد یك فهرست این است كه باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممكن پیدا كنیم. به طور كل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یكی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به كار می رود تا به هر كلمه یك ارزش عددی اختصاص بدهد.پرسش و جست وجوی انجام شده توسط كاربر می تواند خیلی ساده باشد، حتی یك كلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده كنید تا بتوانید شرایط جست وجو را گسترش بدهید.به طور خلاصه عملكرد یك موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از كلمات و جایی كه قرار دارند فراهم می كند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می كند، داده ها را رمزگذاری می كند و سرانجام اطلاعات را برای دسترسی كاربران ذخیره می كند.
• آینده موتورهای جست وجوگر
در جست وجوهایی كه از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان كلمات یا عبارتی كه وارد شده است را جست وجو می كند. زمانی كه كلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشكل است. در این حالت، اگر برای شما تنها یكی از معانی آن كلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را كه شامل معانی دیگر كلمه است ببینید. شما می توانید یك جست وجوی لفظی ایجاد كنید كه تا حدودی معنی های ناخواسته را حذف كند، اما بهتر این بود كه خود موتور جست وجو می توانست این كار را انجام بدهد.یكی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده كردن از تحلیل های آماری صفحاتی كه شامل كلمات یا عباراتی است كه شما جست وجو می كنید، برای اینكه صفحات دیگری را كه ممكن است شما به آن علاقه داشته باشید پیدا كند. بدیهی است كه در یك موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می كنند تا نتایج و عملكرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری كه پژوهشگران درباره آن تلاش می كنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است كه شما بتوانید پرسش تان را به گونه ای تایپ كنید مثل اینكه آن را از شخصی كه كنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده كنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده كار می كند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.همچنان تلاش های بسیاری برای افزایش كیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.

چهارشنبه, ۱۵ اسفند, ۱۴۰۳ / 5 March, 2025

جست وجو میان صدها میلیون صفحه

کیانا به مهد کودک می‌رود

◊ نویسنده : لی‌آنه اشنایدر,اواونسل بورگر,ملیحه شکوهی,حمیدرضا صفایی ◊ موضوع : داستانهای اجتماعی,مهدکودک - داستان

کتاب آمریکا (4) (ویژه نومحافظه‌کاران …

سیره چهارده معصوم (ع)

آبله مرغان

توانمند سازی مردم در شناسایی و حل مشکلات جامعه با تشکیل پایگاه تحقیقات توسعه و ارتقای سلامت فرخ شهر، استان چهارمحال و بختیاری

تحقیق مشارکتی جامعه محور نوعی از پژوهش علمی است که به تازگی در علوم بهداشتی مورد توجه قرار گرفته است.

نوآوری، مطالبه حقوق مردم از متن انقلاب

۳ شهریور ۱۳۸۶ ــ ۲۵ اوت ــ اسرانجام مردی که بر قرارداد تقسیم ایران امضا گذارد

چکیده سیوطی

صرع و زنان

آغاز تحول در صفحات اقتصادی

دوسالانه‌ی شیمی (2) سال دوم دبیرستان شامل: 300 سوال با پاسخ تشریحی (در صفحات زوج) و 300 سوال مشابه بدون پاسخ تشریحی جهت تمرین بیشتر ...

گاهشمار نجومی سال 1385

◊ نویسنده : داود همتی,سهیل خوشبین‌فر,امیر حسن‌زاده

آزادی آموزشی

مرجع شناخت با تاکید بر منابع اسلامی

◊ موضوع : اسلام - کتابشناسی

تفسیر نمونه: تفسیر و بررسی تازه‌ای درباره قرآن مجید با در نظر گرفتن نیازها, خواستها, پرسشها, مکتبها

نمایشنامه 'تواضع' براساس کتاب 'هفتاد …

تاثیر مشابه دارونما با کدئین

توسعه فرهنگ پژوهش در آموزش و پرورش‌

لالایی معصومین '13': امام حسن عسکری (ع)

در سیزدهمین جلد از مجموعه حاضر که در قالب شعر و برای کودکان فراهم آمده زندگانی …

و اینک ماه رمضان آمد، ماه رحمت و مغفرت

آثار نقاشی عزیزالله گل کارزاده

◊ نویسنده : عزیزالله گلکارزاده ◊ موضوع : نقاشیهای ایرانی - قرن ۱۴

بهاءالدین محمد سلطان ولد

ثروتمندان این‌گونه می‌اندیشند (2)

سه روز محاصره: روایت محمدهادی از شلحه

قدرت ذهن در قرن بیست و یک

◊ نویسنده : علی ابوطالبی,مجید پزشکی,جان کیو ◊ موضوع : اندیشه و تفکر,اندیشه و تفکر خلاق,پرورش ذهن

اقتصاد امریکا به کدام سو؟

در اقتصاد تنها با حوزه تولید سروکار نداریم، بلکه با حوزه مصرف نیز در ارتباط هستیم و کارگران افزون بر تولید مصرف کننده اصلی کالاها هم هستند.

مفاهیم ریاضی عمومی (1) دوره پیش‌دانشگاهی: رشته علوم تجربی

◊ نویسنده : همتی - رمضانآصفی‌املشی - رحیمشجاع - احمد

کبوتران حرم (2): مجموعه‌ی شعر، نوحه، شور و ... درباره‌ی حضرت زهرا، امام حسین، حضرت زینب، حضرت اباالفضل (علیهم السلام) همراه با مناسبت‌های ماه‌های رجب

این کتاب کوچک شامل شعر، نوحه، و مرثیه‌هایی در باب اهل بیت (ع) است که به مناسبت ماه‌های رجب و شعبان سروده شده است.

رویکردی عملی به امنیت شبکه لایه بندی شده

امروزه امنیت شبکه یک مسأله مهم برای ادارات و شرکتهای دولتی و سازمان های کوچک و بزرگ است.

فرهنگ معین (فارسی): ش ـ ک

◊ نویسنده : معین - محمد

میوه چربی سوز

مقاله ای پیرامون تعزیه و شبیه خوانی تعزیه

تعزیه و تعزیت، هم به معنای تسلیت گفتن به یک داغدار از مصیبت است،هم به‏معنای اجرای نوعی نمایش مذهبی به یاد حادثه عاشورا که‏«شبیه‏خوانی‏»هم گفته‏می‏شود.

کیمیای سعادت

◊ نویسنده : احمد آرام,محمدبن‌محمد غزالی ◊ موضوع : اخلاق اسلامی,تصوف,نثر فارسی - قرن ۵

خودآموز سریع Corel

◊ نویسنده : سالمی‌فیه - کیوانسردارزاده - فرشته

توسعه و توسعه‌‌یافتگی

«هلند» در پنج بند

گنجینه پرسش‌های طلایی زبان و معارف پیش‌دانشگاهی (1)

◊ نویسنده : دپارتمان‌زبان‌آیندگان -

منازل الاخره: پیرامون مرگ و عالم پس از مرگ

◊ نویسنده : قمی - عباس

بلدی کادو بگیری؟

تولید پلاستیک در مزارع سیب زمینی

نگاهی به مزیت های استفاده از پلاستیک های تجزیه پذیر ....

مقصد [فیلمنامه]

چگونه به ستارگان نگاه کنیم؟

شهریار

◊ نویسنده : ماکیاولی - نیکولو

اهمیت حیاتی ترانزیت برای اقتصاد ایران

بحثی ساده و کوتاه پیرامون: حکومت اسلامی و ولایت فقیه

◊ نویسنده : مصباح - محمدتقی

تاملی در باب حقیقت از نظر ژان بودریار

ژان بودریار فیلسوف و متفکر نامی اروپایی (فرانسوی)در ۲۰ ژوئن ۱۹۲۹ به دنیا آمد و چندی پیش در مارس ۲۰۰۷میلادی چشم از جهان فرو بست.

کوسن با طرح قلب

امام پاکان: حضرت امام هادی (ع)

◊ نویسنده : مرادحاصل - مهدی

Oxford elementary learner's dictionary

◊ نویسنده : Crawley - Angela

حدیث واقعه, یا, ... در مدینه چه گذشت

ببینید: ارتش مخفی اوکراین

در انتظار ژوئن بحرانی؛ چرا بی‌بی به دنبال خارج کردن پرونده ایران از …

یک کشور دروزی در سوریه در حال شکل‌گیری است! - دیپلماسی ایرانی

اقتصاد ایران؛ جزیره دورافتاده تجارت جهانی/ تعطیلی پنجشنبه ایران را …

خواب ترامپ برای «ساخت چین»