شنبه, ۲۱ مهر, ۱۴۰۳ / 12 October, 2024
مجله ویستا

موتور های جستجو


موتور های جستجو
امروزه بر روی اینترنت و مهمترین سرویس آن ( وب )، صدها میلیون صفحه حاوی اطلاعات وجود دارد. کاربران اینترنت با آگاهی از آدرس یک سایت ، قادر به اتصال به سایت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سایت خواهند بود. ما با دریائی از اطلاعات مواجه هستیم ، در صورتیکه قصد یافتن اطلاعاتی خاص را داشته باشیم ، از چه امکاناتی در این زمینه می توان استفاده کرد. ؟ برای جستجو و یافتن اطلاعات مورد نیاز از مراکز جستجوی اطلاعات در اینترنت استفاده می گردد . به مراکز فوق Search engines نیز می گویند.
مراکز جستجو در اینترنت ، نوع خاصی از سایت های موجود در وب بوده که با هدف کمک برای یافتن اطلاعات ، ایجاد شده اند. مراکز جستجو در اینترنت بمنظور پاسخگوئی به کاربران متقاضی و جستجوکنندگان اطلاعات از سه روش متفاوت استفاده می نمایند. نحوه عملکرد سه روش با یکدیگر مشابه بوده و تنها تفاوت موجود میدان انتخاب شده برای عملیات جستجو است .
▪ اینترنت و یا بخشی از آن بر اساس کلمات مهم ، جستجو می گردد.
▪ از کلمات پیدا شده یک ایندکس بهمراه محل مربوط به هر یک ، ایجاد می نمایند.
▪ به کاربران امکان جستجو برای کلمات خاص و یا ترکیبی از آنها که در فایل ایندکس موجود می باشند ، داده می شود.
مراکز جستجوی اولیه در اینترنت ، صرفا" اطلاعات مربوط به چندین هزار صفحه وب را ایندکس و روزانه دو تا سه هزار کاربر متقاضی به آنها مراجعه می کردند. مراکز جستجوی فعلی در اینترنت اطلاعات مربوط به صدها میلیون صفحه را ایندکس نموده و روزانه به بیش از دهها میلیون متقاضی پاسخ می دهند.
● وب
اغلب مردم زمانیکه از مراکز جستجو در اینترنت سخن می گویند ، منظور آنها مراکز جستجوی وب است . قبل از مطرح شدن وب ( مشهورترین بخش اینترنت ) ، از مراکز جستجوی اطلاعات برای کمک به کاربران برای یافتن اطلاعات استفاده می گردید. برنامه هائی نظیر : " gopher" و " Archie" از فایل های ذخیره شده بر روی سرویس دهنده های متصل به اینترنت ، یک ایندکس ایجاد می کردند. بدین ترتیب جستجو و دسترسی به اطلاعات و مستندات مورد نظر در اسرع وقت انجام می گردید. در اواخر سال ۱۹۸۰ اکثر کاربران مستلزم دارابودن دانش کافی در رابطه با استفاده از gopher,Archie و Veronica بودند. امروزه اکثر کاربران اینترنت دامنه جستجوی خود را محدود به وب نموده اند.
قبل از اینکه یک مرکز جستجو قادر به ارائه آدرس و محل فایل مورد نظر باشد ، می بایست فایل مورد نظر پیدا شود. بمنظور یافتن اطلاعات مربوط به صدها میلیون صفحه وب موجود ، مراکز جستجو می بایست از یک نرم افزار خاص با نام Spider ( عنکبوت ) برای ایجاد لیست های شامل کلمات موجود در هر یک از صفحات وب ، استفاده نمایند. فرآیند ایجاد لیست های مربوطه توسط Spider ، اصطلاحا" web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید از کلمات ، Spider های مراکز جستجو می بایست تعداد زیادی از صفحات وب را بررسی و مشاهده نمایند. نحوه حرکت Spider در وب به چه صورت است ؟ نقاط شروع ، لیستی از سرویس دهندگان با ترافیک و اطلاعات بالا و صفحات وب متداول است . Spider از یک سایت رایج عملیات خود را آغاز و پس از ایندکس نمودن کلمات موجود در صفحات وب ، هر یک از لینک های موجود در صفحات را برای ادامه حرکت خود انتخاب خواهد کرد. بدین ترتیب سیستم مبتنی بر Spider بسرعت حرکت خود در طول وب را آغاز خواهد کرد.
Google یکی از مراکز جستجوی دانشگاهی و معتبر است . در سیستم فوق از چندین Spider ( معمولا" سه Spider در هر لحظه ) برای ایجاد مقادیر اولیه برای سیستم ، استفاده می گردد . هر Spider قادر به نگهداری ارتباط خود با بیش از ۳۰۰ صفحه وب در یک لحظه است . با استفاده از چهار spider ، سیستم فوق قادر به جستجوی ۱۰۰ صفحه در ثانیه و تولید ۶۰۰ کیلوبایت اطلاعات در هر ثانیه است . اطلاعات مورد نیاز هر یک از spider ها می بایست بسرعت در اختیار آنان گذاشته شود. سیستم اولیه Google ، دارای یک سرویس دهنده اختصاصی بمنظور تغذیه آدرس های URL مورد نیاز برای هر یک از Spider ها بود. بمنظور افزایش سرعت عملیات ، Google از یک سیستم DNS اختصاصی استفاده می کرد. ( در سایر موارد از DNS مربوط به ISP استفاده می گردد ) . زمانیکه Spider به یک صفحه وب شامل تگ های Html برخورد می نماید ، دو آیتم در رابطه با آن را یاداشت خواهد کرد :
▪ کلمات موجود در صفحه
▪ محلی که کلمات پیدا شده اند.
از کلمات موجود در عنوان (title) ، زیرعناوین (Subtitles) ، تگ های متا و سایر مکانهای مهم یاداشت برداشته شده تا در آینده با توجه به خواسته کاربر ، امکان پاسخگوئی مناسب به آنها فراهم گردد. Spider مربوط به Google ، از کلمات موجود در هر یک از صفحات وب ایندکس ایجاد و کلماتی نظیر : "a" ، "an" و "the" را حذف می نمایند. سایر Spider ها هر یک دارای رویکردهای خاص خود در این زمینه می باشند.
سیاست های استفاده شده در رابطه با نحوه ایندکس نمودن اطلاعات صفحات وب ، مستقیما" بر سرعت عملکرد spider ها تاثیر گذاشته و به کاربران امکان جستجوی قدرتمندتر و کارآ را خواهد داد. مثلا" برخی از Spider ها ، علاوه بر نگهداری اطلاعات مربوط به عناوین و لینک ها ، یکصد کلمه با فرکانس تکرار بیشتر در صفحه وب و کلمات موجود در بیست خط اولیه را نیز نگهداری خواهند کرد. مرکز جستجوی Lycos از رویکرد فوق استفاده می نماید.
سیستم های دیگر نظیر " Altavista ، از روش خاص خود در این زمینه استفاده می نمایند. در سیستم فوق برای هر یک از کلمات موجود در صفحه شامل "a" ، "an" و "the" و سایر کلمات مشابه نیز ایندکس ایجاد می گردد.
● تگ های متا
با استفاده از تگ های متا ، ایجاد کنندگان صفحات وب می توانند کلمات کلیدی موجود در صفحه و نحوه ایندکس نمودن آن را مشخص نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی می باشد بسیار مفید و کارساز خواهد بود. بدین ترتیب تگ های فوق به مراکز جستجو راهنمائی لازم در خصوص انتخاب معنی مربوط به کلمات مورد نظر را خواهند داد. در این راستا ممکن است برخی از راهنمائی های انجام شده نیز اغفال کننده بوده و نتایج مثبتی را برای مراکز جستجو بدنبال نداشته باشد. بمنظور پیشگیری از راهنمائی های اغفال کننده توسط تگ های متا ، برنامه های Spider عملیات بازبینی محتویات یک صفحه وب را بمنظور تطبیق با اطلاعات ارائه شده توسط تگ ها ی متا ، انجام می دهند. اطلاعات نادرست ارائه شده بوسیله تگ های متا ، توسط Spider ها نادیده گرفته می شود.
تمام موارد فوق مفروض به حالتی است که ایجاد کننده صفحه وب قصد معرفی صفحه ایجاد شده خود را به مراکز جستجو دارد. در برخی موارد ممکن است تمایلی به انجام این کار وجود نداشته باشد.
● ایجاد ایندکس
پس از اینکه عملیات Spider ها در رابطه با یافتن اطلاعات به اتمام رسید ، ( عملیات فوق در عمل با توجه به ماهیت وب و استقرار صفحات وب جدید هرگز به پایان نخواهد رسید ، بنابراین همواره عملیات جستجو و یافتن اطلاعات توسط Spider ها انجام می گیرد) مراکز جستجو می بایست اطلاعات مورد نظر را بگونه ای ذخیره نمایند که قابل استفاده باشند. دو روش عمده در این راستا وجود دارد:
▪ اطلاعات بهمراه داده ذخیره گردند.
▪ با استفاده از روشی اطلاعات ایندکس گردند.
در ساده ترین حالت ، یک مرکز جستجو می تواند صرفا" کلمه و آدرس URL آن را ذخیره نماید. روش فوق در بازیابی اطلاعات و جستجو توسط کاربران ایجاد محدودیت خواهد کرد. با استفاده از روش فوق نمی توان جایگاه و وزن یک کلمه در یک صفحه وب را مشخص نمود. مثلا" نمی توان تشخیص داد که کلمه مورد نظر چند مرتبه در صفحه تکرار شده و یا لینک های موجود در صفحه نیز شامل کلمه مورد نظر می باشند یا خیر . بدین ترتیب امکان ارائه یک لیست از صفحات وب که شامل کلمه مورد نظر بر اساس میزان تکرار می باشند ، وجود نخواهد داشت .
بمنظور ارائه نتایج مفیدتر توسط مراکز جستجو ، اکثر مراکز جستجو صرفا" کلمه و آدرس URL را ذخیره نمی نمایند . در این حالت مواردی نظیر : تعداد تکرار کلمه در صفحه نیز ذخیره خواهد شد. مراکز جستجو همچنین به هر entry یک وزن را نسبت خواهند داد. وزن نسبت داده شده، نشاندهنده جایگاه کلمه در صفحه است ( ابتدای صفحه ، در لینک ها ، در تگ های متا و یا در عنوان صفحه ) هر یک از مراکز جستجو برای اختصاص یک وزن مناسب به کلمه مورد نظر از یک فورمول استفاده می نمایند. موضوع فوق یکی از دلایلی است که جستجو یک کلمه توسط دو مرکز جستجو ، نتایج مشابه ای را بدنبال نخواهد داشت .
مراکز جستجو بدلیل استفاده بهینه از فضای ذخیره سازی ، اطلاعات مورد نظر را بصورت رمز شده ذخیره می نمایند. مثلا" در نسخه اولیه سایت Google از دو بایت بمنظور ذخیره سازی اطلاعات مربوط به کلمات در یک صفحه استفاده می کردند. کلمات بصورت حروف بزرگ بهمراه اندازه فونت ، وزن و موقعیت آن ذخیره می گردید. هر یک از فاکتورهای فوق دو ویا سه بیت از دو بایت اشاره شده را به خود اختصاص می دادند. بدین ترتیب اطلاعات گسترده ای بصورت فشرده ذخیره و سپس عملیات ایجاد ایندکس انجام می گیرد.
ایندکس دارای صرفا" یک هدف است : امکان یافتن اطلاعات با سرعت بالا . برای ایجاد ایندکس از روش های متعددی استفاده می گردد. یکی از بهترین روش های موجود ، ایجاد یک جدول Hash است . در روش hashing ، از یک فورمول برای اختصاص یک عدد به یک کلمه استفاده می گردد. توزیع عددی با توزیع کلمات بصورت الفبائی با یکدیگر متفاوت بوده و همین امر ، موثر بودن جداول hash را بدنبال خواهد داشت . در زبان انگلیسی حروفی وجود دارد که کلمات زیادی با آنان آغاز می گردد. مثلا" بخش حرف "M" ، در یک دیکشنری بمراتب قطورتر از حرف "X" است . بدین ترتیب جستجو و یافتن کلماتی که با حرف M شروع می گردند زمان بمراتب بیشتری نسبت به یافتن کلماتی که با حرف "X" آغاز می گردند ، را طلب می کند. در روش hashing ، با آگاهی از موارد فوق، بگونه ای رفتار می گردد که متوسط زمان بازیابی هر کلمه کاهش یابد. در روش فوق ایندکس از داده واقعی متمایز می گردد. جدول hash ، شامل شماره hash بهمراه اشاره گری است که به داده مورد نظر اشاره می نماید. با ایجاد یک سیستم ایندکس مناسب و ذخیره سازی مطلوب اطلاعات ، امکان ارائه نتایج مفید برای کاربران را فراهم خواهد کرد.
● جستجو
کاربران برای جستجوی اطلاعات مورد نیاز ، پس از ورود به سایت مرکز جستجو ، یک query را ایجاد می نمایند. query می تواند ساده و صرفا" شامل یک کلمه و یا پیچیده و استفاده از عملگرهای منطقی باشد. برخی از عملگرهای منطقی عبارتند از :
▪ AND . تمام کلماتی که توسط AND بیکدیگر ملحق شده اند ، می بایست در صفحه موحود باشند. در برخی از مراکز جستجو از عملگر "+" بعنوان عملگر جایگزین AND نیز استفاده می شود.
▪ OR . حداقل یکی از کلماتی که توسط OR بیکدیگر ملحق شده اند ، می بایست در صفحه موجود باشد .
▪ NOT . کلمه بعد از NOT نباید در صفحه موجود باشد. برخی از مراکز جستجو از عملگر "-" نیز استفاده می نمایند.
▪ Followed by . یکی از کلمات می بایست مستقیما" پس از کلمه دیگر وجود داشته باشد.
● آینده مراکز جستجو
جستجوهائی که توسط عملگرهای منطقی تعریف می گردند از نوع جستجوهای literal می باشند. مراکز جستجو بمنظور ارائه نتایج مورد نظر کاربر ، دقیقا" کلمه و یا کلمات مشخص شده توسط کاربر در بانک اطلاعاتی جستجو می نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی باشد ، نتایج مثبتی را بدنبال نخواهد داشت . برای اخذ نتایج دلخواه ، کاربران اینترنت می توانند با استفاده از عملگرهای منطقی محدودیت هائی را ایجاد نمایند ، روش مناسب این است که محدودیت فوق از طریق مرکز جستجو اعمال گردد.
یکی از مواردیکه اخیرا" توسط محققین متفاوتی در مراکز جستجو دنبال می گردد ، جستجو بر اساس مفهوم است .در روش فوق با استفاده از آنالیزهای آماری بر روی صفحات شامل کلمات سعی در ارائه نتایج مطلوبتری وجود دارد. در برخی موارد دیگر استفاده از زبانهای طبیعی برای جستجو دنبال می گردد. در روش فوق برای طرح سوال خود از یک مرکز جستجو از روشی که توسط انسان برای طرح سوالات مربوطه استفاده می گیرد، استفاده خواهد شد. در این راستا ضرورتی به استفاده از عملگرهای منطقی و یا query های پیچیده نخواهد بود.
منبع : جنوبی‌ها