سه شنبه ۱ اسفند ۱۳۹۶ / Tuesday, 20 February, 2018

موتورهای جستجو


موتورهای جستجو
امروزه بر روی اینترنت و مهمترین سرویس آن ( وب )، صدها میلیون صفحه حاوی اطلاعات وجود دارد. کاربران اینترنت با آگاهی از آدرس یک سایت ، قادر به اتصال به سایت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سایت خواهند بود. ما با دریائی از اطلاعات مواجه هستیم ، در صورتیکه قصد یافتن اطلاعاتی خاص را داشته باشیم ، از چه امکاناتی در این زمینه می توان استفاده کرد. ؟ برای جستجو و یافتن اطلاعات مورد نیاز از مراکز جستجوی اطلاعات در اینترنت استفاده می گردد . به مراکز فوق Search engines نیز می گویند.
مراکز جستجو در اینترنت ، نوع خاصی از سایت های موجود در وب بوده که با هدف کمک برای یافتن اطلاعات ، ایجاد شده اند. مراکز جستجو در اینترنت بمنظور پاسخگوئی به کاربران متقاضی و جستجوکنندگان اطلاعات از سه روش متفاوت استفاده می نمایند. نحوه عملکرد سه روش با یکدیگر مشابه بوده و تنها تفاوت موجود میدان انتخاب شده برای عملیات جستجو است .
اینترنت و یا بخشی از آن بر اساس کلمات مهم ، جستجو می گردد.
از کلمات پیدا شده یک ایندکس بهمراه محل مربوط به هر یک ، ایجاد می نمایند.
به کاربران امکان جستجو برای کلمات خاص و یا ترکیبی از آنها که در فایل ایندکس موجود می باشند ، داده می شود.
مراکز جستجوی اولیه در اینترنت ، صرفا" اطلاعات مربوط به چندین هزار صفحه وب را ایندکس و روزانه دو تا سه هزار کاربر متقاضی به آنها مراجعه می کردند. مراکز جستجوی فعلی در اینترنت اطلاعات مربوط به صدها میلیون صفحه را ایندکس نموده و روزانه به بیش از دهها میلیون متقاضی پاسخ می دهند.
● وب
اغلب مردم زمانیکه از مراکز جستجو در اینترنت سخن می گویند ، منظور آنها مراکز جستجوی وب است . قبل از مطرح شدن وب ( مشهورترین بخش اینترنت ) ، از مراکز جستجوی اطلاعات برای کمک به کاربران برای یافتن اطلاعات استفاده می گردید. برنامه هائی نظیر : " gopher" و " Archie" از فایل های ذخیره شده بر روی سرویس دهنده های متصل به اینترنت ، یک ایندکس ایجاد می کردند. بدین ترتیب جستجو و دسترسی به اطلاعات و مستندات مورد نظر در اسرع وقت انجام می گردید. در اواخر سال ۱۹۸۰ اکثر کاربران مستلزم دارابودن دانش کافی در رابطه با استفاده از gopher,Archie و Veronica بودند. امروزه اکثر کاربران اینترنت دامنه جستجوی خود را محدود به وب نموده اند.
قبل از اینکه یک مرکز جستجو قادر به ارائه آدرس و محل فایل مورد نظر باشد ، می بایست فایل مورد نظر پیدا شود. بمنظور یافتن اطلاعات مربوط به صدها میلیون صفحه وب موجود ، مراکز جستجو می بایست از یک نرم افزار خاص با نام Spider ( عنکبوت ) برای ایجاد لیست های شامل کلمات موجود در هر یک از صفحات وب ، استفاده نمایند. فرآیند ایجاد لیست های مربوطه توسط Spider ، اصطلاحا" web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید از کلمات ، Spider های مراکز جستجو می بایست تعداد زیادی از صفحات وب را بررسی و مشاهده نمایند. نحوه حرکت Spider در وب به چه صورت است ؟ نقاط شروع ، لیستی از سرویس دهندگان با ترافیک و اطلاعات بالا و صفحات وب متداول است . Spider از یک سایت رایج عملیات خود را آغاز و پس از ایندکس نمودن کلمات موجود در صفحات وب ، هر یک از لینک های موجود در صفحات را برای ادامه حرکت خود انتخاب خواهد کرد. بدین ترتیب سیستم مبتنی بر Spider بسرعت حرکت خود در طول وب را آغاز خواهد کرد.
Google یکی از مراکز جستجوی دانشگاهی و معتبر است . در سیستم فوق از چندین Spider ( معمولا" سه Spider در هر لحظه ) برای ایجاد مقادیر اولیه برای سیستم ، استفاده می گردد . هر Spider قادر به نگهداری ارتباط خود با بیش از ۳۰۰ صفحه وب در یک لحظه است . با استفاده از چهار spider ، سیستم فوق قادر به جستجوی ۱۰۰ صفحه در ثانیه و تولید ۶۰۰ کیلوبایت اطلاعات در هر ثانیه است . اطلاعات مورد نیاز هر یک از spider ها می بایست بسرعت در اختیار آنان گذاشته شود. سیستم اولیه Google ، دارای یک سرویس دهنده اختصاصی بمنظور تغذیه آدرس های URL مورد نیاز برای هر یک از Spider ها بود. بمنظور افزایش سرعت عملیات ، Google از یک سیستم DNS اختصاصی استفاده می کرد. ( در سایر موارد از DNS مربوط به ISP استفاده می گردد ) . زمانیکه Spider به یک صفحه وب شامل تگ های Html برخورد می نماید ، دو آیتم در رابطه با آن را یاداشت خواهد کرد :
● کلمات موجود در صفحه
▪ محلی که کلمات پیدا شده اند.
از کلمات موجود در عنوان (title) ، زیرعناوین (Subtitles) ، تگ های متا و سایر مکانهای مهم یاداشت برداشته شده تا در آینده با توجه به خواسته کاربر ، امکان پاسخگوئی مناسب به آنها فراهم گردد. Spider مربوط به Google ، از کلمات موجود در هر یک از صفحات وب ایندکس ایجاد و کلماتی نظیر : "a" ، "an" و "the" را حذف می نمایند. سایر Spider ها هر یک دارای رویکردهای خاص خود در این زمینه می باشند.
سیاست های استفاده شده در رابطه با نحوه ایندکس نمودن اطلاعات صفحات وب ، مستقیما" بر سرعت عملکرد spider ها تاثیر گذاشته و به کاربران امکان جستجوی قدرتمندتر و کارآ را خواهد داد. مثلا" برخی از Spider ها ، علاوه بر نگهداری اطلاعات مربوط به عناوین و لینک ها ، یکصد کلمه با فرکانس تکرار بیشتر در صفحه وب و کلمات موجود در بیست خط اولیه را نیز نگهداری خواهند کرد. مرکز جستجوی Lycos از رویکرد فوق استفاده می نماید.
سیستم های دیگر نظیر " Altavista ، از روش خاص خود در این زمینه استفاده می نمایند. در سیستم فوق برای هر یک از کلمات موجود در صفحه شامل "a" ، "an" و "the" و سایر کلمات مشابه نیز ایندکس ایجاد می گردد.
▪ تگ های متا
با استفاده از تگ های متا ، ایجاد کنندگان صفحات وب می توانند کلمات کلیدی موجود در صفحه و نحوه ایندکس نمودن آن را مشخص نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی می باشد بسیار مفید و کارساز خواهد بود. بدین ترتیب تگ های فوق به مراکز جستجو راهنمائی لازم در خصوص انتخاب معنی مربوط به کلمات مورد نظر را خواهند داد. در این راستا ممکن است برخی از راهنمائی های انجام شده نیز اغفال کننده بوده و نتایج مثبتی را برای مراکز جستجو بدنبال نداشته باشد. بمنظور پیشگیری از راهنمائی های اغفال کننده توسط تگ های متا ، برنامه های Spider عملیات بازبینی محتویات یک صفحه وب را بمنظور تطبیق با اطلاعات ارائه شده توسط تگ ها ی متا ، انجام می دهند. اطلاعات نادرست ارائه شده بوسیله تگ های متا ، توسط Spider ها نادیده گرفته می شود.
تمام موارد فوق مفروض به حالتی است که ایجاد کننده صفحه وب قصد معرفی صفحه ایجاد شده خود را به مراکز جستجو دارد. در برخی موارد ممکن است تمایلی به انجام این کار وجود نداشته باشد.
▪ ایجاد ایندکس
پس از اینکه عملیات Spider ها در رابطه با یافتن اطلاعات به اتمام رسید ، ( عملیات فوق در عمل با توجه به ماهیت وب و استقرار صفحات وب جدید هرگز به پایان نخواهد رسید ، بنابراین همواره عملیات جستجو و یافتن اطلاعات توسط Spider ها انجام می گیرد) مراکز جستجو می بایست اطلاعات مورد نظر را بگونه ای ذخیره نمایند که قابل استفاده باشند. دو روش عمده در این راستا وجود دارد:
ـ اطلاعات بهمراه داده ذخیره گردند.
ـ با استفاده از روشی اطلاعات ایندکس گردند.
در ساده ترین حالت ، یک مرکز جستجو می تواند صرفا" کلمه و آدرس URL آن را ذخیره نماید. روش فوق در بازیابی اطلاعات و جستجو توسط کاربران ایجاد محدودیت خواهد کرد. با استفاده از روش فوق نمی توان جایگاه و وزن یک کلمه در یک صفحه وب را مشخص نمود. مثلا" نمی توان تشخیص داد که کلمه مورد نظر چند مرتبه در صفحه تکرار شده و یا لینک های موجود در صفحه نیز شامل کلمه مورد نظر می باشند یا خیر . بدین ترتیب امکان ارائه یک لیست از صفحات وب که شامل کلمه مورد نظر بر اساس میزان تکرار می باشند ، وجود نخواهد داشت .
بمنظور ارائه نتایج مفیدتر توسط مراکز جستجو ، اکثر مراکز جستجو صرفا" کلمه و آدرس URL را ذخیره نمی نمایند . در این حالت مواردی نظیر : تعداد تکرار کلمه در صفحه نیز ذخیره خواهد شد. مراکز جستجو همچنین به هر entry یک وزن را نسبت خواهند داد. وزن نسبت داده شده، نشاندهنده جایگاه کلمه در صفحه است ( ابتدای صفحه ، در لینک ها ، در تگ های متا و یا در عنوان صفحه ) هر یک از مراکز جستجو برای اختصاص یک وزن مناسب به کلمه مورد نظر از یک فورمول استفاده می نمایند. موضوع فوق یکی از دلایلی است که جستجو یک کلمه توسط دو مرکز جستجو ، نتایج مشابه ای را بدنبال نخواهد داشت .
مراکز جستجو بدلیل استفاده بهینه از فضای ذخیره سازی ، اطلاعات مورد نظر را بصورت رمز شده ذخیره می نمایند. مثلا" در نسخه اولیه سایت Google از دو بایت بمنظور ذخیره سازی اطلاعات مربوط به کلمات در یک صفحه استفاده می کردند. کلمات بصورت حروف بزرگ بهمراه اندازه فونت ، وزن و موقعیت آن ذخیره می گردید. هر یک از فاکتورهای فوق دو ویا سه بیت از دو بایت اشاره شده را به خود اختصاص می دادند. بدین ترتیب اطلاعات گسترده ای بصورت فشرده ذخیره و سپس عملیات ایجاد ایندکس انجام می گیرد.
ایندکس دارای صرفا" یک هدف است : امکان یافتن اطلاعات با سرعت بالا . برای ایجاد ایندکس از روش های متعددی استفاده می گردد. یکی از بهترین روش های موجود ، ایجاد یک جدول Hash است . در روش hashing ، از یک فورمول برای اختصاص یک عدد به یک کلمه استفاده می گردد. توزیع عددی با توزیع کلمات بصورت الفبائی با یکدیگر متفاوت بوده و همین امر ، موثر بودن جداول hash را بدنبال خواهد داشت .
در زبان انگلیسی حروفی وجود دارد که کلمات زیادی با آنان آغاز می گردد. مثلا" بخش حرف "M" ، در یک دیکشنری بمراتب قطورتر از حرف "X" است . بدین ترتیب جستجو و یافتن کلماتی که با حرف M شروع می گردند زمان بمراتب بیشتری نسبت به یافتن کلماتی که با حرف "X" آغاز می گردند ، را طلب می کند. در روش hashing ، با آگاهی از موارد فوق، بگونه ای رفتار می گردد که متوسط زمان بازیابی هر کلمه کاهش یابد. در روش فوق ایندکس از داده واقعی متمایز می گردد. جدول hash ، شامل شماره hash بهمراه اشاره گری است که به داده مورد نظر اشاره می نماید. با ایجاد یک سیستم ایندکس مناسب و ذخیره سازی مطلوب اطلاعات ، امکان ارائه نتایج مفید برای کاربران را فراهم خواهد کرد.
▪ جستجو
کاربران برای جستجوی اطلاعات مورد نیاز ، پس از ورود به سایت مرکز جستجو ، یک query را ایجاد می نمایند. query می تواند ساده و صرفا" شامل یک کلمه و یا پیچیده و استفاده از عملگرهای منطقی باشد. برخی از عملگرهای منطقی عبارتند از :
▪ AND .
تمام کلماتی که توسط AND بیکدیگر ملحق شده اند ، می بایست در صفحه موحود باشند. در برخی از مراکز جستجو از عملگر "+" بعنوان عملگر جایگزین AND نیز استفاده می شود.
▪ OR . حداقل یکی از کلماتی که توسط OR بیکدیگر ملحق شده اند ، می بایست در صفحه موجود باشد .
▪ NOT .
کلمه بعد از NOT نباید در صفحه موجود باشد. برخی از مراکز جستجو از عملگر "-" نیز استفاده می نمایند.
▪ Followed by .
یکی از کلمات می بایست مستقیما" پس از کلمه دیگر وجود داشته باشد.
● آینده مراکز جستجو
جستجوهائی که توسط عملگرهای منطقی تعریف می گردند از نوع جستجوهای literal می باشند. مراکز جستجو بمنظور ارائه نتایج مورد نظر کاربر ، دقیقا" کلمه و یا کلمات مشخص شده توسط کاربر در بانک اطلاعاتی جستجو می نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی باشد ، نتایج مثبتی را بدنبال نخواهد داشت . برای اخذ نتایج دلخواه ، کاربران اینترنت می توانند با استفاده از عملگرهای منطقی محدودیت هائی را ایجاد نمایند ، روش مناسب این است که محدودیت فوق از طریق مرکز جستجو اعمال گردد.
یکی از مواردیکه اخیرا" توسط محققین متفاوتی در مراکز جستجو دنبال می گردد ، جستجو بر اساس مفهوم است .در روش فوق با استفاده از آنالیزهای آماری بر روی صفحات شامل کلمات سعی در ارائه نتایج مطلوبتری وجود دارد. در برخی موارد دیگر استفاده از زبانهای طبیعی برای جستجو دنبال می گردد. در روش فوق برای طرح سوال خود از یک مرکز جستجو از روشی که توسط انسان برای طرح سوالات مربوطه استفاده می گیرد، استفاده خواهد شد. در این راستا ضرورتی به استفاده از عملگرهای منطقی و یا query های پیچیده نخواهد بود.


منبع : هرات

مطالب مرتبط

موتورهای جستجوگر اینترنتی


موتورهای جستجوگر اینترنتی
موتور جستجو یا جویشگریا جستجوگر به طور عمومی به برنامه‌ای گفته می‌شود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو می‌کند. در اینترنت به برنامه‌ای گفته می‌شود که کلمات کلیدی موجود در فایلهاو سندهای وب جهانی، گروههای خبری، منوهای گوفر و آرشیوهای FTP را جستجو می‌کند.
برخی از موتورهای جستجو برای تنها یک وب‌گاه(پایگاه وب) اینترنت به کار برده می‌شوند و در اصل موتور جستجویی اختصاصی آن وب‌گاه هستند و تنها محتویات همان وب‌گاه را جستجو می‌کنند.
برخی دیگر نیز ممکن است با استفاده از SPIDERها محتویات وب‌گاههای زیادی را پیمایش کرده و چکیده‌ای از آن را در یک پایگاه اطلاعاتی به شکل شاخص‌گذاری‌شده نگهداری می‌کنند. کاربران سپس می‌توانند با جستجو کردن در این پایگاه داده به پایگاه وبی که اطلاعات موردنظر آنها را در خود دارد پی ببرند.
● انواع جستجوگرها در اینترنت
موتورهای جستجو به دو دسته کلی تقسیم می‌شوند. موتورهای جستجوی پیمایشی (خودکار) و فهرست‌های تکمیل‌دستی (غیر خودکار). هر کدام از آن‌ها برای تکمیل فهرست خود از روش‌های متفاوتی استفاده می‌کنند البته لازم به ذکر است که گونه ای جدید از موتورهای جستجوگر تحت عنوان "ابر جستجوگر" (Meta Search Engines) نیز وجود دارد که در ادامه به توضیح هر یک از این موارد خواهیم پرداخت :
▪ موتورهای جستجوی پیمایشی
موتورهای جستجوی پیمایشی (Crawler-Based Search Engines) مانند گوگل فهرست خود را بصورت خودکار تشکیل می‌دهند. آنها وب را پیمایش کرده، اطلاعاتی را ذخیره می‌کنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که می‌خواهند جستجو می‌کنند. اگر شما در صفحه وب خود تغییراتی را اعمال نمایید، موتورهای جستجوی پیمایشی آنها را به طور خودکار می‌یابند و سپس این تغییرات در فهرست‌ها اعمال خواهد شد. عنوان، متن و دیگر عناصر صفحه، همگی در این فهرست قرار خواهند گرفت.وجه مشخصه این گروه از جستجوگرها وجود نرم افزار موسوم به SPIDER در آنهاست. این شبه نرم افزار کوچک بصورت خودکار به کاوش در شبکه جهانی پرداخته و از پایگهای وب یادداشت برداری و فهرست برداری میکند سپس این اطلاعات را برای تجزیه و تحلیل و طبقه بندی به بانک اطلاعاتی موتور جستجوگر تحویل می دهد.
▪ فهرست‌های دست نویس شده
فهرست‌های دست نویس شده یا (Human-Powered Directories) مانند فهرست بازی (Open Directory) مانند Dmoz وابسته به کاربرانی است که آن را تکمیل می‌کنند. شما صفحه مورد نظر را به همراه توضیحی کوتاه در فهرست ثبت می‌کنید یا این کار توسط ویراستارهایی که برای آن فهرست در نظر گرفته شده، انجام می‌شود. عمل جستجو در این حالت تنها بر روی توضیحات ثبت شده صورت می‌گیرد و در صورت تغییر روی صفحه وب، روی فهرست تغییری به وجود نخواهد آورد. چیزهایی که برای بهبود یک فهرست‌بندی در یک موتور جستجو مفید هستند، تأثیری بر بهبود فهرست‌بندی یک دایرکتوری ندارند. تنها استثناء این است که یک سایت خوب با پایگاه داده‌ای با محتوای خوب شانس بیشتری نسبت به یک سایت با پایگاه داده ضعیف دارد. البته در مورد جستجوگرهای مشهور مانند گوگل و یاهو، یک مولفه دیگر هم برای بهبود فهرستبندی وجود دارد که کمک مالی (یا به اصطلاح اسپانسر) است، یعنی وب‌گاههایی که مایل به بهبود مکان وب‌گاه خود در فهرست بندی هستند، می‌توانند با پرداخت پول به این جستجوگرها به هدف خویش برسند.
▪ موتورهای جستجوی ترکیبی با نتایج مختلف
به موتورهایی گفته می‌شود که هر دو حالت را در کنار هم نمایش می‌دهند. غالباً، یک موتور جستجوی ترکیبی در صورت نمایش نتیجه جستجو از هر یک از دسته‌های فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار می‌دهد. مثلاً موتور جستجوی ام.اس.ان (MSN) بیشتر نتایج حاصل از فهرست‌های تکمیل‌دستی را نشان می‌دهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جستجوی پیمایشی دارد.
▪ ابر جستجوگرها
این گونه جدید از موتورهای جستجوگر که قدمت چندانی نیز ندارند،بصورت همزمان از چندین موتورجستجوگر برای کاوش در شبکه برای کلید واژه مورد نظر استفاده می کنند .بدین معنی که این موتور عبارت مورد نظر شما را در چندین موتورجستجوگر ‍ِ جستجو کرده و نتایج آنها را با هم ترکیب کرده و یک نتیجه کلی به شما ارائه می‌دهد.به‌عنوان مثال موتورجستجوگر داگ پایل [۱] از نتایج حاصل از موتورهای Google - Yahoo - MSN و ASK استفاده کرده و نتیجه حاصله را به شما ارائه می‌دهد.لازم به ذکر است که روش و یا راهکار مشخص و یکسانی برای ترکیب نتایج حاصله از موتورهای پایه - موتورهایی که به عنوان موتور جستجوگر استفاده میشوند مانند Yahoo که یک موتور پایه برای dogpile میباشد - وجود ندارد.
▪ بررسی یک موتور جستجوی پیمایشی
موتورهای جستجوی پیمایشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پیمایش‌گر (Crawler) هم نامیده می‌شود. پیمایش‌گر همین که به یک صفحه می‌رسد، آن را می‌خواند و سپس پیوند‌های آن به صفحات دیگر را دنبال می‌نماید. این چیزی‌ست که برای یک سایت پیمایش‌شده (Crawled) اتفاق افتاده است. پیمایش‌گر با یک روال منظم، مثلاً یک یا دو بار در ماه به سایت مراجعه می‌کند تا تغییرات موجود در آن را بیابد. هر چیزی که پیمایش‌گر بیابد به عنصر دوم یک موتور جستجو یعنی فهرست انتقال پیدا می‌کند. فهرست اغلب به کاتالوگی بزرگ اطلاق می‌شود که شامل لیستی از آنچه است که پیمایش‌گر یافته است. مانند کتاب عظیمی که فهرستی را از آنچه پیمایش‌گرها از صفحات وب یافته‌اند، شامل شده است. هرگاه سایتی دچار تغییر شود، این فهرست نیز به روز خواهد شد. از زمانی که تغییری در صفحه‌ای از سایت ایجاد شده تا هنگامی که آن تغییر در فهرست موتور جستجو ثبت شود مدت زمانی طول خواهد کشید. پس ممکن است که یک سایت پیمایش‌شده باشد اما فهرست‌شده نباشد. تا زمانی که این فهرست‌بندی برای آن تغییر ثبت نشده باشد، نمی‌توان انتظار داشت که در نتایج جستجو آن تغییر را ببینیم. نرم‌افزار موتور جستجو، سومین عنصر یک موتور جستجو است و به برنامه‌ای اطلاق می‌شود که به صورت هوشمندانه‌ای داده‌های موجود در فهرست را دسته‌بندی کرده و آنها را بر اساس اهمیت طبقه‌بندی می‌کند تا نتیجه جستجو با کلمه‌های درخواست شده هر چه بیشتر منطبق و مربوط باشد.
▪ رتبه‌بندی صفحات وب توسط موتورهای جستجو
وقتی شما از موتورهای جستجوی پیمایشی چیزی را برای جستجو درخواست می‌نمایید، تقریباً بلافاصله این جستجو از میان میلیون‌ها صفحه صورت گرفته و مرتب می‌شود بطوریکه مربوط‌ترین آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نماید. البته باید در نظر داشته باشید که موتورهای جستجو همواره نتایج درستی را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطی را هم در نتیجه جستجو دریافت می‌کنید و گاهی اوقات مجبور هستید که جستجوی دقیقتری را برای آنچه می‌خواهید انجام دهید اما موتورهای جستجو کار حیرت‌انگیز دیگری نیز انجام می‌دهند. فرض کنید که شما به یک کتابدار مراجعه می‌کنید و از وی درباره «سفر» کتابی می‌خواهید. او برای این که جواب درستی به شما بدهد و کتاب مفیدی را به شما ارائه نماید با پرسیدن سؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحویل خواهد داد. موتورهای جستجو همچنین توانایی ندارند اما به نوعی آنها را شبیه‌سازی می‌کنند. پس موتورهای جستجوی پیمایشی چگونه به پاسخ مورد نظرتان از میان میلیونها صفحه وب می‌رسند؟ آنها یک مجموعه از قوانین را دارند که الگوریتم نامیده می‌شود. الگوریتم‌های مورد نظر برای هر موتور جستجویی خاص و تقریباً سری هستند اما به هر حال از قوانین زیر پیروی می‌کنند:
▪ مکان و بسامد
یکی از قوانین اصلی در الگوریتم‌های رتبه‌بندی موقعیت و بسامد (تعداد تکرار) واژه‌هایی است که در صفحه مورد استفاده قرار گرفته‌اند که بطور خلاصه روش مکان-بسامد (Location/Frequency Methode) نامیده می‌شود. کتابدار مذکور را به خاطر می‌آورِد؟ لازم است که او کتاب‌های در رابطه با واژه «سفر» را طبق درخواست شما بیابد. او در وحله اول احساس می‌کند که شما به دنبال کتاب‌هایی هستید که در نامشان کلمه «سفر» را شامل شوند. موتورهای جستجو هم دقیقاً همان کار را انجام می‌دهند. آنها هم صفحاتی را برایتان فهرست می‌کنند که در برچسب عنوان (Title) موجود در کد زبان نشانه‌گذاری اَبَرمتنی (زنگام) (HTML) حاوی واژه «سفر» باشند. موتورهای جستجو همچنین به دنبال واژه مورد نظر در بالای صفحات و یا در آغاز بندها (پاراگراف‌ها) هستند. آنها فرض می‌کنند که صفحاتی که حاوی آن واژه در بالای خود و یا در آغاز بندها و عناوین باشند به نتیجه مورد نظر شما مربوط‌تر هستند. بسامد عامل بزرگ و مهم دیگری است که موتورهای جستجو از طریق آن صفحات مربوط را شناسایی می‌نمایند. موتورهای جستجو صفحات را تجزیه کرده و با توجه به تکرار واژه‌ای در صفحه متوجه می‌شوند که آن واژه نسبت به دیگر واژه‌ها اهمیت بیش‌تری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات دیگر قرار می‌دهند.
چگونگی کارکرد دقیق موتورهای جستجو درباره روش‌هایی از قبیل مکان-تکرار فاش نمی‌شود و هر موتور جستجویی روش خاص خود را دنبال می‌کند. به همین دلیل است که وقتی شما واژه‌های همانندی را در موتورهای متفاوت جستجو می‌کنید، به نتایج متفاوتی می‌رسید.الگوریتم های اولیه موتورهای جستجوی معتبر و بزرگ همچنان محرمانه نگهداری می شوند. برخی موتورهای جستجو نسبت به برخی دیگر صفحات بیشتری را فهرست کرده‌اند. نتیجه این خواهد شد که هیچ موتور جستجویی نتیجه جستجوی مشترکی با موتور دیگر نخواهد داشت و شما نتایج متفاوتی را از آنها دریافت می‌کنید. موتورهای جستجو همچنین ممکن است که برخی از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با هرزنامه (Spam) شدن سعی در گول زدن موتورهای جستجو داشته باشند. فرستادن هرزنامه (Spamming) روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جستجو در پیش می‌گیرند و آن به این صورت است که با تکرار بیش از حد واژه‌ها و یا بزرگ نوشتن یا بسیار ریز نوشتن متنها بطور عمدی کوشش در بر هم زدن تعادل و در نتیجه فریب موتورهای جستجو دارند. آنها سعی دارند که با افزایش عامل تکرار، در رتبه بالاتری قرار بگیرند. البته آنگونه که گفته شد تعداد تکرار ها اگر از حد و اندازه خاصی فراتر رود نتیجه معکوس می‌دهد.موتورهای جستجو راه‌های متنوعی برای جلوگیری از فرستادن هرزنامه دارند و در این راه از گزارش‌های کاربران خود نیز بهره می‌برند. امروزه بهینه سازی سایت های اینترنت برای موتورهای جستجو یکی از مهم‌ترین روشهای جلب بازدید کننده به سایت است.
▪ عوامل خارج از صفحه
موتورهای جستجوی گردشی اکنون تجربه فراوانی در رابطه با وب‌دارهایی دارند که صفحات خود را برای کسب رتبه بهتر مرتباً بازنویسی می‌کنند. بعضی از وب‌دارها (وب‌مسترها)ی خبره حتی ممکن است به سمت روش‌هایی مانند مهندسی معکوس برای کشف چگونگی روش‌های مکان-تکرار بروند. به همین دلیل، تمامی موتورهای جستجوی معروف از روش‌های امتیازبندی «خارج از صفحه» استفاده می‌کنند. عوامل خارج از صفحه عواملی هستند که از تیررس وب‌دارها خارجند و آنها نمی‌توانند در آن دخالت کنند و مسأله مهم در آن تحلیل ارتباطات و پیوندهاست. به وسیله تجزیه صفحات، موتورهای جستجو پیوندها را بررسی کرده و از محبوبیت آنها می‌فهمند که آن صفحات مهم بوده و شایسته ترفیع رتبه هستند. به علاوه تکنیک‌های پیشرفته به گونه‌ای است که از ایجاد پیوندهای مصنوعی توسط وب‌دارها برای فریب موتورهای جستجو جلوگیری می‌نماید. علاوه بر آن موتورهای جستجو بررسی می‌کنند که کدام صفحه توسط یک کاربر که واژه‌ای را جستجو کرده انتخاب می‌شود و سپس با توجه به تعداد انتخاب‌ها، رتبه صفحه مورد نظر را تعیین کرده و مقام آن را در نتیجه جستجو جابه‌جا می‌نمایند.

وبگردی
بار دیگر زیر گرفتن ماموران پلیس با ماشین سواری توسط دراویش
بار دیگر زیر گرفتن ماموران پلیس با ماشین سواری توسط دراویش - باز هم زیر گرفتن ماموران امنیتی و نیروی انتظامی توسط یک ماشین دیگر سواری توسط اراذل خیابان گلستان هفتم
تهدید نیروی انتظامی توسط دراویش ساعتی قبل از درگیری در پاسداران
تهدید نیروی انتظامی توسط دراویش ساعتی قبل از درگیری در پاسداران - تهدید نیروی انتظامی توسط وحوش #دراویش، ساعتی قبل از جنایت تروریستی با اتوبوس:«فقط نیم ساعت وقت دارید تا باید بدون قید و شرط برادرمون رو آزاد کنید...»
حمله با اتوبوس به مأموران پلیس در پاسداران
حمله با اتوبوس به مأموران پلیس در پاسداران - کی از دراویش گنابادی با اتوبوس به مردم و مأموران پلیس در خیابان پاسداران تهران / گفته میشود تعداد شهدای ناجا در حمله آشوبگران فرقه ضاله گنابادی و حامیان نورعلی تابنده به ۴ تن رسیده است.
لحظه مواجهه وزیر راه با خانواده قربانیان سانحه هواپیمای
لحظه مواجهه وزیر راه با خانواده قربانیان سانحه هواپیمای - به دنبال سقوط هواپیمای تهران-یاسوج ویدیو لحظه مواجه خانواده های جانباختگان را با وزیر مشاهده می کنید.
حمله با چاقو به یک راننده سر پارک خودرو
حمله با چاقو به یک راننده سر پارک خودرو - تصاویری دردناک از حمله مرد موتور سوار با چاقو به یک مرد راننده در حضور همسر و فرزندش در شهرستان داراب استان فارس را در ویدئوی زیر می بینید. به نظر میرسد این اتفاق در پی جرو بحثی بر سر پارک کردن وسایل نقلیه روی داده است!
اگر «عدم رویارویی با حریفان اسرائیلی» آرمان ماست چرا پنهانی و دزدکی؟
اگر «عدم رویارویی با حریفان اسرائیلی» آرمان ماست چرا پنهانی و دزدکی؟ - آنچه مشخص است جمهوری اسلامی ایران باید تصمیم مشخص و درستی درباره سیاست عدم رویارویی با ورزشکاران رژیم صهیونیستی بگیرد. دیگر نمی‌توان با این روش تعقیب و گریزی با این مسئله برخورد کرد. دیگر نمی‌توان ورزشکاران را از مقابله با کشتی‌گیران اسرائیلی باز داشت و در برابر رسانه‌های جهانی گفت به خاطر مصدومیت در میدان حاضر نمی‌شویم و در داخل جشن بگیریم که ما عزت‌مان را حفظ کردیم و...
ویدئو / حضور خانواده مسافران هواپیمای یاسوج در محل حادثه
ویدئو / حضور خانواده مسافران هواپیمای یاسوج در محل حادثه - برخی از خانواده‌های مسافران هواپیمای تهران - یاسوج که صبح یکشنبه (۲۹ بهمن) در ارتفاعات سقوط کرد، در حوالی مناطق احتمالی وقوع حادثه حضور یافته‌اند تا از نزدیک در جریان عملیات جست‌وجوی لاشه هواپیما قرار بگیرند. نیروهای حاضر در محل نیز برای آنها توضیح می‌دهند که چرا کار این عملیات با دشواری‌هایی مواجه است.
بدل ایرانی آنجلینا جولی رونمایی شد !
بدل ایرانی آنجلینا جولی رونمایی شد ! - شب گذشته مراسم اکران فیلم بلوک 9 خروجی 2 به کارگردانی علیرضا امینی و تهیه کنندگی محمدرضا شریفی نیا و نیز فیلم شاخ کرگدن در پردیس سینمایی ملت برگزار گردید.
اظهارات جنجالی احمدی نژاد در مقابل دادگاه
اظهارات جنجالی احمدی نژاد در مقابل دادگاه - سخنرانی پرحاشیه احمدی نژاد در مقابل دادگاه بقایی
    دمپخت میگو (یک بشقاب لاغری)
    گوجه فرنگی را هم رنده کرده و با گشنیز اضافه می کنیم بعد برنج را با یک پیمانه آب توی غذا می ریزیم...