جمعه ۲۴ آذر ۱۳۹۶ / Friday, 15 December, 2017

روش کار موتور جستجو


روش کار موتور جستجو
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا” پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود می پرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟
گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ گویی به جستجوهای کاربران، تنها در پایگاه داده ای که در اختیار دارند به جستجو می پردازند و نه در وب! موتور جستجوگر به کمک بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا” جمع آوری، تجزیه و تحلیل می کند، آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می گردد. بخش های مجزای یک موتور جستجوگر عبارتند از:
▪ Spider یا عنکبوت
▪ Crawler یا خزنده
▪ Indexer یا بایگانی کننده
▪ Database یا پایگاه داده
▪ Ranker یا سیستم رتبه بندی
الف) Spider- (عنکبوت)
اسپایدر یا روبوت (Robot)، نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، لینکها را دنبال می کند، اطلاعات مورد نیاز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد. کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را. index.html صفحه ای است که کاربران آنرا می بینند:
▪ اما یک اسپایدر آنرا چگونه می بیند؟
برای این که شما هم بتوانید دنیای وب را از دیدگاه یک اسپایدر ببینید، کافی است که کدهای HTML صفحات را مشاهده کنید. برای این کار در مرورگر مورد استفاده خود، مسیر نشان داده شده در شکل (۲) دنبال کنید.
▪ آیا این دنیای متنی برای شما جذاب است؟
اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یکی از فعالیتهای اصلی که در SEM انجام می شود تحلیل آمار همین دید و بازدیدها است.
اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لینک های آنها می پردازند و یا به دنبال آدرس ایمیل (Email) می گردند.
ب) Crawler (خزنده)
کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند.
کراولر، ممکن است قبلا” برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند (می خواهد) در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می کند و از حقوق دسترسی خود اطلاع می یابد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود. به عمل کراولر ، خزش (Crawling) می گویند.
ج) Indexer (بایگانی کننده)
تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدامند، کلمات چندبار تکرار شده اند، کلمات در کجای صفحه قرار دارند و … .
در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و … . از این گونه کلمات هستند.
د) DataBase (پایگاه داده)
تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری و ذخیره می شود. همچنین داده ها قبل از آنکه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم کمی از پایگاه داده را اشغال کنند. یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
و) Ranker (سیستم رتبه بندی)
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (Search Box) آن وارد می کنند و سپس با فشردن Enter منتظر پــاسخ می مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد.
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد.
حرفه ای های دنیای SEM به طور خلاصه از آن به Algo ( الگوریتم) یاد می کنند. الگوریتم، مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.
می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده، موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد:
▪ کراولر
▪ بایگانی
▪ سیستم رتبه بندی
تذکر- برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به میان می آید، مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور جستجوگر وارد می شود.

برای آنکه تصور درستی از نحوه کار یک موتور جستجوگر داشته باشید داستان نامتعارف زیر را با هم بررسی می کنیم. داستان ما یک شکارچی دارد. او تصمیم به شکار می گیرد:
- کار کراولر:
او قصد دارد برای شکار به منطقه حفاظت شده ابیورد، واقع در شهرستان درگز (شمالی ترین شهر خراسان بزرگ) برود.
- پروتکل Robots :
ابتدا تمام محدودیت های موجود برای شکار در این منطقه را بررسی می کند:
▪ آیا در این منطقه می توان به شکار پرداخت؟
▪ کدام حیوانات را می توان شکار کرد؟
▪ حداکثر تعداد شکار چه میزانی است؟
▪ و … .
فرض می کنیم او مجوز شکار یک اوریال (نوعی آهو) را از شکاربانی منطقه دریافت می کند.
- کار اسپایدر
او اوریالی رعنا را شکار می کند و سپس آنرا با خود به منزل می برد.
- کار ایندکسر
شکار را تکه تکه کرده، گوشت، استخوان، دل و قلوه، کله پاچه و … آنرا بسته بندی می کند و بخش های زاید شکار را دور می ریزد.
- کار پایگاه داده
بسته های حاصل را درون فریزر قرار داده، ذخیره می کند.
- کار سیستم رتبه بندی
مهمانان سراغ او می آیند و همسرش بسته به ذائقه مهمانان برای آنها غذا طبخ می کند. ممکن است عده ای کله پاچه، عده ای آبگوشت، عده ای … دوست داشته باشند. پخت غذا طبق سلیقه مهمانان کار سختی است. ممکن است همه آنها آبگوشت بخواهند اما آنها مسلما” بامزه ترین آبگوشت را می خواهند!
● نکته ها:
▪ شکارچی می توانست برای شکار کبک یا اوریال و یا هر دو به آن منطقه برود همانطور که موتور جستجوگر می تواند از سرور سایت شما انواع فایل (عکس، فایل متنی، فایل اجرایی و …) درخواست کند.
▪ شکارچی می تواند شب به شکار برود یا روز. موتور جستجوگر هم ممکن است شب به سایت شما مراجعه کند یا روز. بنابراین همواره مطمئن باشید که سایت شما آپ است و موتور جستجوگر می تواند در آن به شکار فایلها بپردازد.
▪ غذای خوشمزه را می توانید با نتایج جستجوی دقیق و مرتبط مقایسه کنید. اگر شکارچی بهترین شکار را با خود به منزل ببرد اما غذایی خوشمزه و مطابق سلیقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
▪ به عنوان آخرین نکته این بخش یاد آوری می کنم که به شکار اوریالی رعنا آن هم در منطقه حفاظت شده ابیورد (پارک ملی تندوره) اصلا فکر نکنید. اما توصیه می شود که حتما از طبیعت بکر آن دیدن فرمایید (بدون اسلحه!).


منبع : مرکز کامپیوتر ستارگان

مطالب مرتبط
وبگردی
فیلم/ شایعه ازدواج رز رضوی و شریفی‌نیا از کجا شروع شد؟
فیلم/ شایعه ازدواج رز رضوی و شریفی‌نیا از کجا شروع شد؟ - محمدرضا شریفی‌نیا بازیگر سینما و تلویزیون با حضور در برنامه دورهمی درخصوص شایعه ازدواج با بازیگر زن جوان توضیحاتی ارائه کرد.
ماجرای فیلم جنجالی در پایگاه نظامی روسیه
ماجرای فیلم جنجالی در پایگاه نظامی روسیه - ولادیمیر پوتین در مسیر سفر خود به قاهره، چند دقیقه در پایگاه الحمیمیم حاضر شد و برخورد فرد نظامی روس با رئیس جمهوری سوریه موجی از انتقادات را در فضای مجازی به راه انداخت.
درآمد کشور از گردشگری افزایش یافت / از محل عوارض خروجی !
درآمد کشور از گردشگری افزایش یافت / از محل عوارض خروجی ! - دولت روز گذشته و در اقدامی غیرمنتظره،عوارض خروج از کشور را با افزایش 300 درصدی! مواجه کرد...
فیلمی از مرگ خرس قطبی به دلیل تغییرات آب و هوایی
فیلمی از مرگ خرس قطبی به دلیل تغییرات آب و هوایی - یکی از عکاسان نشنال جئوگرافیک فیلمی کوتاه از یک خرس قطبی منتشر کرده که در منطقه ای دورافتاده در جزیره بافین و به دور از یخ ها مشغول جستجو برای غذاست. در این بخشی از این فیلم حیوان مشغول جستجو در زباله هاست، سپس روی زمین می افتد و در انتظار مرگ می ماند.
امتناع از دست دادن علی هاشمی با خانم مدال دهنده
امتناع از دست دادن علی هاشمی با خانم مدال دهنده - فیلم - علی هاشمی وزنه بردار کشورمان با توضیح اینکه مسلمان است از دست دادن با خانم اهدا کننده مدال خودداری کرد.
سطح سواد کارشناس اقتصادی تلویزیون !
سطح سواد کارشناس اقتصادی تلویزیون ! - کارشناس اقتصادی تلویزیون نمی داند که لغت Bitcoin به چه معناست و با تلفظ Bitqueen به این نتیجه رسیده که معنای ملکه بیت ها را می دهد!!
فیلم/ تصاویر منتشر شده از جسد علی عبدالله صالح
فیلم/ تصاویر منتشر شده از جسد علی عبدالله صالح - وزارت کشور یمن با انتشار بیانیه‌ای رسمی، شایعات کشته شدن علی عبدالله صالح را تأیید کرد و رسما اعلام کرد که او کشته شده است.
جنجال رقص مایکلی سرباز ایرانی
جنجال رقص مایکلی سرباز ایرانی - رقص زیبای سرباز ایرانی در پادگان
دختر رییس فدراسیون روسری بر سر مربی مرد تایلندی کرد
دختر رییس فدراسیون روسری بر سر مربی مرد تایلندی کرد - سرپرست فنی فدراسیون کبدی که بعد از مسابقات از سمتش برکنار شد، می‌گوید که دختر رییس فدراسیون روسری بر سر مربی مرد تایلندی کرد و او را به داخل زمین برد.
روزنامه جمهوری اسلامی: آقای مصباح، مگر شما نبودید که اطاعت از احمدی‌نژاد را اطاعت از خدا خواندید؟
روزنامه جمهوری اسلامی: آقای مصباح، مگر شما نبودید که اطاعت از احمدی‌نژاد را اطاعت از خدا خواندید؟ - کاش بزرگان حوزه علم و فلسفه می‌دانستند سیاست هم برای خود علمی مجزاست و ظرافت‌های خود را دارد و نمی‌شود بدون توجه به آن، طرح ریخت و به نتیجه رسید.
لحظه خودکشی فرمانده جنگ بوسنی در جریان جلسه دادگاه!
لحظه خودکشی فرمانده جنگ بوسنی در جریان جلسه دادگاه! - فرمانده پیشین کروات های بوسنی پس از تایید محکومیت ۲۰ ساله اش در دیوان کیفری بین المللی به دلیل ارتکاب جنایات جنگی، ظرف سم را سرکشید!
فیلم/ تخلف احمدی‌نژاد در بوسیدن مادر چاوز
فیلم/ تخلف احمدی‌نژاد در بوسیدن مادر چاوز - محمدجعفر منتظری، دادستان کل کشور در همایش بسیج حقوقدانان نسبت به اظهارات اخیر رئیس‌جمهوری سابق کشورمان واکنش نشان داد.
همه زنان ناصر محمد خانی و زن جدیدش + عکس
همه زنان ناصر محمد خانی و زن جدیدش + عکس - ناصر محمدخانی دو شب پیش در حالی با زن سومش ازدواج کرد که زن اولش توسط شهلا کشته شده بود و زن دومش - شهلا- در سال 89 اعدام شد.
قشر متوسط - ازدواج سفید / قش پائین - تجاوز
قشر متوسط - ازدواج سفید / قش پائین - تجاوز - الان این ازدواج سفید بحرانی است که قشر متوسط دارد ایجاد می‌کند، بعد از آن ازدواج‌های ساندویچی است، یعنی رابطه جنسی ساندویچی. در ازدواج سفید طرفین چندمدت با هم هستند اما اگر قرار شد رابطه ... سر خیابان انجام شود، چه کسی می‌خواهد آن‌ها را بگیرد؟ چند نفر را می‌خواهند بگیرند؟ چند نفر را می‌خواهند اعدام کنند؟
فیلم دو دختر اصفهانی لحظاتی قبل از خودکشی
فیلم دو دختر اصفهانی لحظاتی قبل از خودکشی - فیلم خودکشی دختر اصفهانی (جدید) | دو دختر اصفهانی در فیلمی که پیش از خودکشی ضبط کرده اند، با خوشحالی به سمت مرگ می شتابند. لحظاتی که آنها نزدیکان شان را خطاب قرار می دهند و خودشان را آرام و آهسته می رسانند به بلندترین ارتفاعی که برای خودکشی به ذهنشان آمده یعنی پل شهید چمران اصفهان و در این مسیر هیچ عاملی، هیچ دلیلی نیست که دست دلشان را بگیرد و پشیمان شان کند برای رفتن.
    پربازدیدها