جمعه ۲۹ دی ۱۳۹۶ / Friday, 19 January, 2018

چطور موتورهای جستجو کار می‌کنند؟


چطور موتورهای جستجو کار می‌کنند؟
وقتی جستجویی در یك موتور جستجوگر انجام و نتایج جستجو ارایه می‌شود، كاربران در واقع نتیجه كار بخش‌های متفاوت موتور جستجوگر را می‌بینند.
موتور جستجوگر قبلاً پایگاه داده‌اش را آماده كرده است و این گونه نیست كه درست در همان لحظه‌ی جستجو، تمام وب را بگردد.
بسیاری از خود می‌پرسند كه چگونه ممكن است گوگل در كمتر از یك ثانیه تمام سایت‌های وب را بگردد و میلیون‌ها صفحه را در نتایج جستجوی خود ارایه كند؟
گوگل و هیچ موتور جستجوی دیگری توانایی انجام این كار را ندارند. همه آنها در زمان پاسخ‌گویی به جستجوهای كاربران، تنها در پایگاه داده‌ای كه در اختیار دارند به جستجو می‌پردازند و نه در وب! موتور جستجوگر به كمك بخش‌های متفاوت خود، اطلاعات مورد نیاز را قبلاً جمع‌آوری، تجزیه و تحلیل می‌كند، آنرا در پایگاه داده‌اش ذخیره می‌نماید و به هنگام جستجوی كاربر تنها در همین پایگاه داده می‌گردد.
بخش‌های مجزای یك موتور جستجوگر عبارتند از:
▪ Spider یا عنكبوت
▪ Crawler یا خزنده
▪ Indexer یا بایگانی كننده
▪ Database یا پایگاه داده
▪ Ranker یا سیستم رتبه‌بندی
الف) Spider (عنكبوت)
اسپایدر یا روبوت (Robot) نرم افزاری است كه كار جمع‌آوری اطلاعات مورد نیاز یك موتور جستجو را بر عهده دارد. اسپایدر به صفحات مختلف سر می‌زند، محتوای آنها را می‌خواند، لینك‌ها را دنبال می‌كند، اطلاعات مورد نیاز را جمع‌آوری می‌كند و آنرا در اختیار سایر بخش‌های موتور جستجوگر قرار می‌دهد. كار یك اسپایدر، بسیار شبیه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازدید می‌كنند، اسپایدر هم درست این كار را انجام می‌دهد با این تفاوت كه اسپایدر كدهای HTML صفحات را می‌بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را.
اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می‌گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یك سایت و اتفاقات انجام شده در آن را داشته باشید، می‌توانید مشخص كنید كه اسپایدر كدام یك از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یكی از فعالیت‌های اصلی كه در SEM انجام می‌شود تحلیل آمار همین دید و بازدیدها است.
اسپایدرها كاربردهای دیگری نیز دارند، به عنوان مثال عده‌ای از آنها به سایت‌های مختلف مراجعه می‌كنند و فقط به بررسی فعال بودن لینك‌های آنها می‌پردازند و یا به دنبال آدرس ایمیل (E-mail) می‌گردند.
ب) Crawler (خزنده)
كراولر، نرم‌افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می‌كند. كراولر مشخص می‌كند كه اسپایدر كدام صفحات را مورد بازدید قرار دهد. در واقع كراولر تصمیم می‌گیرد كه كدام یك از لینك‌های صفحه‌ای كه اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضی‌ها را دنبال كند و یا هیچ كدام را دنبال نكند.
كراولر، ممكن است قبلاً برنامه‌ریزی شده باشد كه آدرس‌های خاصی را طبق برنامه در اختیار اسپایدر قرار دهد تا از آنها دیدن كند. دنبال كردن لینك‌های یك صفحه به این بستگی دارد كه موتور جستجو چه حجمی از اطلاعات یك سایت را می‌تواند (یا می‌خواهد) در پایگاه داده‌اش ذخیره كند. همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت، همان طور كه دوست دارید موتورهای جستجو اطلاعات سایت شما را با خود ببرند، می‌توانید آنها را از بعضی صفحات سایت‌تان دور كنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می‌كند و از حقوق دسترسی خود اطلاع می‌یابد. تنظیم میزان دسترسی موتورهای جستجو به محتوای یك سایت توسط پروتكل Robots انجام می‌شود. به عمل كراولر، خزش (Crawling) می‌گویند.

هادی زجاجی

منبع : روزنامه همشهری

مطالب مرتبط

گوگل کافی نیست


گوگل کافی نیست
فناوری متحول جست وجوی گوگل و طراحی اینترفیس مطلوب برای کاربران گوگل را به عنوان بخشی از ماشین های جست وجوی نسل جدید تبدیل کرده است. فراتر از استفاده از فناوری کلمات کلیدی، گوگل براساس فناوری رتبه صفحه (Page Rank) نیز پایه گذاری شده که این فناوری باعث می شود نتایج مهم تر در یک جست وجو بالاتر دیده شوند.رتبه صفحه یک سنجش معقول را برای اعتبار صفحات وبی که بر اساس معادله برابر ۵۰۰ میلیون متغیر و بیش از دو میلیارد شرایط محاسبه شدند را ایفا می کند. رتبه صفحه از ساختار پیوند عظیم وب به عنوان ابزار سازماندهی استفاده می کند. وجود یک پیوند از صفحه A به صفحه B به عنوان یک امتیاز توسط گوگل تفسیر می شود. با مجموع این امتیازها، گوگل تشخیص می دهد کدام صفحه مهمتر است. همچنین گوگل این صفحات را تجزیه و تحلیل می کند. مجتمع گوگل با داشتن بیش از ۱۵۰ هزار سرور، روش های جست وجوی خودکار انسداد اینترفیس دستی است. بر خلاف ماشین های جست وجو دیگر، گوگل ساختاربندی شده تا نتایج جست وجو را به بهترین شکل برای تجارت ارائه دهد.
اما با همه این توضیحات و پشتیبانی این سایت عظیم از زبان های مختلف دنیا، گوگل یک جست وجوگر بین المللی است که در حال کلی به نیازهای همه کاربران در سراسر جهان پاسخ می گوید اما در حالی که روز به روز بر تعداد کاربران آنلاین در خاورمیانه افزود می شود، اگر قرار باشد به صورت تخصصی تر به نیازهای کاربران در این منطقه پاسخ بگویم چه کار باید کرد؟ آیا جست وجوگر تخصصی در این زمینه وجود دارد تا کاربران ساکن حومه خلیج فارس بتوانند بهتر و بیشتر از اینترنت استفاده کنند و با آن جست وجوگر، اطلاعات مورد نظر خود را بیابند؟
انگلیسی زبان ها برای جست وجو در سایت های اینترنتی گوگل را دارند و چینی ها هم از سایت Baidu استفاده می کنند اما در مورد عرب ها چطور؟ با وجود اینکه امروزه استفاده از اینترنت بین عرب ها بسیار مرسوم شده و دسترسی آنها به فضای مجازی بسیار افزایش یافته است، این افراد تاکنون هیچ موتور جست وجوی اختصاصی برای خود نداشته اند.برای حل این مشکل گروهی از متخصصان مرکز اروپایی Seekport قراردادهای جدیدی را با شرکت سعودی Mitsco منعقد کرده اند تا به این وسیله نخستین موتور جست وجوی عربی دنیا راه اندازی شود. Seekport تاکنون جست وجوگرهایی را به زبان انگلیسی ، فرانسوی ، آلمانی ، اسپانیایی و ایتالیایی راه اندازی کرده و موفقیت های فراوانی را در این زمینه به دست آورده است اما کارشناسان این مرکز هم اکنون به این نتیجه رسیده اند که راه اندازی یک موتور جست وجوی اینترنتی عربی بسیار لازم و ضروری به نظر می رسد.
زمانی که این پروژه برای نخستین بار مطرح شد، این موتور جست وجو Sawafi نام گرفته بود که در زبان عربی به معنی «توفان شن» است. به هر حال گفته می شود که نام این موتور جست وجو در زمان راه اندازی نهایی تغییر خواهد کرد. «هرمن هاورمن» مدیر شعبه عربی Seekport گفت: «ما همچنان به دنبال یک نام مناسب می گردیم. Sawafi نام خوبی است اما بررسی هایی که کردیم نشان می دهد این اصطلاح بیشتر در عربستان سعودی رایج است و دیگر کشورهای عربی معنی دقیق آن را به درستی نمی دانند.»در مقایسه با دیگر مناطق دنیا، کشورهای عربی توانایی چندانی در حوزه اینترنت و انجام پروژه های آنلاین ندارند اما به اعتقاد هاورمن در آینده نه چندان دور کشورهای عربی پتانسیل زیادی را برای فعالیت های اینترنتی به دست خواهند آورد. او همچنین می افزاید: «اگر شما بخواهید عرب زبا ن ها را در دنیا بررسی کنید درخواهید یافت که این افراد تنها پنج درصد از کل جمعیت دنیا را شامل می شوند که در این میان تنها دو درصد آنها به اینترنت دسترسی دارند. طبق یک آمار رسمی، تعداد صفحات اینترنتی به زبان عربی تنها ۲/۰ درصد از کل صفحات اینترنتی جهان را شامل می شوند. پیش بینی شده که تاکنون حدود ۱۰۰ میلیون صفحه اینترنتی به زبان عربی ایجاد شده است و این رقم در هر سال دو برابر می شود. این یک بازار بزرگ و راکد است که می توان استفاده های فراوانی از آن کرد.»
مهم ترین مشکلی که باعث شده است زبان عربی در دنیای مجازی پیشرفت نکند به ساکنان کشورهای عربی برمی گردد. از آن جایی که بیشتر صفحات اینترنت به زبان انگلیسی نوشته شده است و عرب ها نیز کمتر با این زبان آشنایی دارند، تمایل این افراد برای استفاده از اینترنت بسیار پایین است.
هاورمن خاطرنشان ساخته است: «به طور کلی ۶۵ درصد عرب زبا ن ها با انگلیسی آشنایی ندارند و تنها ۳۵ درصد از این افراد می توانند به زبان انگلیسی صحبت کنند. به هر حال ما شاهد آن بودیم که در سال های اخیر میزان استفاده از اینترنت بین عرب ها بسیار افزایش یافته است. دولت های عرب بر اساس طرح «مدار» تصمیم دارند طی دو سال آینده نفوذ اینترنت بین مردم خود را ۴۰ تا ۴۵ درصد افزایش دهند که راه اندازی نخستین موتور جست وجوی عربی جهان نیز بخشی از این طرح محسوب می شود.»
امروزه گوگل و دیگر موتور جست وجوهای اینترنتی بزرگ دنیا خدمات خود را به زبان های مختلف، حتی عربی ارائه می دهند اما رشد بازار اینترنت دنیای عرب بر راه اندازی یک موتور جست وجوی اختصاصی تاکید می کند. هاورمن معتقد است بخش بین الملل گوگل بسیار قوی است، اگر بخواهیم یک کلیدواژه را در بخش عربی آن جست وجو کنیم درخواهیم یافت که این بخش بسیار ضعیف است.
اگرچه هم اکنون برخی سایت ها به عنوان موتور جست وجوهای عربی فعالیت می کنند اما باید توجه داشت که فعالیت آنها بسیار محدود است و قابلیت جست وجو در تمامی محتویاتی که به زبان عربی روی اینترنت گذاشته شده را ندارند. اگر بخواهیم دقیق تر این مساله را بررسی کنیم، هم اکنون ۶۰ تا ۷۰ موتور جست وجوی عربی وجود دارد اما اینها جست وجوگرهای حقیقی و تکمیل شده نیستند.قرار است در نخستین موتور جست وجوی عربی فناوری مشابهی که در دیگر موتور جست وجوها استفاده می شود به کار رود. این فناوری باعث خواهد شد تا روبوت این سایت به صورت خودکار تمامی واژگان مورد نظر کاربران را بررسی کند.
برنامه این سایت به گونه ای نوشته می شود که می تواند به صورت خودکار سایت های غیراخلاقی و نامناسب را فیلتر کند و آنها را در فهرست سایت های مرتبط با یک کلیدواژه مشخص نسازد. این امر موجب خواهد شد همه کاربران در هر سنی که هستند بتوانند مطالب را با بهترین کیفیت ممکن دریافت کنند.
هاورمن اظهار داشته است: «ما می خواهیم که در این طرح از انتشار تمامی هرزنامه های تجاری جلوگیری کنیم و جلوی عرضه سایت های غیراخلاقی و نامناسب برای جوانان را بگیریم. ما یک گروه کیفی داریم که به طور مستمر تمام محتویات سایت ها را کنترل می کنند. این همان کاری است که ما هم اکنون در اروپا انجام می دهیم و در آن بسیار موفق بوده ایم.»
اگرچه بیشتر کارهای این موتور جست وجو به صورت خودکار انجام می شود اما همچنان نیاز کارشناسان و متخصصان برای اداره این سایت احساس می شود اما افراد در این جست وجوگر به صورت دستی محتویات سایت را بررسی کرده و در صورت مناسب بودن مجوز انتشار آنها را صادر می کنند. در این فرآیند تمام مراحل فعالیت موتور جست وجو بازنگری می شود.
هاورمن در ادامه خطاب به دولت های عرب گفته است: «شما برای اجرای این پروژه به تمامی اپراتورها و کارشناسان خود نیاز دارید. شما برای اجرای این طرح باید از بهترین ابزار و وسایل استفاده کنید. این مساله باعث خواهد شد تمام کاربران آنلاین دنیای عرب از موتور جست وجوی جدید استفاده کنند.»
در حالی که Seekport تدابیر امنیتی شدیدی را برای دفتر مرکزی این موتور جست وجوهای عربی فراهم کرده، قرار است که متخصصان بسیاری به صورت شبانه روزی مراکز داده این سایت را زیر نظر بگیرند و از آنها مراقبت کنند.
هاورمن اعتقاد دارد: «امروزه بسیاری از شرکت ها به درستی اعلام نمی کنند از چه سیستم عاملی استفاده می کنند اما من به صراحت اعلام می کنم که ما در این پروژه فقط از لینوکس استفاده می کنیم زیرا معتقدم سیستم عامل مایکروسافت به اندازه کافی توانمند نیست و نمی توان به آن اطمینان کرد.»


کلمات در حال جستجو
پاول الکساندر , استقلال و الاهلی , رند پال , مهرداد صالح , آموزش شنای کودک , مسابقات جودو کاپ اروپا , هدف قرار دادن مساجد , روستاهای خرمشهر , بورسیه های غیر قـــانـــونی , یادواره شهدای آتش نشان ,

برخی از مطالبی که کاربران هم اکنون در حال خواندن آن هستند
شرح حال و معاینه کامل بالینی چیست؟ , جدول هزینه‌های زندگی (شاخص قیمت مصرف برای الجزایری‌ها، میانگین ماهانه) , سازهای اِروفون و کوردوفون , گندم , آگاه کردن خسرو شیرین را از قصد سفر خود به سوی قیصر روم , آتاکسی (ataxia) , کرم‌های انتقال‌یافته توسط بندپایان , ای دل مکن انکار و از این کار میندیش , بنزودیازپین‌ها , چو یکی ساغر مردی ز خم یار برآرم ,

برخی منابع مهم خبری
eghtesad-pooya.com روزنامه اقتصاد پویا , plus.ir تی وی پلاس , eghtesadnews.com اقتصادنیوز , iran-newspaper.com روزنامه ایران , jamaran.ir جماران , tasnimnews.com خبرگزاری تسنیم , caffecinema.com کافه سینما , kasbokarnews.ir روزنامه کسب و کار , bartarinha.ir برترینها , jahanesanat.ir روزنامه جهان صنعت ,

وبگردی
کشتی قرآن مطلا و واقعیت جامعه
کشتی قرآن مطلا و واقعیت جامعه - خبر «قرآن مطلا» در روزهای اخیر احساسات بسیاری را جریحه­ دار کرده است. اگربه جامعه و واقعیت ­های آن سری بزنیم چه می توانیم بگوییم؟ گیریم که قران مطلا کار درستی است. آیا با توجه به وجود فقط 100 خانوادۀ زیر فقر در جامعه، باز هم باید برخلاف سیره رسول خدا و امیرمومنان(علیهما السلام) آنان را نادیده گرفت و به کاری ازین دست پرداخت؟ در آن صورت، آیا قرآن مطلا با سیره و سنت رسول...
ابعاد حقوقی جدال علی مطهری با آستان قدس
ابعاد حقوقی جدال علی مطهری با آستان قدس - 38 شرکت که جزء بزرگترین کارتل های اقتصادی کشور هستند، متعلق به آستان قدس است. بنابراین آستان قدس کنونی، آستان قدسی نیست که حضرت امام در نامه خود از آن سخن گفته‌اند.
مقایسه بودجه مراکز حوزوی با دانشگاه ها
مقایسه بودجه مراکز حوزوی با دانشگاه ها - به‌جز وزارت ارشاد، هیچ‌یک از این 40 ارگان و نهاد در قبال میلیاردها تومان بودجه‌هایی که دریافت می‌دارند پاسخگو نبوده نیستند.
ویدئویی از لحظات اولیه برخورد کشتی چینی با نفتکش سانچی و انفجار
ویدئویی از لحظات اولیه برخورد کشتی چینی با نفتکش سانچی و انفجار - ویدئویی از لحظات اولیه برخورد کشتی چینی با نفتکش سانچی و انفجار
فیلم/ گریه شدید وزیر کار در گفت‌و‌گوی تلفنی با خانواده خدمه نفتکش «سانچی»
فیلم/ گریه شدید وزیر کار در گفت‌و‌گوی تلفنی با خانواده خدمه نفتکش «سانچی» - علی ربیعی وزیر کار، رفاه و امور اجتماعی در گفت‌وگوی تلفنی با خانواده یکی از خدمه نفتکش «سانچی» اظهار همدردی کرد.
تصاویر هولناک از آخرین لحظات کشتی سانچی
تصاویر هولناک از آخرین لحظات کشتی سانچی - توقف عملیات خنک سازی و مهار آتش در شب گذشته، موجب رسیدن آتش به مخازن سمت چپ کشتی و انفجارهای شدید صبح امروز شد که در نهایت پس از چند ساعت به غرق شدن کامل نفتکش ایرانی انجامید.
عکس خواستگاری کریم انصاریفرد از دختر یونانی با زمرد گرانقیمت
عکس خواستگاری کریم انصاریفرد از دختر یونانی با زمرد گرانقیمت - رسانه های مطرح یونانی با انتشار تصاویری از رابطه عاطفی ملی پوش ایرانی باشگاه المپیاکوس با یک میلیاردر یونانی - آمریکایی پرده برداشتند و مدعی شدند این دو تصمیم خود را برای ازدواج قطعی کرده اند.
چرا حداد و ولایتی بیشتر از 50 شغل دارند؟
چرا حداد و ولایتی بیشتر از 50 شغل دارند؟ - بخشی از تکثر مسئولیت های بعضی چهره‌های سیاسی به بی‌اعتمادی نظام به افراد کارآمد برمی‌گردد و علت دیگر این موضوع، اعتماد غیرمعقول به این افراد است. با این حال این افراد هرچقدر هم که توانمند باشند، از نظر روان شناسی و انسان شناسی در بخشی از مسئولیت های خود ناموفقند.
فیلم نابغه ۱۰ ساله‌ طراح خودرو / قبلی هم انرژی هسته ای کشف کرده بود!
فیلم نابغه ۱۰ ساله‌ طراح خودرو / قبلی هم انرژی هسته ای کشف کرده بود! - فیلم - حسین عطایی ۱۰ سال دارد و در حوزه طراحی مفهومی خودرو فعالیت می کند. او ۶ اختراع ثبت شده دارد، مدرسه نمی رود و از دو شرکت تسلا و ولوو دعوت به همکاری شده است. او مشاور رییس سازمان برنامه و بودجه است. گفتگوی رضا رشیدپور با نابغه ١٠ساله طراحی خودرو را اینجا ببینید.
تست تصادف سمند در انگلیس / فقط با سرعت 50 کیلومتر در ساعت !
تست تصادف سمند در انگلیس / فقط با سرعت 50 کیلومتر در ساعت ! - تست برخورد جلوی خودرو با سرعت 50 کیلومتر در ساعت برای سمند TU5 ، توسط یکی از سازمانهای معتبر ارزیابی خودرو در انگلستان صورت گرفت.
فیلم جنجالی از حجت الاسلام قاسمیان در کرمانشاه
فیلم جنجالی از حجت الاسلام قاسمیان در کرمانشاه - این فیلم حواشی زیادی را در فضای مجازی به همراه داشته است.
جنجال نیوشا ضیغمی: من اصلا ایشان را آدم حساب نمیکنم
جنجال نیوشا ضیغمی: من اصلا ایشان را آدم حساب نمیکنم - اولین قسمت از برنامه هاردتاک کاکتوس را با صحبت های جذاب نیوشا ضیغمی در مورد خانواده و همسرش ، ماجرای صحبت های جنجالی یک هواپیما ، 8 سال احمدی نژاد و ...
    پربازدیدها