یکشنبه ۳۰ مهر ۱۳۹۶ / Sunday, 22 October, 2017

موتور های جستجو


موتور های جستجو
امروزه بر روی اینترنت و مهمترین سرویس آن ( وب )، صدها میلیون صفحه حاوی اطلاعات وجود دارد. کاربران اینترنت با آگاهی از آدرس یک سایت ، قادر به اتصال به سایت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سایت خواهند بود. ما با دریائی از اطلاعات مواجه هستیم ، در صورتیکه قصد یافتن اطلاعاتی خاص را داشته باشیم ، از چه امکاناتی در این زمینه می توان استفاده کرد. ؟ برای جستجو و یافتن اطلاعات مورد نیاز از مراکز جستجوی اطلاعات در اینترنت استفاده می گردد . به مراکز فوق Search engines نیز می گویند.
مراکز جستجو در اینترنت ، نوع خاصی از سایت های موجود در وب بوده که با هدف کمک برای یافتن اطلاعات ، ایجاد شده اند. مراکز جستجو در اینترنت بمنظور پاسخگوئی به کاربران متقاضی و جستجوکنندگان اطلاعات از سه روش متفاوت استفاده می نمایند. نحوه عملکرد سه روش با یکدیگر مشابه بوده و تنها تفاوت موجود میدان انتخاب شده برای عملیات جستجو است .
▪ اینترنت و یا بخشی از آن بر اساس کلمات مهم ، جستجو می گردد.
▪ از کلمات پیدا شده یک ایندکس بهمراه محل مربوط به هر یک ، ایجاد می نمایند.
▪ به کاربران امکان جستجو برای کلمات خاص و یا ترکیبی از آنها که در فایل ایندکس موجود می باشند ، داده می شود.
مراکز جستجوی اولیه در اینترنت ، صرفا" اطلاعات مربوط به چندین هزار صفحه وب را ایندکس و روزانه دو تا سه هزار کاربر متقاضی به آنها مراجعه می کردند. مراکز جستجوی فعلی در اینترنت اطلاعات مربوط به صدها میلیون صفحه را ایندکس نموده و روزانه به بیش از دهها میلیون متقاضی پاسخ می دهند.
● وب
اغلب مردم زمانیکه از مراکز جستجو در اینترنت سخن می گویند ، منظور آنها مراکز جستجوی وب است . قبل از مطرح شدن وب ( مشهورترین بخش اینترنت ) ، از مراکز جستجوی اطلاعات برای کمک به کاربران برای یافتن اطلاعات استفاده می گردید. برنامه هائی نظیر : " gopher" و " Archie" از فایل های ذخیره شده بر روی سرویس دهنده های متصل به اینترنت ، یک ایندکس ایجاد می کردند. بدین ترتیب جستجو و دسترسی به اطلاعات و مستندات مورد نظر در اسرع وقت انجام می گردید. در اواخر سال ۱۹۸۰ اکثر کاربران مستلزم دارابودن دانش کافی در رابطه با استفاده از gopher,Archie و Veronica بودند. امروزه اکثر کاربران اینترنت دامنه جستجوی خود را محدود به وب نموده اند.
قبل از اینکه یک مرکز جستجو قادر به ارائه آدرس و محل فایل مورد نظر باشد ، می بایست فایل مورد نظر پیدا شود. بمنظور یافتن اطلاعات مربوط به صدها میلیون صفحه وب موجود ، مراکز جستجو می بایست از یک نرم افزار خاص با نام Spider ( عنکبوت ) برای ایجاد لیست های شامل کلمات موجود در هر یک از صفحات وب ، استفاده نمایند. فرآیند ایجاد لیست های مربوطه توسط Spider ، اصطلاحا" web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید از کلمات ، Spider های مراکز جستجو می بایست تعداد زیادی از صفحات وب را بررسی و مشاهده نمایند. نحوه حرکت Spider در وب به چه صورت است ؟ نقاط شروع ، لیستی از سرویس دهندگان با ترافیک و اطلاعات بالا و صفحات وب متداول است . Spider از یک سایت رایج عملیات خود را آغاز و پس از ایندکس نمودن کلمات موجود در صفحات وب ، هر یک از لینک های موجود در صفحات را برای ادامه حرکت خود انتخاب خواهد کرد. بدین ترتیب سیستم مبتنی بر Spider بسرعت حرکت خود در طول وب را آغاز خواهد کرد.
Google یکی از مراکز جستجوی دانشگاهی و معتبر است . در سیستم فوق از چندین Spider ( معمولا" سه Spider در هر لحظه ) برای ایجاد مقادیر اولیه برای سیستم ، استفاده می گردد . هر Spider قادر به نگهداری ارتباط خود با بیش از ۳۰۰ صفحه وب در یک لحظه است . با استفاده از چهار spider ، سیستم فوق قادر به جستجوی ۱۰۰ صفحه در ثانیه و تولید ۶۰۰ کیلوبایت اطلاعات در هر ثانیه است . اطلاعات مورد نیاز هر یک از spider ها می بایست بسرعت در اختیار آنان گذاشته شود. سیستم اولیه Google ، دارای یک سرویس دهنده اختصاصی بمنظور تغذیه آدرس های URL مورد نیاز برای هر یک از Spider ها بود. بمنظور افزایش سرعت عملیات ، Google از یک سیستم DNS اختصاصی استفاده می کرد. ( در سایر موارد از DNS مربوط به ISP استفاده می گردد ) . زمانیکه Spider به یک صفحه وب شامل تگ های Html برخورد می نماید ، دو آیتم در رابطه با آن را یاداشت خواهد کرد :
▪ کلمات موجود در صفحه
▪ محلی که کلمات پیدا شده اند.
از کلمات موجود در عنوان (title) ، زیرعناوین (Subtitles) ، تگ های متا و سایر مکانهای مهم یاداشت برداشته شده تا در آینده با توجه به خواسته کاربر ، امکان پاسخگوئی مناسب به آنها فراهم گردد. Spider مربوط به Google ، از کلمات موجود در هر یک از صفحات وب ایندکس ایجاد و کلماتی نظیر : "a" ، "an" و "the" را حذف می نمایند. سایر Spider ها هر یک دارای رویکردهای خاص خود در این زمینه می باشند.
سیاست های استفاده شده در رابطه با نحوه ایندکس نمودن اطلاعات صفحات وب ، مستقیما" بر سرعت عملکرد spider ها تاثیر گذاشته و به کاربران امکان جستجوی قدرتمندتر و کارآ را خواهد داد. مثلا" برخی از Spider ها ، علاوه بر نگهداری اطلاعات مربوط به عناوین و لینک ها ، یکصد کلمه با فرکانس تکرار بیشتر در صفحه وب و کلمات موجود در بیست خط اولیه را نیز نگهداری خواهند کرد. مرکز جستجوی Lycos از رویکرد فوق استفاده می نماید.
سیستم های دیگر نظیر " Altavista ، از روش خاص خود در این زمینه استفاده می نمایند. در سیستم فوق برای هر یک از کلمات موجود در صفحه شامل "a" ، "an" و "the" و سایر کلمات مشابه نیز ایندکس ایجاد می گردد.
● تگ های متا
با استفاده از تگ های متا ، ایجاد کنندگان صفحات وب می توانند کلمات کلیدی موجود در صفحه و نحوه ایندکس نمودن آن را مشخص نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی می باشد بسیار مفید و کارساز خواهد بود. بدین ترتیب تگ های فوق به مراکز جستجو راهنمائی لازم در خصوص انتخاب معنی مربوط به کلمات مورد نظر را خواهند داد. در این راستا ممکن است برخی از راهنمائی های انجام شده نیز اغفال کننده بوده و نتایج مثبتی را برای مراکز جستجو بدنبال نداشته باشد. بمنظور پیشگیری از راهنمائی های اغفال کننده توسط تگ های متا ، برنامه های Spider عملیات بازبینی محتویات یک صفحه وب را بمنظور تطبیق با اطلاعات ارائه شده توسط تگ ها ی متا ، انجام می دهند. اطلاعات نادرست ارائه شده بوسیله تگ های متا ، توسط Spider ها نادیده گرفته می شود.
تمام موارد فوق مفروض به حالتی است که ایجاد کننده صفحه وب قصد معرفی صفحه ایجاد شده خود را به مراکز جستجو دارد. در برخی موارد ممکن است تمایلی به انجام این کار وجود نداشته باشد.
● ایجاد ایندکس
پس از اینکه عملیات Spider ها در رابطه با یافتن اطلاعات به اتمام رسید ، ( عملیات فوق در عمل با توجه به ماهیت وب و استقرار صفحات وب جدید هرگز به پایان نخواهد رسید ، بنابراین همواره عملیات جستجو و یافتن اطلاعات توسط Spider ها انجام می گیرد) مراکز جستجو می بایست اطلاعات مورد نظر را بگونه ای ذخیره نمایند که قابل استفاده باشند. دو روش عمده در این راستا وجود دارد:
▪ اطلاعات بهمراه داده ذخیره گردند.
▪ با استفاده از روشی اطلاعات ایندکس گردند.
در ساده ترین حالت ، یک مرکز جستجو می تواند صرفا" کلمه و آدرس URL آن را ذخیره نماید. روش فوق در بازیابی اطلاعات و جستجو توسط کاربران ایجاد محدودیت خواهد کرد. با استفاده از روش فوق نمی توان جایگاه و وزن یک کلمه در یک صفحه وب را مشخص نمود. مثلا" نمی توان تشخیص داد که کلمه مورد نظر چند مرتبه در صفحه تکرار شده و یا لینک های موجود در صفحه نیز شامل کلمه مورد نظر می باشند یا خیر . بدین ترتیب امکان ارائه یک لیست از صفحات وب که شامل کلمه مورد نظر بر اساس میزان تکرار می باشند ، وجود نخواهد داشت .
بمنظور ارائه نتایج مفیدتر توسط مراکز جستجو ، اکثر مراکز جستجو صرفا" کلمه و آدرس URL را ذخیره نمی نمایند . در این حالت مواردی نظیر : تعداد تکرار کلمه در صفحه نیز ذخیره خواهد شد. مراکز جستجو همچنین به هر entry یک وزن را نسبت خواهند داد. وزن نسبت داده شده، نشاندهنده جایگاه کلمه در صفحه است ( ابتدای صفحه ، در لینک ها ، در تگ های متا و یا در عنوان صفحه ) هر یک از مراکز جستجو برای اختصاص یک وزن مناسب به کلمه مورد نظر از یک فورمول استفاده می نمایند. موضوع فوق یکی از دلایلی است که جستجو یک کلمه توسط دو مرکز جستجو ، نتایج مشابه ای را بدنبال نخواهد داشت .
مراکز جستجو بدلیل استفاده بهینه از فضای ذخیره سازی ، اطلاعات مورد نظر را بصورت رمز شده ذخیره می نمایند. مثلا" در نسخه اولیه سایت Google از دو بایت بمنظور ذخیره سازی اطلاعات مربوط به کلمات در یک صفحه استفاده می کردند. کلمات بصورت حروف بزرگ بهمراه اندازه فونت ، وزن و موقعیت آن ذخیره می گردید. هر یک از فاکتورهای فوق دو ویا سه بیت از دو بایت اشاره شده را به خود اختصاص می دادند. بدین ترتیب اطلاعات گسترده ای بصورت فشرده ذخیره و سپس عملیات ایجاد ایندکس انجام می گیرد.
ایندکس دارای صرفا" یک هدف است : امکان یافتن اطلاعات با سرعت بالا . برای ایجاد ایندکس از روش های متعددی استفاده می گردد. یکی از بهترین روش های موجود ، ایجاد یک جدول Hash است . در روش hashing ، از یک فورمول برای اختصاص یک عدد به یک کلمه استفاده می گردد. توزیع عددی با توزیع کلمات بصورت الفبائی با یکدیگر متفاوت بوده و همین امر ، موثر بودن جداول hash را بدنبال خواهد داشت . در زبان انگلیسی حروفی وجود دارد که کلمات زیادی با آنان آغاز می گردد. مثلا" بخش حرف "M" ، در یک دیکشنری بمراتب قطورتر از حرف "X" است . بدین ترتیب جستجو و یافتن کلماتی که با حرف M شروع می گردند زمان بمراتب بیشتری نسبت به یافتن کلماتی که با حرف "X" آغاز می گردند ، را طلب می کند. در روش hashing ، با آگاهی از موارد فوق، بگونه ای رفتار می گردد که متوسط زمان بازیابی هر کلمه کاهش یابد. در روش فوق ایندکس از داده واقعی متمایز می گردد. جدول hash ، شامل شماره hash بهمراه اشاره گری است که به داده مورد نظر اشاره می نماید. با ایجاد یک سیستم ایندکس مناسب و ذخیره سازی مطلوب اطلاعات ، امکان ارائه نتایج مفید برای کاربران را فراهم خواهد کرد.
● جستجو
کاربران برای جستجوی اطلاعات مورد نیاز ، پس از ورود به سایت مرکز جستجو ، یک query را ایجاد می نمایند. query می تواند ساده و صرفا" شامل یک کلمه و یا پیچیده و استفاده از عملگرهای منطقی باشد. برخی از عملگرهای منطقی عبارتند از :
▪ AND . تمام کلماتی که توسط AND بیکدیگر ملحق شده اند ، می بایست در صفحه موحود باشند. در برخی از مراکز جستجو از عملگر "+" بعنوان عملگر جایگزین AND نیز استفاده می شود.
▪ OR . حداقل یکی از کلماتی که توسط OR بیکدیگر ملحق شده اند ، می بایست در صفحه موجود باشد .
▪ NOT . کلمه بعد از NOT نباید در صفحه موجود باشد. برخی از مراکز جستجو از عملگر "-" نیز استفاده می نمایند.
▪ Followed by . یکی از کلمات می بایست مستقیما" پس از کلمه دیگر وجود داشته باشد.
● آینده مراکز جستجو
جستجوهائی که توسط عملگرهای منطقی تعریف می گردند از نوع جستجوهای literal می باشند. مراکز جستجو بمنظور ارائه نتایج مورد نظر کاربر ، دقیقا" کلمه و یا کلمات مشخص شده توسط کاربر در بانک اطلاعاتی جستجو می نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی باشد ، نتایج مثبتی را بدنبال نخواهد داشت . برای اخذ نتایج دلخواه ، کاربران اینترنت می توانند با استفاده از عملگرهای منطقی محدودیت هائی را ایجاد نمایند ، روش مناسب این است که محدودیت فوق از طریق مرکز جستجو اعمال گردد.
یکی از مواردیکه اخیرا" توسط محققین متفاوتی در مراکز جستجو دنبال می گردد ، جستجو بر اساس مفهوم است .در روش فوق با استفاده از آنالیزهای آماری بر روی صفحات شامل کلمات سعی در ارائه نتایج مطلوبتری وجود دارد. در برخی موارد دیگر استفاده از زبانهای طبیعی برای جستجو دنبال می گردد. در روش فوق برای طرح سوال خود از یک مرکز جستجو از روشی که توسط انسان برای طرح سوالات مربوطه استفاده می گیرد، استفاده خواهد شد. در این راستا ضرورتی به استفاده از عملگرهای منطقی و یا query های پیچیده نخواهد بود.


منبع : جنوبی‌ها

مطالب مرتبط

کلمات در حال جستجو
محمدرضا ملیجی , يادبود , حزب دموکرات کردستان , تشخی , شطرنج بازان , افت نسبی طلا , نشست کارآفرینی , یادواره شهدای , تشکل های زیست محیطی خوزستان , کمبود مکانیزاسیون , عل , انهدام جنگده روسیه , دیدارآیت الله , تشویق کودکان , تولید ذرت , موسی نجفی , خودروی آمریکایی , شورای هماهنگی تبلیغات اسلامی , شهردار محمدیه , شمل , پوستر جدید عید نوروز , افول شعر , میوه قاچاق , متهمان روز قدس , علینقی خاموشی , عمل مستهجن , ورززشگاه ها , سنگچولی , مالیات مضاعف , جمع آوری , ملک سلمان اندونزی , علوم پزشکی زنجان , مشمولان غایب , السودانیه , هیئت سوارکاری خراسان شمالی , منطقه مند , سامانه های هوافضا , ایران و اسلوونی , افزایش سهمیه , سوکمپل , عامر کعبی فرد , پشت میله های زندان , اوراکل , جاسوسی از رایانه های شخصی , شهروند تهرانی , برگزاری مراسم اعتکاف , خلق , بیماری فلبی , بهترین انیمیشن‌ ها , فقه نظام ساز ,

برخی از مطالبی که کاربران هم اکنون در حال خواندن آن هستند
غلط بودن مفروضات برنامه , صلح و تفاهم فرهنگی بین کشورها , بخش صید و صیادی , کأس می در دست و کوس عشق بر بامستمان , نقش تعیین کننده هر یک از عوامل جغرافیائی و منابع طبیعی , فرمان حرکت فیلم , هزینه‌های ثابت متوسط (Average Fixed Costs = AFC) , قراقويونلو و آق‌قوبونلو , ای نرگست به شوخی صدبار خورده خونم , پیدا کردن بخت , ایا یاری که در تو ناپدیدم , پریتونیت , ز دور یاسمنت سبزه سر نکرده هنوز , ادغام و یکپارچگی و ستیز در گروه‌ها , اپیدمیولوژی , جدول ایستگاه‌های تلویزیون محلی , مقررّات گمرکی , Version , کاهش بویائی , آغاز ده نامه ,

برخی منابع مهم خبری
alef.ir الف , shahrefarda.ir شهرفردا , emrouzin.com امروزین , ammariyon.ir عماریون , asreazadi.com عصر آزادی , kheybaronline.ir خیبرآنلاین , persianmags.com پرشین مگز , jahanesanat.ir جهان صنعت , tik.ir تیک , jahannews.com جهان نیوز , 1dar1.com یک در یک , fetnehnews.ir فتنه , shabestan.ir شبستان , navad.net روزنامه نود , donya-e-eqtesad.com دنیای اقتصاد , yalasarat.com یالثارات , rooyeshnews.com رویش , jamaran.ir جماران , ghasednews.ir قاصد , iribtv.ir صداوسیما , parsfootball.com پارس فوتبال , artna.org آرتنا , rasanehiran.com رسانه ایران , omidnameh.com امیدنامه , ictpress.ir آی سی تی , adyannews.com ادیان , chn.ir میراث فرهنگی , nava.ir نوا , teyf.ir طیف , ireconomy.ir اقتصاد ایرانی ,

وبگردی
همسر جهانگیری در ضیافت ناهار همسر اردوغان در کشتی!
همسر جهانگیری در ضیافت ناهار همسر اردوغان در کشتی! - همسر اسحاق جهانگیری و دیگر مقامات اجلاس دی-۸ در ضیافت ناهار همسر اردوغان را می‌بینید.
محسن افشانی باز هم جنجال آفرید.
محسن افشانی باز هم جنجال آفرید. - بتازگی فیلمی در استوری اینستاگرام خانم لنی برلین lennyberlin خواننده و دی جی اوکراینی منتشر شده که عجیب بود. حضور آقای محسن افشانی بازیگر کشورمان در کنسرت این خواننده و حضور در کنار این خانم آن هم با ظاهری نامتعارف جای سوال و تعجب دارد.
میرشکاک: اختلاس مقدس شده است
میرشکاک: اختلاس مقدس شده است - خشت خام / نوبت سی و چهارم / گفتگوی حسین دهباشی با یوسفعلی میرشکاک / ویدیو از آپارات
فیلم | شخصی که کنار ترامپ ایستاده بدل ملانیاست
فیلم | شخصی که کنار ترامپ ایستاده بدل ملانیاست - فیلم - کاربران شبکه های اجتماعی با انتشار این ویدئو شایعه کرده اند فردی که کنار دونالد ترامپ ایستاده، ملانیا نیست و بدل او است.
رفتار نامناسب قرائتی در یک برنامه زنده
رفتار نامناسب قرائتی در یک برنامه زنده - سن و سال كه بالا برود حوصله آدم كمتر مي شود. در پخش مستقيم هم اقتضائات و شرايطي است كه آقاي قرائتي به آن عادت ندارد. در همين ويدئو هم ايشان مي گويد دوربين را نگه داريد! يعني كاملا واضح است كه ايشان تصور مي كرده در يك برنامه ضبطي سخنراني مي كند!
حمله خانم نماینده با پایه میکروفن به معاون استاندار
حمله خانم نماینده با پایه میکروفن به معاون استاندار - هاجر چنارانی نماینده نیشابور سخنرانی معاون استاندار خراسان رضوی را بخاطر استفاده سهوی از کلمه خراسان غربی در سخنرانی گذشته به هم زد.
"اسیدپاشی اصفهان" هم‌چنان "معما"
"اسیدپاشی اصفهان" هم‌چنان "معما" - این اظهارات رییس پلیس آگاهی مسیر عجیب خود را ادامه داد تا به اینجا رسید که توپ عدم دستگیری اسیدپاش را به زمین رسانه‌ها انداخت. او گفت: "این در شرایطی بود که این فرد در شرایط زمانی آن موقع به‌دنبال حساسیت بالایی که در رسانه‌ها و جامعه ایجاد شد، در نیمه راه، از ادامه مسیرش منصرف شد."
حاشیه های مراسم ختم داود احمدی‌نژاد
حاشیه های مراسم ختم داود احمدی‌نژاد - مراسم ترحیم مرحوم داود احمدی‌نژاد برادر رئیس جمهور سابق کشورمان عصر دیروز در مسجد امام خمینی(ره) شهرک شهید محلاتی برگزار شد.
دختر شطرنج‌باز ایرانی به تیم ملی آمریکا پیوست
دختر شطرنج‌باز ایرانی به تیم ملی آمریکا پیوست - دختر شطرنج‌باز ایرانی که به دلیل حضور بدون حجاب در رقابت‌های بین‌المللی از تیم ایران اخراج شد، به تیم ملی آمریکا پیوست.
میلیاردر ایرانی بار دیگر خودرویBMW خود را به آتش کشید
میلیاردر ایرانی بار دیگر خودرویBMW خود را به آتش کشید - فیلم / آقا این ماشینو بفروش یک پراید بخر راحت شو.
ازدواج قربانی اسید پاشی اصفهان
ازدواج قربانی اسید پاشی اصفهان - مرضیه ابراهیمی در جریان اسیدپاشی یکی از قرنیه‌هایش را از دست داد و بدنش نیز به‌ شدت آسیب دید و یک قسمت از سرش سوراخ شد.
مشاهده زندگی جدید خانم رهنما فعلآ بلامانع است / عکس
مشاهده زندگی جدید خانم رهنما فعلآ بلامانع است / عکس - عقد «بهاره رهنما» و همسرش در حرم امام رضا (ع)
تصاویر ازدواج مجدد بهاره رهنما
تصاویر ازدواج مجدد بهاره رهنما - بهاره رهنما که بیشتر کارهای او با مضمون ظنز و کمدی است . روز شنیه 4 شهریور با امیر خسرو عباسی ازدواج کرد.
حرکات عجیب احمدی  نژاد هنگام تعریف خاطرات بقایی از زندان!
حرکات عجیب احمدی نژاد هنگام تعریف خاطرات بقایی از زندان! - حرکات عجیب احمدی نژاد هنگام تعریف خاطرات حمید بقایی از دوران زندان کوتاه مدتش
    پربازدیدها