سه شنبه ۱ اسفند ۱۳۹۶ / Tuesday, 20 February, 2018

موتورهای جستجو و چالش‌های جهانی


موتورهای جستجو و چالش‌های جهانی
احتمالا با موتورهای جستجو آشنایی داشته و چه بسا یکی از این موتورها را هم به عنوان صفحه اصلی خود انتخاب کرده ‌‌باشید
کاربرانی که فکر می‌کنند باید به طور حتم ابتدا وارد یکی از این سایت‌ها شده و سپس از سایت‌های دیگر استفاده کنند کم و بیش با پیچ و خم آنها آشنا شده‌اند. این رویکرد فوق‌العاده در جهان باعث شده تا موتورهای جستجو از جهات بسیاری در کانون توجه سیاستمداران و همچنین بازرگانان قرار بگیرند.
سیاستمداران و بسیاری از دول جهان طی چند سال اخیر با روش‌های گوناگون از جمله پیشنهاد مالی یا تصویب قانون و اعمال زور قصد دارند اطلاعات مورد نیاز خود را از این موتورهای جستجو به دست آوردند.
تجار، شرکت‌های بازرگانی و تبلیغاتی نیز علاقه بسیاری به اطلاعات کاربران موتورجستجوها دارند زیرا آنها نیز می‌توانند با استفاده این اطلاعات، نیازهای مناطق مختلف را تشخیص داده و همچنین می‌توانند تبلیغات خود را متناسب با هر منطقه ارائه و سود قابل توجهی را از این روش کسب کنند. همچنین متناسب با کمیت کاربران هر منطقه، قیمت تبلیغات خود را معین کنند.
مجموع عوامل فوق باعث شده که فشارهای بسیاری بر خالقان موتورهای جستجو وارد شود. استفاده از اطلاعات کاربران، علی‌الخصوص اطلاعات شخصی مانند کد ملی و اطلاعات مالی، که همواره به عنوان امانت نزد اینگونه شرکت‌ها است، با اعتراض‌های بسیاری مواجه شده است. به عنوان مثال در آخرین آنها ، اتحادیه اروپا، نظارت کامل آژانس حقوق بشر خود، بر تمامی موتورهای جستجو را شرط فعالیت این موتورها در اروپا ذکر کرده است. آنها همچنین از تمامی موتورهای جستجو به خصوص گوگل (به عنوان پر کاربرترین موتور جستجوی جهان) درخواست کرده‌اند الگوریتم فنی سایت خود را در اختیار کارشناسان این اتحادیه قرار دهد تا این اتحادیه از روش و نوع اطلاعات ذخیره شده توسط آنها آگاهی پیدا کند. آنها دلیل این درخواست خود را حمایت از حقوق افراد در جامعه اروپا و عدم سوء استفاده از اطلاعات شخصی ذکر کرده‌اند.
در برخی از کشورها نظیر چین نیز دولت به صورت مستقیم از گوگل درخواست کرده که اطلاعات مورد نیاز را در اختیار آن قرار دهد ولی مسئولان گوگل در ظاهر (به دلیل ترس از عکس‌العمل کاربران در تمام نقاط جهان) با این امر مخالفت کرده‌اند ولی با فیلتر کردن برخی از کلمات مورد حساسیت این دولت نظیر تبت و ... موافقت کرده‌اند. کارشناسان معتقدند گوگل اطلاعات لازم را مخفیانه در اختیار چینی‌ها قرار داده است و دلیل آن را اجازه فعالیت و تبلیغات بسیار به گوگل توسط دولت چین ذکر کرده‌اند.
موتورهای جستجو با توجه به وضعیت به وجود آمده در وضعیت خطرناکی قرار داشته و سعی دارند علاوه بر جلب اطمینان کاربران، منابع مالی خود را نیز از دست ندهند که همین امر چالش‌های بسیاری را برای آنها به وجود آورده است. از جمله این چالش‌ها، اتحادیه اروپا است که از آنها درخواست کرده مدت زمان نگهداری اطلاعات جستجوهای قدیمی خود را کاهش دهند. این شرکت تاکنون برای ۱۸ ماه اطلاعات جستجوها و کاربران را نگهداری می‌کرده که گویا قرار است آن را به ۱۵ ماه کاهش دهد ولی به نظر می‌رسد باید آن را تا کمتر از یک سال کاهش دهد.
فیلترینگ نیز در بسیاری از کشورها رایج بوده و این موضوع هم چالشی برای موتورهای جستجو محسوب می‌شود زیرا باعث شده بسیاری از شرکت‌های بازرگانی و تجاری، از ارائه تبلیغات اینترنتی در این کشورها خودداری کنند.
در بسیاری از موارد فیلترینگ دسته‌جمعی و با استفاده از علائم بدل صورت میگیرد که برخی از سایت‌های معمولی نیز به دلیل تشابه، فیلتر می‌‌شوند. همین امر به حدی در درآمدهای موتورهای جستجو تاثیر گذار بوده که در آخرین اظهار نظر، مسئولان گوگل از دولت‌های جهان درخواست کرده‌اند که از فیلترینگ دست کشیده یا آن را محدود کنند. این درخواست گوگل اگرچه در ظاهر امری خیرخواهانه به نظر می‌رسد، ولی در واقع در جهت منافع و سود این شرکت و سایر موتورهای جستجو است تا بتوانند تبلیغات منطقه‌ای بیشتری را کسب کنند.
به نظر می‌رسد با توجه به رشد روز افزون تعداد کاربران اینترنت و همچنین موتورهای جستجو، روز به روز بر اهمیت این سایت‌ها و اطلاعات موجود در پایگاه داده‌های آنها افزوده شود و آنها را به بمبی در حال انفجار تبدیل کند. خطر سرقت اطلاعات از این پایگاه‌ها نیز امری است که در آینده نه چندان دور ، می‌تواند دستاویز هکرها و سودجویان اینترنتی قرار گیرد و بدیهی است افزایش امنیت و استفاده از روش‌های امنیت شبکه پیشرفته، می‌تواند یکی از دغدغه‌های آتی این سایت‌ها باشد.

[ محمد رسولی ]

منبع : بنیاد آینده نگر ایران

مطالب مرتبط

نگاهی به موتورهای جست وجو در اینترنت


نگاهی به موتورهای جست وجو در اینترنت
حتماً شما هم بارها، زمانی كه به یك مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت كامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان كوتاهی آن را پیدا كرده اید. اما آیا تابه حال فكر كرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی كه شما می خواهید در مورد یك موضوع مخصوص اطلاعات كسب كنید، چگونه می دانید كه چه صفحاتی را باید بخوانید؟ احتمالاً مانند اكثر مردم، شما از یك موتور جست وجوی اینترنت بازدید می كنید.
موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبكه هستند و طوری طراحی شده اند كه به افراد كمك می كنند تا اطلاعات مورد نیازشان را كه در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملكرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱ ) در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس كلمات مهم جست وجو را انجام می دهند.
۲) یك فهرست از كلماتی كه پیداكرده اند و جایی كه آنها را پیدا كرده اند، تهیه می كنند.
۳) این امكان را برای كاربران فراهم می كنند تا كلمات یا مجموعه ای از كلمات مورد نظر خود را كه در فهرست یافت می شود جست وجو كنند.
موتورهای جست وجوی اولیه یك فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می كردند و در روز شاید یك یا دو هزار بازدیدكننده داشتند. امروزه یك موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می كند و در روز پاسخگوی ده ها میلیون جست وجو كننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به كار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبكه بیابیم.
● جست وجو میان صدها میلیون صفحه
قبل از اینكه یك موتور جست وجوگر بتواند به شما بگوید كه یك فایل در كجا قرار دارد، باید آن فایل پیدا شود. یك موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه كه در شبكه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به كار می گیرد تا لیستی از كلماتی كه در سایت های شبكه یافت می شود را ایجاد كند. فرآیندی كه یك spider لیست خود را ایجاد می كند، Web crawling نامیده می شود. برای ایجاد و نگهداری یك لیست مفید و مناسب از كلمات، یك spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی كند. چگونه هر spider مسیرش را در شبكه آغاز می كند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است كه توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی كه عمومی تر و معروف تر هستند. spider از یك سایت عمومی شروع می كند، كلمات موجود در صفحات آن را لیست می كند و هر لینكی كه در آن سایت یافت می شود را دنبال می كند. به این طریق سیستم جست وجوگر به سرعت شروع به حركت می كند و در بخش هایی كه بیشتر از همه مورد استفاده قرار می گیرد حركت می كند.
Google.com به عنوان یك موتور جست وجوگر علمی آغاز به كار كرد. سرجی برین و لورنس پیج بیان كرده اند كه spiderهای سیستم آنها با چه سرعتی می توانند كار كنند. آنها سیستم اولیه خود را به گونه ای ساختند كه از چندین spider استفاده كند، معمولاً سه تا در یك زمان. هر spider می توانست با حدود سیصد صفحه شبكه كه در یك زمان باز بودند اتصال برقرار كند. در بهترین عملكرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ كیلو بایت داده را در هر ثانیه ایجاد كند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود كه به فراهم كردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یك فراهم كننده سرویس اینترنتی برای DNS كه نام یك سرور را به یك آدرس تبدیل می كند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانی كه spider گوگل یك صفحه HTML را مشاهده می كرد، به دو نكته توجه می كرد: كلمات درون صفحه، در كجا كلمات پیدا شده اند.
كلماتی كه در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی كه دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی كاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر كلمه معنی داری در صفحه را فهرست می كرد و از كلمات a an, the صرف نظر می كرد. سایر spider ها از روش های متفاوتی استفاده می كردند. در كل تمامی این روش ها معمولاً سعی می كند تا عملكرد spider را سریع تر كند، به كاربران اجازه بدهد تا با كارایی بهتر و بهینه تر جست وجو كنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها كلماتی كه در عنوان ها، عنوان های فرعی و لینك ها وجود دارند یا كلماتی كه بارها در صفحه تكرار می شوند و هر كلمه ای در بیست خط اولیه متن را نگهداری می كند. سایت Lycos از این روش استفاده می كند.
سایر سیستم ها، از قبیل AltaVista، هر كلمه در صفحه، شاملa an, the و سایر كلمات كه بی اهمیت هستند را هم لیست می كنند.
● ایجاد فهرست
زمانی كه spider ها وظیفه یافتن اطلاعات از صفحات شبكه را به اتمام رساندند (البته باید در نظر داشته باشیم كه این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبكه به این معنی است كه spiders ها همیشه در حال حركت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شكلی كه مفید باشد، ذخیره كند. دو مولفه كلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای كاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی كه توسط آن اطلاعات فهرست می شود.
در آسان ترین حالت، موتور جست وجوگر می تواند تنها كلمه و URL را ذخیره كند. در حقیقت، این روش برای موتوری با كاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینكه تعیین كند آیا كلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا كلمه تنها یك بار یا چندین مرتبه تكرار شده است یا صفحه لینك هایی به صفحات دیگری كه شامل آن كلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده كه تلاش می كند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.
برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر كلمه و URL ذخیره می كنند. موتور ممكن است تعداد دفعاتی كه كلمه در صفحه تكرار شده است را ذخیره كند، یا ممكن است مقداری را به هر ورودی اختصاص بدهد و زمانی كه كلمات در عناوین، عنوان های فرعی و لینك ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری كلمات فهرست خود دارد. این مسئله یكی از دلایلی است كه موجب می شود جست وجوی یك كلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.
داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینكه آیا كلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت كلمه و سایر اطلاعاتی كه به رتبه بندی آن كمك می كند را به صورت بیت و بایت ذخیره می كند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شكل بسیار فشرده ای ذخیره شود. بعد از اینكه اطلاعات فشرده شد، برای فهرست شدن آماده است.
هدف از ایجاد یك فهرست این است كه باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممكن پیدا كنیم. به طور كل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یكی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به كار می رود تا به هر كلمه یك ارزش عددی اختصاص بدهد.
پرسش و جست وجوی انجام شده توسط كاربر می تواند خیلی ساده باشد، حتی یك كلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده كنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملكرد یك موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از كلمات و جایی كه قرار دارند فراهم می كند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می كند، داده ها را رمزگذاری می كند و سرانجام اطلاعات را برای دسترسی كاربران ذخیره می كند.
● آینده موتورهای جست وجوگر
در جست وجوهایی كه از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان كلمات یا عبارتی كه وارد شده است را جست وجو می كند. زمانی كه كلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشكل است. در این حالت، اگر برای شما تنها یكی از معانی آن كلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را كه شامل معانی دیگر كلمه است ببینید. شما می توانید یك جست وجوی لفظی ایجاد كنید كه تا حدودی معنی های ناخواسته را حذف كند، اما بهتر این بود كه خود موتور جست وجو می توانست این كار را انجام بدهد.
یكی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده كردن از تحلیل های آماری صفحاتی كه شامل كلمات یا عباراتی است كه شما جست وجو می كنید، برای اینكه صفحات دیگری را كه ممكن است شما به آن علاقه داشته باشید پیدا كند. بدیهی است كه در یك موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می كنند تا نتایج و عملكرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری كه پژوهشگران درباره آن تلاش می كنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است كه شما بتوانید پرسش تان را به گونه ای تایپ كنید مثل اینكه آن را از شخصی كه كنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده كنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده كار می كند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.
همچنان تلاش های بسیاری برای افزایش كیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.

وبگردی
بار دیگر زیر گرفتن ماموران پلیس با ماشین سواری توسط دراویش
بار دیگر زیر گرفتن ماموران پلیس با ماشین سواری توسط دراویش - باز هم زیر گرفتن ماموران امنیتی و نیروی انتظامی توسط یک ماشین دیگر سواری توسط اراذل خیابان گلستان هفتم
تهدید نیروی انتظامی توسط دراویش ساعتی قبل از درگیری در پاسداران
تهدید نیروی انتظامی توسط دراویش ساعتی قبل از درگیری در پاسداران - تهدید نیروی انتظامی توسط وحوش #دراویش، ساعتی قبل از جنایت تروریستی با اتوبوس:«فقط نیم ساعت وقت دارید تا باید بدون قید و شرط برادرمون رو آزاد کنید...»
حمله با اتوبوس به مأموران پلیس در پاسداران
حمله با اتوبوس به مأموران پلیس در پاسداران - کی از دراویش گنابادی با اتوبوس به مردم و مأموران پلیس در خیابان پاسداران تهران / گفته میشود تعداد شهدای ناجا در حمله آشوبگران فرقه ضاله گنابادی و حامیان نورعلی تابنده به ۴ تن رسیده است.
لحظه مواجهه وزیر راه با خانواده قربانیان سانحه هواپیمای
لحظه مواجهه وزیر راه با خانواده قربانیان سانحه هواپیمای - به دنبال سقوط هواپیمای تهران-یاسوج ویدیو لحظه مواجه خانواده های جانباختگان را با وزیر مشاهده می کنید.
حمله با چاقو به یک راننده سر پارک خودرو
حمله با چاقو به یک راننده سر پارک خودرو - تصاویری دردناک از حمله مرد موتور سوار با چاقو به یک مرد راننده در حضور همسر و فرزندش در شهرستان داراب استان فارس را در ویدئوی زیر می بینید. به نظر میرسد این اتفاق در پی جرو بحثی بر سر پارک کردن وسایل نقلیه روی داده است!
اگر «عدم رویارویی با حریفان اسرائیلی» آرمان ماست چرا پنهانی و دزدکی؟
اگر «عدم رویارویی با حریفان اسرائیلی» آرمان ماست چرا پنهانی و دزدکی؟ - آنچه مشخص است جمهوری اسلامی ایران باید تصمیم مشخص و درستی درباره سیاست عدم رویارویی با ورزشکاران رژیم صهیونیستی بگیرد. دیگر نمی‌توان با این روش تعقیب و گریزی با این مسئله برخورد کرد. دیگر نمی‌توان ورزشکاران را از مقابله با کشتی‌گیران اسرائیلی باز داشت و در برابر رسانه‌های جهانی گفت به خاطر مصدومیت در میدان حاضر نمی‌شویم و در داخل جشن بگیریم که ما عزت‌مان را حفظ کردیم و...
ویدئو / حضور خانواده مسافران هواپیمای یاسوج در محل حادثه
ویدئو / حضور خانواده مسافران هواپیمای یاسوج در محل حادثه - برخی از خانواده‌های مسافران هواپیمای تهران - یاسوج که صبح یکشنبه (۲۹ بهمن) در ارتفاعات سقوط کرد، در حوالی مناطق احتمالی وقوع حادثه حضور یافته‌اند تا از نزدیک در جریان عملیات جست‌وجوی لاشه هواپیما قرار بگیرند. نیروهای حاضر در محل نیز برای آنها توضیح می‌دهند که چرا کار این عملیات با دشواری‌هایی مواجه است.
بدل ایرانی آنجلینا جولی رونمایی شد !
بدل ایرانی آنجلینا جولی رونمایی شد ! - شب گذشته مراسم اکران فیلم بلوک 9 خروجی 2 به کارگردانی علیرضا امینی و تهیه کنندگی محمدرضا شریفی نیا و نیز فیلم شاخ کرگدن در پردیس سینمایی ملت برگزار گردید.
اظهارات جنجالی احمدی نژاد در مقابل دادگاه
اظهارات جنجالی احمدی نژاد در مقابل دادگاه - سخنرانی پرحاشیه احمدی نژاد در مقابل دادگاه بقایی
    پنج راه عملی برای مدیریت انتظارات مشتری
    اگر یک کسب‌وکار مبتنی بر خدمات را رهبری می‌کنید، شاید بتوانید برای ما داستان‌هایی ترسناک از مشتری‌های بد و پروژه‌های نامطلوبی تعریف کنید که سرانجام خوبی نیافتند