چهارشنبه ۲ اسفند ۱۳۹۶ / Wednesday, 21 February, 2018

حرکت با سرعت بیشتر


حرکت با سرعت بیشتر
بنابر اسناد بررسی‌شده توسط وال‌استریت ژورنال، شرکت گوگل با شرکت‌های مخابراتی وارد مذاکره شده تا ترافیک اینترنتی بیشتری برای محتوای خود داشته باشد. گوگل همیشه یکی از حامیان سفت‌وسخت دسترسی یکسان به شبکه برای تمام فراهم‌کنندگان محتوا بوده است.
در حال حاضر، اصلِ «بی‌طرف بودن شبکه» به ‌مخاطره افتاده است. این اصل می‌گوید شرکت‌هایی که با جریان‌ داده‌ها سر و کار دارند، باید همگی یک ترافیک یکسان داشته باشند و هیچ‌کسی نباید از این خط تجاوز کند.
اما شرکت‌های مخابراتی می‌گویند که فراهم‌کنندگان محتوای اینترنتی باید هزینه‌های شبکه را بین خود تقسیم کنند؛ به‌ویژه با توجه به این که بنابر برآوردها، ترافیک اینترنتی هرساله ۵۰ درصد رشد دارد.
شرکت‌های مخابراتی می‌گویند برای سر و سامان دادن به ترافیک روزافزون- که عمدتاً در نتیجة افزایش‌ ویدیوهای آنلاین ایجاد می‌شود- باید برای ارتقای شبکه‌های خود، درآمدها را افزایش دهند. اخذ هزینه از شرکت‌ها برای ارائة خطوط پرسرعت، یکی از این گزینه‌ها است.
یکی از اپراتورهای عمدة خدمات کابلی که با گوگل وارد مذاکره شده، می‌گوید تاکنون برای انجام معامله اکراه داشته است و دلیل آن، داشتن نگرانی در مورد امکان عبور از خطوط قرمز مشخص‌شده توسط کمیسیون فدرال ارتباطات ایالات متحده در مورد بی‌طرف بودن شبکه است. یکی از مدیران یک شرکت خدمات کابلی که از مذاکرات آگاه است، با اشاره به واکنش احتمالی قانون‌گذاران می‌گوید: «اگر ما دست به چنین معامله‌ای می‌زدیم، در این‌صورت مسئولین خیلی از ما ناراحت می‌شدند.»
مایکروسافت و یاهو نیز به‌طور جداگانه از ائتلاف دو سال پیش مبنی بر پشتیبانی از بی‌طرف بودن شبکه، خود را کنار کشیده‌اند. هر یک از آنها روابطی با شرکت‌های تولیدکننده گوشی و خدمات کابلی برقرار کرده است.
علاوه بر این، متخصصان اینترنتی- که برخی از آنها در مورد مسایل مربوط به فناوری به رئیس جمهور منتخب امریکا باراک ‌اوباما مشاوره می‌دهند- نیز در مورد این موضوع، سرسختی گذشته را از خود نشان نمی‌دهند. این بحث جنجال‌برانگیز، برای اینترنت به‌عنوان پلتفرمی برای تجارت‌های جدید، از اهمیت بالایی برخوردار است. حامیان بی‌طرف بودن اینترنت می‌گویند اگر شرکت‌هایی همچون گوگل در مذاکرات خود موفق شوند، اینترنت به مکانی تبدیل خواهد شد که در آن شرکت‌های ثروتمند در مقایسه با آنهایی که پول کمتری دارند، دسترسی سریع‌تر و آسان‌تری به وب خواهند داشت. آنها می‌گویند این امر موجب از بین رفتن رقابت خواهد شد.
برای کاربران کامپیوتری، این امر به‌معنای آن خواهد بود که وب‌سایت‌ شرکت‌هایی که نمی‌توانند خطوط پرسرعت داشته باشند، بسیار آهسته‌تر از شرکت‌هایی پاسخ خواهد داد که هزینة بیشتری پرداخت می‌کنند. حامیان بی‌طرفی شبکه اظهار می‌کنند که در بدترین حالت، اینترنت می‌تواند به کانالی تبدیل شود که در آن شرکت‌هایی همچون کامکست در بخش تلویزیون کابلی، می‌توانند کنترل توزیع و محتوا- و همچنین بخش زیادی از آنچه را که کاربران می‌توانند به آن دسترسی داشته باشند- در دست بگیرند.
گذشت زمان،‌ تعهد و پایبندی آقای اوباما به بی‌طرف بودن شبکه را امتحان خواهد کرد. او یک سال پیش در محوطة این شرکت در مانتن‌ویو در ایالت کالیفرنیا خطاب به کارمندان این شرکت، این‌طور گفت: «شاید اینترنت بازترین شبکه در تاریخ باشد و ما باید باز بودن آن را حفظ کنیم. من هر کاری که از دستم برآید را انجام می‌دهم تا بی‌طرف بودن شبکه حفظ شود.»
اما لورنس لسیگ (یک مدرس قوانین اینترنتی در دانشگاه استانفورد و یکی از حامیان پرنفوذ بی‌طرفی شبکه) به‌تازگی با ایراد بیاناتی در یک کنفرانس مبنی بر این که فراهم‌کنندگان محتوا بهتر است بتوانند برای در اختیار داشتن سرویس‌های سریع‌تر پول بیشتری بپردازند، تغییر موضع داده است. گفته می‌شد آقای لسیگ -که از دوران تدریس حقوق در دانشگاه شیکاگو با باراک ‌اوباما آشنایی دارد- قرار است نامزد ریاست کمیسیون فدرال ارتباطات ایالات متحده باشد. این کمیسیون مسئولیت اداره کردن صنعت مخابرات در این کشور را برعهده دارد.
این تغییر موضع، برخی را نگران ساخته است. بن اسکات (مدیر سیاست مطبوعات آزاد، یک گروه حامی مطبوعات واقع در واشنگتن) می‌گوید: «در واقع آنها می‌گویند می‌توان در شبکه تبعیض قائل شد.» او ادامه می‌دهد: «این امر به‌معنای آن است که نخستین بخش از طرح تجاری شما، باید ایجاد یک معامله با AT&T باشد.»
پشتیبانان بی‌طرفی شبکه، معتقدند که این بی‌طرفی موجب شده در دو دهة گذشته در اینترنت انقلاب فناوری روی دهد و این امر منجر به ایجاد هزاران شغل شده است.
ایدة بی‌طرف بودن شبکه در ابتدا از کسب‌وکار تلفن نشأت گرفت. انحصار دیرینة تلفن در ایالات متحده اجازه نمی‌داد مردم بتوانند سرعت اتصال مورد نظر خود را انتخاب کنند. در دهة ۹۰ میلادی که اینترنت مورد استفادة گسترده قرار گرفت، محتوا از طریق خطوط تلفن به شبکه منتقل می‌شد و بنابراین همان قانون در اینجا نیز صدق می‌کرد.
در ابتدا شرکت‌های تلفن بر عدم دخالت‌شان در ترافیک اینترنتی که در شبکه‌های آنها جریان داشت، تأکید زیادی داشتند. اما با گذشت زمان، برخی از این شرکت‌ها می‌دیدند که فراهم‌کنندگان محتوا مانند آمازون دات‌کام پول زیادی درمی‌آورند، در حالی که بدون وجود شبکه‌های مخابراتی و شرکت‌های خدمات کابلی، اصلاً شرکت‌هایی مانند آمازون دات‌کام وجود خارجی نمی‌داشتند. در ماه اوت (مرداد) سال ۲۰۰۵ و در یک فضای آشفته، کمیسیون گفته شده با تضعیف بی‌طرف بودن شبکه، آن را به چهار اصل اساسی محدود کرد. این اقدام موجب شد تا این کمیسیون بیشتر در مورد بی‌طرف بودن شبکه تأمل کند.
سپس شرکت‌های عمدة تلفنی از جمله AT&T و ورایزن اعلام کردند که قصد دارند خطوط پرسرعت روی اینترنت بنا کنند و از شرکت‌های فراهم‌کنندة محتوا برای استفاده از آن، مبلغی دریافت خواهند کرد. آنها ادعا کردند که شرکت‌های اینترنتی تا به‌حال مجانی سواری می‌کرده‌اند.
این امر انتقادهای کوبنده‌ای در پی داشت. گروهی متشکل از شرکت‌هایی همچون گوگل، مایکروسافت، و آمازون به گروه‌هایی مردمی پیوستند تا برای آنچه که "نجات اینترنت" نامیده می‌شد با هم همکاری داشته باشند. این ائتلاف مدعی بود اقدام‌های کمیسیون ارتباطات فدرال می‌توانند آزادی بیان را به‌خطر بیندازند.
حامیان بی‌طرف بودن شبکه همچنین ادعا می‌کردند که قوانینی از این دست می‌توانند اختیار تمامی محتوا را در دست توزیع‌کنندگان قرار دهند؛ چرا که آنها می‌توانند بنا به پولی که پرداخت می‌کنند، ترافیک اینترنت را در دست بگیرند. به دیگر ‌سخن، سرنوشت یک سایت خاص، به‌جای میزان محبوبیت، به این بستگی خواهد داشت که چقدر پول می‌تواند به فراهم‌کنندگان زیرساخت شبکه بپردازد.
اگر خود این شرکت‌ها، عرضه‌کننده محتوا نیز بودند این نگرانی افزایش می‌یافت. شرکت AT&T، بزرگترین فراهم‌کنندة پهن‌باند در ایالات متحده، به‌تازگی یک سرویس ویدیویی آنلاین با نام VideoCrawler راه‌اندازی کرده تا با یوتیوب و دیگران به رقابت بپردازد.
رابرت توپولسکی (یک مهندس شبکه از شهر پورتلند از ایالت اورگان) می‌گوید: «یکی از راه‌هایی که AT&T می‌تواند از این رقابت سربلند بیرون بیاید، این است که در مورد سرویس ویدیویی خود در شبکه‌هایش، به مردم حق انتخاب بدهد.» یکی از سخنگویان AT&T می‌گوید این شرکت در این مورد هیچ طرحی ندارد.
آقای توپولسکی متوجه شده است که کامکست یکی از سرویس‌های به‌اشتراک‌گذاری فایل‌ها با نام بیت‌تورنت را کُند کرده است. این کشف سرانجام منجر به اعمال تحریم‌هایی از سوی کمیسیون ارتباطات فدرال علیه کامکست شد. کامکست معترض شده و گفته است که این کمیسیون از اختیارات لازم برای اعمال چنین قانونی برخوردار نیست.
در سال ۲۰۰۶، مایکروسافت این مسئله را بسیار جدی تلقی کرد و نامه‌ای به کنگره با این مضمون نوشت که "نجات بی‌طرف بودن شبکه نشان خواهد داد که ایالات متحده می‌تواند به رهبری خود بر فناوری‌های مرتبط با اینترنت در سرتاسر جهان ادامه دهد." این مباحثات سرانجام به یک نقطة نهایی رسید. لوایح مربوط به تصویب بی‌طرفی شبکه، با ناکامی روبه‌رو شدند و شرکت‌های تلفنی هم تصمیم گرفتند اینترنت را بیشتر در اختیار خود بگیرند.
آقای اوباما در طی تبلیغات ریاست جمهوری خود مرتباً در مورد اینترنت صحبت می‌کرد؛ چرا که ابزاری حیاتی برای دستیابی به رأی‌دهندگان جدید بود. او همچنین، در مورد بی‌طرف بودن شبکه هم سخن می‌گفت. او سال گذشته به کارمندان گوگل گفت: «همین‌که فراهم‌کنندگان تصمیم بگیرند به برخی از وب‌سایت‌ها مزیت‌های خاصی اعطا کنند، در این‌صورت صداهای ضعیف‌تر از میان خواهند رفت و سپس همة ما بازنده خواهیم بود.»
● مشاوران اوباما
اما برخی از افرادی که در مورد فناوری به رئیس جمهور جدید ایالات متحده مشاوره می‌دهند، دیدگاه خود در مورد بی‌طرف بودن شبکه را تغییر داده‌اند. آقای لسیگ از استانفورد یکی از آنها است. او در یک کنفرانس اظهار کرد: «چه اشکالی دارد که کسانی بخواهند با پرداخت پول بیشتر، سرویس‌های پرسرعت‌تری در دسترس داشته باشند؟»
آقای لسیگ سپس در یک مصاحبه گفت: «برای ایجاد اولویت در ترافیک، دلایل مناسبی وجود دارند. اگر قرار باشد که همه برای سرویس پستی یک مبلغ پرداخت کنند، دیگر چه فرقی میان شما که می‌خواهید برای مادربزرگتان یک کارت پستال بفرستید، با کسی که بخواهد برای وکیلش یک نامة مهم بفرستد، وجود خواهد داشت؟»
برخی از متخصصان مخابرات می‌گویند پهن‌باند سودآورترین سرویسی است که شرکت‌های مخابراتی عرضه می‌کنند؛ آنها تلاش می‌کنند درآمد از دست‌رفتة خود در کسب‌وکار تلفن سنتی را جبران کنند. در طی دو سال گذشته، از زمانی که گوگل، مایکروسافت، آمازون و دیگر شرکت‌های اینترنتی به‌طرفداری از بی‌طرف بودن شبکه با هم متحد شده‌اند، این حوزه تغییر زیادی کرده است. شرکت‌های اینترنتی شراکت‌هایی با شرکت‌های کابلی و مخابراتی برقرار کرده‌اند و به‌این ترتیب به‌هم وابسته‌تر شده‌اند.
مایکروسافت که تنها دو سال پیش برای نجات دادن بی‌طرف بودن شبکه شکایت خود را به کنگره اعلام کرد، کاملاً تغییر موضع داده است. این شرکت گفته است: «بی‌طرف بودن شبکه سیاستی است که این شرکت دیگر آن را دنبال نمی‌کند.» این غول نرم‌افزاری اکنون از قوانینی حمایت می‌کند که به اپراتورهای شبکه اجازه می‌دهد سرویس‌های متفاوتی به شرکت‌های فراهم‌کنندة محتوا ارائه کنند.
مایکروسافت برای فراهم کردن نرم‌افزار برای سرویس تلویزیون اینترنتی AT&T، قراردادی منعقد کرده است. سخنگویان مایکروسافت از نظر دادن در مورد این که آیا این قرارداد بر رویة پیشین مایکروسافت در مورد بی‌طرف بودن شبکه اثری داشته یا نه، خودداری می‌کنند.
وسیلة کتاب‌خوان محبوب آمازون با نام Kindle که اطلاعات دیجیتالی را می‌خواند و نتیجة قرارداد آمازون با اسپرینت است، سرویسی خاص و پرسرعت برای بارگیری عرضه می‌کند. این امر پرسش‌های بزرگی در میان وبلاگ‌ها به‌همراه داشته مبنی‌بر این‌که آیا این سرویس از بی‌طرف بودن شبکه تخطی می‌کند یا نه.
آمازون گفته است: «ما به پشتیبانی خود از اعمال قوانین بی‌طرف بودن شبکه برای حمایت از باز بودن دیرینة اینترنت ادامه می‌دهیم.» اما این شرکت از بیان جزئیات در مورد کیندل خودداری می‌کند. آمازون که قبلاً از پیوستن به ائتلاف شرکت‌های حامی بی‌طرف بودن شبکه خودداری کرده بود، به‌تازگی در فهرست وب‌سایت این گروه قرار گرفته است. این شرکت از اظهار نظر در مورد این‌که آیا شرکت‌های فراهم‌کننده باید تمایز قایل شدن در ترافیک را مجاز بدانند یا نه، خودداری می‌کند.
اکنون یاهو یک شراکت دیجیتالی در مورد مشترکین خطوط تلفنی با AT&T برقرار کرده است. برخی حدس می‌زنند که این قرارداد موجب شده تا یاهو در مورد بی‌طرف بودن شبکه صحبتی نکند. یکی از سخنگویان AT&T می‌گوید که این شرکت بهتر است بتواند هر معامله‌ای را که صلاح می‌داند، با شرکت‌های صاحب محتوا به‌انجام برساند. یاهو گفته است: «بهتر است شرکت‌های تلفنی و فراهم‌کنندة محتوا بر سر چگونگی حصول اطمینان از این که امریکایی‌ها به اینترنت کلاس جهانی دسترسی دارند، به یک توافق جمعی برسد.»
● اتصالات گوگلی
شاید گوگل، با توجه به موقعیت منحصربه‌فرد خود در بازار و روابط آن با تیم اوباما، بیشترین حمایت را از بی‌طرف بودن شبکه داشته باشد. یکی از مشهودترین پشتیبانان اوباما در طی تبلیغات ریاست جمهوری، اریک اشمیت (مدیرعامل گوگل) بود. آقای اشمیت یکی از مشاوران اوباما در زمینة فناوری خواهد بود.
بنابر اسناد بررسی‌شده توسط وال‌استریت ژورنال، معاملة‌ پیشنهادی گوگل با فراهم‌کنندگان شبکه- که این شرکت آن را OpenEdge می‌نامد- سرورهای گوگل را مستقیماً در شبکة فراهم‌کنندگان سرویس قرار خواهد داد. این امر باعث شتاب گرفتن سرویس گوگل برای کاربران خواهد شد. بنابر گفته کسانی که از این مذاکرات اطلاع دارند، گوگل از فراهم‌کنندگان مرتبط با او نزدیک شده، خواسته است تا او چیزی در مورد ایدة این سرویس نپرسند.
گوگل در شرح OpenEdge تنها این را می‌گوید که شرکت‌های دیگر همچون یاهو و مایکروسافت نیز اگر بخواهند، می‌توانند معامله‌های مشابهی داشته باشند. اما اقدام گوگل در صورت موفقیت، موجب خواهد شد که افراد اندکی از مزیت آن برخوردار شوند.
در سال ۲۰۰۶ که AT&T قصد داشت بل‌ساوث را تصاحب کند، کمیسیون ارتباطات فدرال گفت که این معامله بر سر خطوط پرسرعت را به‌مدت ۳۰ ماه به تعویق بیندازد. این تعهد در اواسط سال آیندة میلادی منقضی می‌شود. به‌تازگی یک نمایندة دموکرات قول داده در اوایل سال ۲۰۰۹، برای بی‌طرف بودن شبکه قانونی پیشنهاد کند. یک رئیس جدید برای کمیسیون ارتباطات فدرال نیز می‌تواند موضعی سفت‌وسخت‌تر در این مورد داشته باشد و شرکت‌ها را مجبور کند با مسئلة بی‌طرف بودن شبکه کنار بیایند.
ریچارد ویت (رئیس ارتباطات مردمی در گوگل) می‌گوید پیشنهاد این شرکت لطمه‌ای به بی‌طرف بودن شبکه نخواهد زد. با این‌وجود، او می‌گوید چندان مطمئن نیست که رئیس جمهور اوباما برسر وعده‌های خود باقی بماند. وی می‌گوید: «اگر به طرح‌های او نگاه کنید، می‌بینید که نسبت به قبل، آن وضوح و روشنی را ندارند.»


منبع : پایگاه اطلاع رسانی فناوری اطلاعات و ارتباطات ایران

مطالب مرتبط

انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵


انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵
تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است . اغلب داده های جمع آوری شده ، توسط موتورهای جستجو صورت می گیرد . در این مقاله ما " لیست آرزویی " مان را برای موتور جستجو مناسب و ایده آل توصیف کرده ایم ، و نیاز به ویژگیهای بخصوص تشریح شده ، و اینکه موتورهای جستجوی عمده کنونی موجود می توانند ، حداقل تا اندازه ای ، نیازمندیهای یک ابزار جستجویی مطلوب و نهایی را برآورده سازند آزمایش شده است . ابزارهای جستجویی عمده تجاری هستند و بسوی کاربر " حد متوسط " متمایل شده اند نه بسوی محققین شبکه ، بنابراین قادرنیستند همه درخواستها را برآورده سازند . یک راه حل ممکن برای جامعه تحقیق بکارگیری بودجه لازم ، منابع ، و دانستن اینکه چگونه ابزار جستجویی تحقیق مدار ایجاد نمایند ، می باشد .
▪ مقدمه
با وجود اینکه شبکه تنها ۱۵ سال است که بوجود آمده است ، یک منبع اطلاعاتی عمده و رسانه ارتباطی شده است و تاثیر خود را بر رفتار اطلاعاتی و ارتباطاتی هم در زندگی روزمره و هم در زندگی علمی داشته است . تحقیقات شبکه ای چند رشته ای[۴] است . این تحقیقات بطور گسترده ای توسط دانشمندان رایانه و اطلاعات ، جامعه شناسان ، اقتصاددانان ، زبان شناسان ، روانشناسان ، دانشمندان ارتباطات و دیگران صورت می پذیرد . به منظور انجام مطالعه بر روی شبکه ، بیشتر محققان نیازمند داده هستند . بعضی از محققین ( مثل ثلوال[۵] ، ۲۰۰۱ یا آلبرت ، جونگ و بارباسی[۶] ، ۱۹۹۹) قادرند ( ازهر دو لحاظ فنی و اقتصادی ) ابزارهایی برای جمع آوری داده های ضروری را از شبکه ایجاد نمایند . سوسیبات[۷] توسط تیم ثلوال توسعه یافته است و برای هر کسی که منابعی دارد که می تواند توسط خزنده[۸] اداره شود و بروندادهای آن قابل ذخیره باشند ( گروه تحقیقات آماری سایبر متریکس[۹] ، ۲۰۰۴ الف ) ، و نتایج جستجوهای ویژه برای بارگیری در دسترس است (گروه تحقیقات آماری سایبر متریکس ، ۲۰۰۴ ب ) ، بصورت رایگان قابل استفاده است. دیگران ( مثلا اسپینک[۱۰] و یانسن[۱۱] ، ۲۰۰۴ یا هوبرمن و آدامیک[۱۲] ، ۱۹۹۹) به اندازه کافی خوش شانس بودند تا به داده های جمع آوری شده توسط ابزارهای جستجو تجاری دسترسی داشته باشند . بعضی از مطالعات شبکه ای توسط محققانی که در مورد موتورهای جستجو کار می کردند اجرا شده است ( مثلا برودر[۱۳] و دیگران ، ۲۰۰۰ یا فترلی[۱۴] و دیگران ۲۰۰۴ ) ، بنابراین آنها می توانستند به شبکه خزیده یا به داده های پایگاه داده موتورهای جستجو دسترسی یابند .
دیگر محققین به آنهایی که خوش شانس و مبتکر بوده اند و می توانستند رایگان به ابزارهای بازیابی اطلاعات دسترسی داشته باشند ، غبطه می خورند : به موتورهای جستجو ، یا به پایگاههای داده پروژه های نگهداری شبکه ( مثل آرشیو اینترنت[۱۵] ) . امروزه پروژه های نگهداری شبکه نیز دسترسی محدودی بوجود آورده اند ( بدلیل مشکلات حق مولف ) یا حداقل ابزارهای بازیابی و یا غیر متنی را فراهم می نمایند ، بنابراین برای استفاده تحقیقات شبکه بسیار محدودند . لذا بهترین ابزارهای جستجوی رایگان موتورهای جستجو هستند . چشم انداز موتورهای جستجو در سالهای اخیر تحت تغییرات عمده ای قرار گرفته اند ، و معمولا تنها چند بازیگر عمده معدود وجود دارد ( سولیوان[۱۶] ۲۰۰۴) : گوگل، یاهو ، اسکجیوز/ تئوما[۱۷] ، و ام.اس.ان. . در این مقاله ما گوگل ، یاهو و ام.اس.ان. را در نظر گرفته ایم ( هم اکنون اسکجیوز/ تئوما تعدادی از ویژگیهای عمده تحقیقات شبکه ای ، مثل پیوند به صفحات را دارانیست ) . اگزالید[۱۸] تازه واردی به صحنه جستجو است و تنها چیزی که باقی می ماند اینست ، ببینیم چگونه در آینده توسعه می یابد . موتورهای جستجوی اضافی با قابلیتهای بخصوص و مرتبط به تحقیقات شبکه ای ، میتواند وجود داشته باشند ، اما به عقیده ما پوشش ابزارهای جستجو یک ویژگی مرکزی است ( مثلا در این مورد ، اندازه فرق می کند ) و بنابراین آزمودن ابزارهای جستجو تنها محدود به این موتورهای جستجو می شود . با توجه به کامسکور[۱۹] ( ۲۰۰۵) ، گوگل ، یاهو و ام.اس.ان. با هم و در مجموع ۵/۸۲ % از نتایج شبکه ای در جولای ۲۰۰۵ را تشکیل داده اند ( گوگل ۵/۳۶% ، یاهو ۵/۳۰% و ام.اس.ان.۵/۱۵% ) .
نمای کلی مقاله بدین ترتیب است : اول ویژگیهای مطلوب را فهرست کرده و اهمیت آن را برای تحقیقات شبکه ای توضیح می دهیم . بعد آزمایش می کنیم که آیا سه موتور جستجویی که در بالا ذکر شدند این التزامات را به انجام می رسانند و در نهایت دریافتمان را از یافته ها به بحث می گذاریم . موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین می خواهیم بر این نکته تاکید داشته باشیم،‌ مواردی که درباره این ابزارها بدست آمده بر اساس یافته های ما در اواسط آگوست ۲۰۰۵ می باشد . برای پشتیبانی یافته ها ، ما هر مثالی را که در مقاله ارائه شده ، ذخیره و‌ مستند کرده ، و نسخه های ذخیره شده مثالهای جستجو و دیگر مستند سازیهایی که مقاله بر اساس آن شکل گرفته در اختیار علاقمندان قرار داده می شود .
▪ انتظارات – لیستی از معیارها برای موتورهای جستجو :
۱) پوشش
اگر بدنبال تولید معیارهای کمی باشیم ، سپس پوشش ابزار جستجو باید همسان ( همه دامنه های موجود) و جامع باشد . این برای معیار سنجش اندازه سایت یا دامنه و یا رویت پذیری آن ضروری است . ( مثلا تعداد لینکهای داخلی و خارجی ) ، اما الزامات اساسی برای نمونه گیری سایتها و صفحات وب می باشد . این خواسته بطور ۱۰۰ درصد قابل دستیابی نیست : صفحات وب جدید بطور پیوسته ایجاد میشوند و غیر ممکن است آنها را بطور مداوم ذخیره کرد . هنوز می خواهیم موتور کاوش تا حد ممکن ، بسیاری از صفحات وب را پوشش دهد .
۲) پایایی [۲۰]
با توجه به به واژه نامه آکسفورد ( ۱۹۸۹) پایایی " مقداری است که یک معیار در شرایط یکسان و برابر بطور مستمر نتایج هماهنگ و موزونی بوجود می آورد " . برای اینکه قادر به کار کردن با این موتورهای جستجو باشیم ، مجموعه نتایج باید برای یک دوره کوتاه زمانی ( مثلا یک ساعت یا یک روز ) پایدار( یا تقریبا پایدار) باشد . این که نتایج جستجو در طول زمان تغییر می کند ، قابل پذیرش است ، زیرا تغییرات پویا در شبکه رخ می دهد و پایگاه داده موتورهای جستجوی بروز میشوند . هرچند ، هنگامی که مشخص شوددلایل تغییرات عمده ، با دلایل ذکر شده در بالا بوجود نمی آیند ، اگر نوسانات عمده ای در نتایج بازیابی بوجود آید ، قابل پذیرش نیست .
۳) مستندسازی شفاف ، بی پرده و واضح
شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ویژگیها ، قابلیتها و رویکردها و روشهای عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند . به منظور این که قادر باشیم از نتایج ابزارهای جستجویی برای تحقیقات اینترنت استفاده کنیم ، ضروری است که ویژگیهای موتورهای جستجو با توجه خصوصیات ذکر شده عمل نماید و اگر استفاده کنندگان از این ویژگیها آگاه نیستند باید هر چه زودتر مطلع شوند .
۴) بهنگام بودن[۲۱]
پایگاه داده موتورهای جستجو باید بطور متناوب بروز شوند ، تا تصویر فوری[۲۲] که موتورهای جستجو از شبکه دارند ، باید هرچه بیشتر شبیه به واقعیت شبکه باشد . تازگی پایگاه داده با معیار ( آلفا و بتا) بریوتون و سیبنکو [۲۳] ، قابل اندازه گیری است .
۵) نمایه سازی تمام مدرک
هنگامی که قصد ما ایجاد لیستی جامع ازمدارک است ، داشتن یک ویژگی معین مبتنی بر متن ، سپس حتی اگر عبارت جستجو در پائین مدرک ظاهر شود( مثلا در منابع کتابشناختی )مدرک باید بخشی ازاین لیست باشد .
۶) زمان پاسخگویی ، دسترس پذیری
وقفه ها[۲۴] می توانند باعث مشکلات پایایی شوند ،زیرا این وقفه ها ممکن است تعداد نتایج بازیابی را تغییر دهند( که اغلب بدون اینکه موتور جستجو اطلاعاتی درباره تغییرات ناگهانی در نتایج ، گزارش نمایند ، همراه است ). یک ابزار جستجو که غیر دسترس پذیر یا دارای وقفه های زیادی است ، تداخلهای زیادی در فرایند جستجو ایجاد می نماید . زمانیکه شبکه به خودی خود پویاست واجب است که همه جستجوها برای یک تحقیق معین در کوتاهترین بازه زمانی ممکن انجام شود .
۷) عینیت – بدون تاثیر از عوامل تجاری و بدون تاثیربرمحیط
ما بدنبال ابزاری کامل می گردیم که به هیچ وجه سوگیری نداشته باشد و ما را قادر سازد تا شبکه را درحالیکه از این ابزار استفاده می کنیم ، مورد مطالعه قرار دهیم ، و نه بررسی تصویری که از طریق " چشمهای موتور جستجو " به ما رسیده است ،‌ بپردازیم . این درخواست مطلوب ماست . هدف واقعی ما نزدیک شدن به این وضعیت است . موتور جستجو باید ابزاری باشد که اجازه دهد تا از طریق آن به اطلاعات دسترسی داشته باشیم . موتور جستجو نباید خود شبکه را تحت تاثیر خود قرار دهد .
۸) همه نتایج گزارش شده باید قابل بازیابی باشند
شمارش مدارک و واژه ها اغلب برای تحقیقات شبکه ای نارساست ( مخصوصا وقتی که این تعداد غیر قابل اعتماد باشند ) . برای مطالعه خود مدارک ، مجبوریم به آنها دسترسی داشته باشیم . بنابراین دانستن اینکه مثلا ۱۱۲۰۳۳۴۹ صفحه وجود دارد که موتور جستجو بعنوان مدرک مرتبط با جستجو نشان داده ، اما قادر به دسترسی به تنها ۱۰۰۰ نتیجه از آنهاست ، رضایت بخش نیست . توانایی بازیابی تمام مجموعه نتایج ، و نه تنها ۲۵۰ یا ۱۰۰۰ مدرک اول برای تحقیق شبکه ای موفق ، ضروری است .
۹) رتبه بندی ، گزینه های مختلف دسته بندی
بسته به موضوع تحقیق ، همیشه نمی خواهیم به نتایج جستجو بنگریم ، و اغلب نمی توانیم ( معمولا، موتورهای جستجو تمامی مجموعه نتایج را نشان نمی دهند ). در این موارد رتبه بندی بسیار مهم می شود . الگوریتم رتبه بندی رازی است که بخوبی حفظ شده است ،هم بخاطر رقابت و هم بخاطر اسپم کنندگان[۲۵] بالقوه . در یک ابزار جستجوی مطلوب ، محققین شبکه باید قادر باشند مولفه هایی را که در رتبه بندی تاثیر می گذارند ، بکار گیرند ( از قبیل تاریخ ، وزن واژگانی ، مکاندهی[۲۶] ، پیوندهای خارجی [۲۷]، لنگرها[۲۸] .)
۱۰) نمایش انعطاف پذیر برونداد
اینجا ، منظور ما توانایی انتخاب تعداد نتایج در هر صفحه ، چه اطلاعاتی نمایش داده شود ( مثلا فقط مکانیاب جهانی شبکه، جزئیات[۲۹] ، اندازه ، عنوان ، مکانیاب جهانی شبکه ، زبان ) آیا نتایج باید خوشه بندی شوند یا نه ، و آیا نمونه ای از صفحات هر وب سایت نمایش داده شود( این گزینه انقضاء سایت نامیده میشود ). التزام بعدی قادر بودن به انجام تنظیمات می باشد. مرور آسان مجموعه نتایج نیز مورد نیاز است ، مثلا توانایی پرش سریع به رویت مدرک ۸۴۵ .
۱۱) نتایج پنهان[۳۰]
توانایی رویت نتایج پنهان ویژگی مفید دیگری است . به محقق کمک می کند تا بداند چرا مدرک بازیابی شده است ( اغلب صفحات بین زمانی که توسط موتورهای جستجو رویت شده و زمانیکه توسط استفاده کننده رویت می شوند ، تغییر می نماید ) . بعلاوه ، اگر زمانیکه میزبان صفحه موجود نیست یا قابل دسترس نیست ، فرد قادر خواهد بود نسخه پنهان را ببیند .
۱۲) کیفیت بازیابی بالا در زبانهای غیرانگلیسی
این مورد بسیار مشکل ساز است : وقتی که در سال ۲۰۰۰ حدود ۷۰% صفحات شبکه به زبان انگلیسی ، تخمین زده شده اند ( اطلس سایبر[۳۱] ۲۰۰۰) ، در سال ۲۰۰۴ دو سوم استفاده کنندگان از شبکه متکلم غیربومی زبان انگلیسی هستند ( گلوبال استاتس[۳۲] ، ۲۰۰۴) . تحقیقات بازیابی اطلاعات بطور فزاینده ای بسوی زبان انگلیسی در حال حرکت است . موتورهای جستجوی اصلی ، استفاده کنندگان را قادر می سازند تا به زبانی غیر از زبان انگلیسی و به خوبی آن جستجو نمایند ، و معمولا بدلیل عدم رضایت از ابزارهای جستجویی در زبانهای بومی ، این ابزارها که در اصل برای بازیابی در زبان انگلیسی توسعه یافته اند ، برای جستجو در دیگر زبانها نیز بکار می روند (البته استثناهایی وجود دارد ، مثلا زبان روسی ). برای زبانهایی که درآن ترکیبات ، صرف فعل و پیشوندها بسیاراستفاده می شوند و برای بازیابی در زبان انگلیسی پایه ماشینی دارند ، بسیار دور از شایستگی است . تحقیقات شبکه الزاما بر روی انگلیسی تمرکز ندارد ، و بازیابی اطلاعات باید بطورکلی در دیگر زبانها نیز به خوبی زبان انگلیسی باشد .
۱۳) رابط اعمال برنامه ریزی[۳۳] در دسترس
یک رابط اعمال برنامه ریزی ( ای.پی.آی.) قابل دسترس ، محلی سازی و توسعه مفید ابزارها و رابطهای مبتنی بر ویژگیهای قابل دسترس موتورهای جستجو، را ممکن می سازد.
۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها
نیازی به تشریح این ویژگی نیست . این ویژگی به محقق اجازه می دهد تا جستجوها با نیازهای وی ، متناسب شوند . واژگان جبری ، و ، یا ، و نه مجموعه ای کامل از عملگرها هستند ،هر گزاره جبری می تواند بعنوان ترکیبی از گزاره ها که فقط با این عملگرها مرتبطند ظاهر شوند . این ترکیبات استفاده از پرانتز را ضروری می سازد . بنابراین ما نه تنها نیازمند به و ، یا ، و نه هستیم بلکه به طریق دیگری ( پرانتز یا ستفاده دوباره از نتایج نسبی[۳۴] ) به منظور قابلیت بیان کامل جبری ، نیاز داریم . هرچند این نیز کافی نیست ، برای بازیابی متن نیازمندعملگرهای اضافی مثل جستجوی عبارتی ، قرابت[۳۵] یا همجواری[۳۶] می باشیم( با تعاریف منعطف ، اینکه این عملگرها چه معنی می دهند). همچنین نیازمند آنیم تا قادر باشیم جستجوهای مستقل نه را برای تخمین اندازه انجام دهیم .
۱۵) قنون پیشرفته برای بازیابی داده برای تحلیل پیوند
شبکه از پیوندها و گره ها ساخته شده است . پیوندها بصورت فعال در تعدادی از دامنه ها بررسی شده اند : تحقیق درباره ساختار شبکه ، تکامل آن و ایجاد جوامع و شبکه های اجتماعی در وب ، راههای اصلاح بازیابی اطلاعات ، استفاده از نشانگرهای مبتنی بر پیوند و خصیصه های ساختار پیوند ، ( برودر و دیگران، ۲۰۰۰ ، کومار و دیگران ، ۲۰۰۳، کومار و دیگران ، ۱۹۹۹ ، فابا- پرز، گوئررو- بوتا و دی مویا- آنگون، ۲۰۰۳، کلاینبرگ ، ۱۹۹۹ ، اینگورسن ، ۱۹۹۸، ثلوال، ۲۰۰۳و ۲۰۰۴ ، بار- ایلان ، ۲۰۰۵).چنین مطالعاتی متکی بر داده های مربوط به پیوندهاست . اساسی ترین ویژگی به صفحه مخصوصی مرتبط است . پیوندهای به یک سایت یا یک سایت فرعی اغلب مورد توجه است ، و بطور عمومی تر ، می خواهیم قادر باشیم تا مجموعه صفحات لنگری و مجموعه صفحات هدف را تعریف نماییم . بعضی مواقع به تعدادی از صفحات پیوند دهنده به صفحه ای ، سایتی یا مجموعه ای از صفحات علاقه مند هستیم ، اما بعضی مواقع تعداد واقعی پیوندها مدنظر ماست (مثلا اگر چندین پیونداز منبع به مجموعه هدف وجود داشته باشد،ابزاری برای شمارش صفحات ،‌ با تعدد زیاد میخواهیم). باید قادر باشیم ، چگونگی اداره پیوندهای نسبی[۳۷] را معین نمائیم . قدم بعدی به جلو داشتن حداقل یک سری خصوصیات پیوندها خواهد بود. پیوندهای ناوبری ، پیوندهای جاسازی شده محتوا[۳۸] ، پیوند درون لیستها و بدست آوردن اطلاعاتی در مکاندهی پیوند.
۱۶) گوناگونی توضیحگرهای جستجو
پیش فرض اصلی مااین است که محققین می دانند که چه می خواهند ، و قادرند ویژگیهای مختلف را درک نمایند و گزینه صحیح را برای حل مشکل موجود انتخاب نمایند . این باآنچه که توسعه دهندگان موتورهای جستجو در باره عموم مردم می پذیرند، در تضاد است ( شبکه جهانگستر ۱۰ پانل ، ۲۰۰۱)[۳۹]. برای اینکه قادر باشیم پرسشها را بطور دقیق تعبیر نمائیم ، نیازمند آن هستیم که راههایی را برای محدود کردن جستجوها برگزینیم ، لیست نسبی محتوا : تاریخ ، دامنه ها ، زبانها، ناحیه جغرافیایی،قالب فایلها،مکاندهی در فایل ( مثلا عنوان ، مکانیاب جهانی منبع ، لنگرها ) و دامنه های ابرداده اگر و هنگامیکه در مدرک موجود باشند.
۱۷) ویژگیهای اضافی : ریشه یابی[۴۰] ، کوتاه سازی[۴۱] به چپ / راست ، نویسه عام[۴۲] ، حساسیت به حروف[۴۳] ، بررسی هجی ، انقضای سایت
ویژگیهای اضافی که در بالا فهرست شد به محققین شبکه کمک می کند در تعبیر پرسشها بطور دقیق تری عمل نمایند . کوتاه سازی برای زبانهایی که واژه های ترکیبی و پیشوندها و پسوندها را دارند ، بسیار مهم هستند . این ویژگیها ، برای جنبه های زبانشناختی شبکه یا برای تحلیل هم واژگانی[۴۴] نیز مهمند .
۱۸) کمک جستجو : بازخورد ربط ، صفحات و جستجوهای مرتبط / مشابه ، شخصی سازی
داشتن این ویژگیها بسیار خوب است ، و به محققین شبکه کمک می کنند ، همانطوریکه تصور می شود برای عموم کمک خوبی هستند .
۱۹) قابلیت ترکیب همه ویژگیها در یک پرسش واحد ( شامل تعداد نامحدود واژگان جستجویی )‌یا ایجاد مجموعه ها ،‌براساس نتایج پیشین (‌ مدل "ساختن بلوکها ")
این ویژگیها بسیار مهم هستند . این ویژگیها محققان را قادر می سازند تا پرسشهای دقیق تری را ایجاد نمایند .
۲۰) قابلیت جستجوی غیر متنی
مقاله بر بازیابی متنی تمرکز دارد ، اما باید رسانه اضافی نیز به همانگونه محاسبه شود. قابلیتهای بخصوص برای جستجوهای چند رسانه ای برای تحقیق شبکه فراتر از دامنه تحقیق کنونی است .
▪ واقعیت – ویژگیهای موتورهای جستجو در گذشته و حال
۱) پوشش
در سال ۱۹۹۵ شبکه به اندازه کافی بی تجربه بود تا این ادعای لایکوس[۴۵] را بپذیرد که " ۹۱% شبکه نمایه سازی شده است " (آمبورگی [۴۶]،۱۹۹۵) . بعد از اینکه تحقیقات توسط بهارات و برودر(۱۹۹۸) و لاورنس و گیلز[۴۷] منتشر شد ( ۱۹۹۸،۱۹۹۹) ، این ادعاها دیگر تکرار نشدند ، و ما بسادگی نمیتوانیم انتظار داشته باشیم که ابزارهای جستجو جامعیت داشته باشند. هرچند ، " جنگ اندازه موتورهای جستجو شروع شده " ( سولیوان[۴۸] ۲۰۰۵) وباادعای یاهو که ۲/۱۹ میلیارد صفحه را نمایه سازی می نماید، در حالیکه گوگل با این ادعا ستیز می کند، به شدت ادامه دارد . ( پرایس[۴۹] ۲۰۰۵) . چنسی و پری[۵۰] ( ۲۰۰۵ الف ،‌ ۲۰۰۵ ب)تعداد نتایج منعکس شده توسط گوگل و یاهو را حدود ۱۰۰۰۰ پرسش با کمتر از ۱۰۰۰ نتیجه مقایسه می نماید ، آنها آزمایش را دوبار اجرا کردند : در مطالعه اول گوگل ۲۷۰ درصد بیشتر از یاهو نتیجه منعکس کرد، درحالیکه در آزمایش دوم آنها فهمیدند که گوگل ۶۵% بیشتر از یاهو نتیجه داده است ( دومین آزمایش بمنظور غلبه بر بعضی دغدغه های روش شناختی نامشخص انجام شد ) .
مشکل دیگر عدم یکسانی پوشش است . اسنایدر و روزنباوم[۵۱](۱۹۹۹) نشان دادند که حتی پوشش نسبی دامنه های عمده موتورهای جستجوی مختلف ،یکسان نیست. تلوال( ۲۰۰۰) پوشش دامنه های ملی بزرگ را آزمودو دریافت که پوشش بسیار نا متوازن می باشد که محاسبه عامل تاثیر شبکه بر اساس داده های فراهم شده توسط موتورهای جستجو ممکن نیست. نتایج اخیر نشان می دهد که پوشش موتورهای جستجو هنوز نا متوازن است . ما برای "- kxht site:.hu"(بدون واژهkxht در دامنه مجارستان) در یاهو و گوگل ،‌وsite:hu-(kxht)" " در۱۳ ژانویه در ام.اس.ان. و دوباره در ۱۷جولای ۲۰۰۵ بااین پرسش site:hu -(kxht) جستجو را صورت دادیم . ما مجبور بودیم واژه های بسیار نادری را خارج نمائیم ، زیرا گوگل جستجوهای مجزا را برای سایتها در آن زمان پشتیبانی نمی کرد. دور سوم جستجوهادر۳ سپتامبر ۲۰۰۵ زمانی که هر سه موتور جستجوهای نوع "site:.hu"(or "site:hu" for MSN) راانجام می دادند ،‌ صورت گرفت. نتایج برای تعدادی از دامنه ها در جدول ۱ آمده است . تشخیص تفاوتهای نسبی در پوشش دامنه ها بین موتورهای جستجو و همچنین بین رتبه بندی موتورهای جستجو برای پوشش وقتی دامنه ها یک به یک در نظر گرفته می شوند،بسیار ساده است. مورد دیگر، تغییرات عظیم در تعداد صفحات گزارش شده بین دو نقطه جمع آوری داده ، گوگل و ام.اس.ان. صفحات مجارستانی بسیار کمتری را در دفعه دوم گزارش نمودند، درحالیکه یاهو دو برابر بیشتر است و این مقدار وقتی برای سومین بار جستجو شد دوباره دو برابر شد . گوگل و ام.اس.ان. صفحات بیشتری از جیبوتی[۵۲] به نسبت سورینام[۵۳] در دو دور اول جستجو گزارش کردند درحالیکه نتایج یاهو خلاف این را نشان میداد . بنظر میرسد ام.اس.ان. به گوگل و یاهو در تعداد صفحات کانادایی نمایه شده توسط آنها می باشند ، درحال نزدیک شدن می باشد ، و در دور سوم جستجو یاهو با پوشش بیشتر صفحات کانادایی سبقت گرفته است ( حداقل این چیزی است که گزارش شده است ) .
۲) پایایی
مثالهای گذشته درباره عدم اعتبار موتورهای جستجو شامل نتایج شمرده شده توسط آلتاویستا نیز میشود
( نوتس۲۰۰۰[۵۴]) . روسو[۵۵] ( ۲۰۰۰) نوسانات روزانه را در تعدادی از نتایج بازیابی شده توسط آلتاویستا را گزارش میکند . این نوسانات با رشد مداوم تعداد نتایج گزارش شده توسط نورثرن لایت مقایسه شده است . بارایلان ( ۲۰۰۰) نوسانات روزانه شدیدی را در نتایج بازیابی شده توسط هات بوت[۵۶] مشاهده کرده زمانیکه با اسنپ[۵۷] مقایسه شده ، جائیکه هردو ابزار جستجو توسط اینکتومی اداره میشود . پایداری[۵۸] موتورهای جستجو در طول زمان می تواند با مجموعه ای از معیارهای پیشنهاد شده توسط بار ایلان ( ۲۰۰۲) اندازه گیری شود .
اغلب تعداد نتایج گزارش شده وقتی که به سمت پائین لیست نتایج حرکت می کنیم تغییر می کند . مثلا در گوگل جستجوی واژه “digifeed” در آگوست ۲۰۰۵ بین ساعت ۱۳:۵۱ و ۱۴:۰۰ شش بار صورت گرفت .
بار اول ، گوگل ۶۹۷ نتیجه را گزارش کرد ، و سپس ما به تمام مجموعه نتایج رفتیم ( شامل مواردی که در اول حذف شده بود ) . این دفعه تعداد نتایج ثبت شده ۷۴۴ بود ، اما وقتی که به سمت صفحه آخر حرکت کردیم ، این تعداد به ۵۷۱ کاهش یافت . بعد از ذخیره صفحه ، به پرسش برگشتیم ، این بار تعداد نتایج به ترتیب ۱۰۳۰ ، ۱۰۷۰ و ۸۵۶ شدند . این نوسانات ، احتمالا به دلیل سرورهای متفاوتی است که درخواستهای متفاوتی را کنترل می کنند ، ولی هنگامی که جستجو در شبکه صورت می گیرد ، هنوز مشکل جدی ثابلیت اطمینان و پایایی موتورهای جستجو می باشد ۳) مستند سازی شفاف ، بی پرده و واضح گزارش اخیر ( ووترز[۵۹] ،۲۰۰۴) عملیات فاش سازی موتورهای جستجو را به بحث گذاشته است ( بیشتر مرتبط با مکاندهی[۶۰] و شمول[۶۱] اختصاص داده شده )
متاسفانه موتورهای جستجو همیشه مشکلات را گزاش نمی نمایند . مثلا ، بار ایلان ( ۲۰۰۲) ثابت کرده که گوگل تعداد واقعی صفحات پیوند داده شده به یک وب سایت که توسط موتور جستجو نمایه سازی شده را گزارش نمی کند . تنها اخیرا گوگل به این مطلب اذعان داشته است ( میزگرد سرچ انجینواچ[۶۲] ، ۲۰۰۴) . حتی وقتی موتورهای جستجو سوالات واضحی را دریافت می دارند ، همیشه زحمت دادن پاسخ رضایتمند را برخود نمی پسندند ، مثل موردی که با هات بوت وجود داشت ( بار ایلان ، ۲۰۰۰) . بعضی مواقع فشار واقع شده بر موتورهای جستجو از طرف میزگرد موتورهای جستجو / متخصصان شبکه نتایج واضحتری را دریافت می دارد. موتورهای جستجو دلیل اینکه چرا آنها اسناد نمایه سازی شده را برای بعضی از پرسشهایی که این مدارک باید نهایتا در بازیابی ظاهر شوند ، پاسخ نمی دهند . ( متروپ و نیوون هایسن[۶۳] ، ۲۰۰۱) مثلا پرسشی زیر را در گوگل در نظر بگیرید .
link: www.umu.se/inforsk/ISSI۲۰۰۵/
این سوال ۱۱ نتیجه را در ۲۹ آگوست ۲۰۰۵ گزارش کرد ( ۱۰نتیجه نمایش داده شد ) . پرسش مشابه
link:http://www.umu.se/inforsk/ISSI۲۰۰۵
در یاهو ۹۶ نتیجه را گزارش کرد ( ۹۵ نتیجه نمایش داده شد ) . دومین و سومین نتایج (می خواستیم حداقل دو مکانیاب متحد منابع را برای پوشش به نتایج نمایش داده نشده ، برداریم ) در صفحات یاهو توسط گوگل نیز نمایه سازی شده اند .
اغلب مستندسازی که موتورهای جستجو فراهم می آورند ، قابلیتهای کلی موتورهای جستجو را منعکس نمی نماید. ویژگیهایی که وجود دارد ذکر نشدند ، درحالیکه ویژگیهایی که اعلام کرده اند ، بدرستی کار نمی کنند و یا وجود ندارند . مثلا ویژگی نشان دادن پیوند دامنه پیوند[۶۴] یاهو صفحاتی را که به یک وب سایت پیوند داده شده است را بازیابی می کند ( نوتس۲۰۰۴) ، هرچند فرا- واژه[۶۵] دامنه پیوند ( ویژگی بسیار مفیدی که به تجزیه و تحلیل پیوند می پردازد ) در یاهو ذکر نشده است (۲۰۰۵) .
اخیرا پیوند یاهو و گزینه های دامنه پیوند بدرستی کار نمی کنند ( حداقل یکی از آنها – به بحث میزگرد سرچ انجینواچ مراجعه نمائید ، ۲۰۰۵) بعنوان مثال تعداد نتایجی که یاهوبه پرسش
( ۵۳۶۰۰۰) link: http://www.huji.ac.il گزارش می کند در مقابل پرسش
( ۳۰۹۰۰۰) linkdomain: huji.ac.il در ۲۹ آگوست ۲۰۰۵ مقایسه شده است . چیزی بطور واضح اشتباه است ، وقتی که همه پیوندها به صفحه خانگی دانشگاه هبرو[۶۶] اشاره می کنند باید در پرسش دامنه پیوند بخوبی منعکس شود . هر چند تا زمانی که موتورهای جستجو ۱۰۰۰ نتبجه را نشان میدهند ، قادر نیستیم بررسی کنیم چه می گذرد. سعی کردیم تعدادی از سایتهای را که تعداد پیوندهای داخلی کمی دارند را ( به منظور دانستن اینکه در آنها چه می گذرد ) آزمایش نمائیم ، اما قادرنبودیم نتایج مشکوکی را در این موارد تهیه نمائیم .
بعضی مواقع در گوگل بنظر میرسد در " عملیات ریاضی موتورجستجو " کمی ضعیف است . مثلا ، در ۲۹ آگوست ۲۰۰۵ در بین ۵ دقیقه پرسشهای زیر را انجام دادیم :
پرز[۶۷] =۲۹۳۰۰۰۰ نتیجه
رابین[۶۸] =۱۲۳۰۰۰۰ نتیجه
رابین پرز[۶۹]=۱۳۸۰۰۰ نتیجه
رابین یا پرز ۲۲۸۰۰۰۰ نتیجه ( که باید درحدود ۴۰۲۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰+۲۹۳۰۰۰۰ باشد با پذیرش اینکه تعداد پیشین درست باشند ، اما در هر مورد تعداد نتایج باید بیشتر از ۲۹۳۰۰۰۰ باشد )
پرز – رابین =۱۵۴۰۰۰۰ نتیجه ( انتظار می رفت ۲۷۹۲۰۰۰ = ۱۳۸۰۰۰+۲۹۳۰۰۰۰ باشد )
رابین پرز = ۹۴۸۰۰۰ نتیجه ( این کاملا نزدیک به تعداد مورد انتظار نتایج ۱۰۹۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰ می باشد ) .
یک دلیل برای گزارش مساله برانگیز گزارش شده توسط یاهو یا گوگل ، می تواند این باشد که از زمانیکه تعداد نتایج بوضوح ، بیشتر از تعداد مدارک نشان داده شده است ، تعداد نتایج فقط یک تخمین نادرست است . همانطوریکه قبلا گفتیم ، قادر نبودیم مساله پیوند در برابر دامنه پیوند را در یاهو در دامنه های کوچک آزمایش نمائیم . هرچند برای گوگل ما می توانستیم مثالهای " کوچک " را بخوبی بیابیم . برای پرسشهای “digifee ” و " “transnova گوگل بترتیب ۷۹۲ و ۹۹۸ نتیجه را در ۳۰ آگوست ۲۰۰۵ گزارش نمود . پرسش" و" ۴ نتیجه را منعکس نمود ، هرچند برای پرسش " یا " ۳۶۵۰ نتیجه گزارش شده ، که بیشتر از تعداد دو پرسش منفرد بود ( ۱۷۹۰) – دوباره اینجا مورد اشتباهی وجود دارد. ورونیس[۷۰] ( ۲۰۰۵ الف ) توضیح ممکنی را برای پاسخهای عجیب پرسشهای بولی گوگل فراهم نموده است ، هرچند بنظر می رسد او پیشنهاد کند که این مشکلات تا پایان مارس ۲۰۰۵ حل شده باشد . ما جستجوهای مساله ساز را در پایان آگوست ۲۰۰۵ انجام دادیم .ام.اس.ان. با شمول – ممانعت[۷۱] مشکل دارد . مثالهای زیر را در نظر بگیرید ، دوباره در ۳۰ آگوست ۲۰۰۵ : امریکا ( ۲۰۷۹۶۷۵۶۶ نتیجه ) ، اسرائیل ( ۳۳۴۲۴۶۶۹ نتیجه ) ، امریکا یا اسرائیل ( ۱۸۰۴۰۶۲۴۶ نتیجه ) . بنظر می رسد که موتورهای جستجو همیشه مشکلاتی با عملیات ریاضی ساده دارند ، اینگورسن ( ۱۹۹۸) بیان میدارد که تعداد نتایج گزارش شده توسط آلتاویستا را برای پرسش الف " و" ب با تعداد نتایج پرسش ب " و" الف یکسان نیست .
بعضی مواقع مستندسازی جزئی است ، مثلا شرح مفصلی برای الگوریتم رتبه بندی وجود ندارد ، اما برای این مورد گوگل توضیح منطقی و معقولی ارائه می دهد ( گوگل ، ۲۰۰۵ الف ) . از طرف دیگر الگوریتم ریشه یابی نامشخص بکار رفته توسط گوگل تاحدی حیاتی است : " زمان مناسب ، نه تنها برای واژه درخواستی شما جستجو صورت می دهد ، بلکه برای واژه هایی که شبیه به واژه مورد نظر یا به همه واژه های مورد نظر جستجو صورت داده می شود "( گوگل ۲۰۰۵) . چه زمانی ریشه یابی مقتضی فراخواهد رسید ؟ ظاهرا برای واژه های مفرد در برابر جمع زمان مناسب وجود نخواهد داشت .
بنظر می رسد اهمیت زیادی به صفحات کمکی[۷۲] مبذول نشده است ، که این صفحات بسختی مکانیابی[۷۳] می شوند ، مثلا پیوندی به منوی کمک یا مستندسازی برای صفحه جستجوی یاهو وجود ندارد .
(http://search.yahoo.com)
۴) بهنگام بودن
بعضی مواقع موتورهای جستجو برای بروز رسانی نمایه های خود یقینا با شکست مواجه می شوند ، مثل مشکلات گذشته ای که از آلتاویستا و نورثرن لایت[۷۴] از در میان محققان گزارش شده است ( مثلا اولسن[۷۵] ، ۲۰۰۱، یا سولیوان ۱۹۹۸) . ثلوال ( ۲۰۰۱) بررسی کرد که برای موتورهای جستجو چقدر طول میکشد تا صفحات نمایه سازی نشده ای را که پیوندهایی به آنها از صفحاتی که قبلا به موتورهای جستجو ارائه شده ، نمایه سازی نمایند .
درمدخل ویکیپدیا[۷۶] برای پرنس هاری[۷۷] به چه سرعتی و چه مدت دوباره نمایه سازی میشود .
http://en.wikipedia.org/wiki/Prince_Harry_of_Wales
در ۱۲ ژانویه ۲۰۰۵ پرنس در لباس نازی ها در یک مجلس نمایش لباس ظاهر شد . مدخل ویکیپدیا ۲۵ بار این مدخل جنجالی را تا ۱۴ ژانویه ۲۰۰۵ بروز نموده است . گوگل نسخه پنهانی[۷۸] از ۲۱ دسامبر ۲۰۰۴ ( که در ۱۸ ژانویه ۲۰۰۵ دوباره بازنگری شده ) و نسخه بتا و پنهان ام.اس.ان. از ۹ ژانویه دارند . یاهو صفحه مورد نظر را در آن زمان پنهانی نکرده است . الان برای یک مثال بروز ، طوفان کاترینا ( که در زمان نگارش مقاله به تازگی نیواورلئان را درنوردیده است ) صفحه ای پویایی[۷۹] از ویکیپدیا در ۲۶ آگوست ۲۰۰۵ وجود دارد .
http://en.wikipedia.org/wiki/Hurricane_Katrina
نسخه جاری در آن زمان که نسخه هایی از موتورهای جستجو را بررسی می کردیم از ۲۹ آگوست ۲۰۰۵ موجود بود . گوگل هنوز صفحه مورد نظر را نمایه سازی نکرده بود ( اما وقتی در۳۰ آگوست ۲۰۰۵ دوباره بررسی کردیم ، صفحه توسط گوگل نمایه سازی شده بود ) ام.اس.ان. و یاهو نیز هردو نسخه پنهانی از ۲۷ آگوست داشتند .
۵) نمایه سازی کل مدرک
لایکوس[۸۰] عادت دارد که فقط عناوین ، سرعنوان متن[۸۱] ، و گزیده ای از ۲۰ خط اول را ، یا ۱۰% مدرک را با مجموعه کلید واژه هایی که از سند استخراج شده نمایه سازی نماید . بعضی منابع ادعا می کنند که گوگل کنونی تنها ۱۰۱ کیلوبایت اولی یک وب سایت را نمایه سازی می نماید ( سولیوان ، ۲۰۰۴ د) – ما قادر نبودیم این اطلاعات را از سایت گوگل بیابیم ( دوباره یک مورد عدم وضوح در اطلاع رسانی ) . آزمایش کوچک ما این ادعا را درژانویه ۲۰۰۵ وقتی که ما به صفحه http://www.gutlesspacifist.com/gp/archives/۲۰۰۴_۰۴.html
مراجعه کردیم اثبات می نماید ، اندازه حدود ۱۵۴ کیلوبایت ، و توسط گوگل نمایه سازی شده ، و نزدیک به پائین متن ذیل ظاهر شده بود : " جنگ باید نتیجه پاسخ به پشیمانی کنونی باشد " ( این متن در نسخه پنهانی نیز بخوبی ظاهر شد ) . وقتی که دنبال این عبارت جستجو شد ، گوگل دو نتیجه را بازیابی نمود ، اما صفحه ذکر شده بالا نبود . یاهو نیز صفحه را پنهانی کرده ، و برای عبارت بخصوصی بازیابی نمود : این برای نسخه بتا ام.اس.ان. یکسان بود . برای هر سه موتور جستجو با وارد کردن مکانیاب متحد منبع ، صفحه نشان میدهد که موتورجستجو آنرا نمایه سازی کرده است یا نه . زمانیکه آزمایش را در آگوست ۲۰۰۵ دوباره اجرا می کنیم ، ۱۵۴ کیلوبایت طول صفحه در نتیجه جستجو ظاهر می شود ، که بنظر میرسد گوگل متن بیشتری را به نسبت تصویر نسبته به قبل نمایه سازی می کند . این بار ما کتابهای الکترونیک پروژه گوتنبرگ در اخلاقیات توسط ارسطو به آدرس
http://www.gutenberg.org/dirs/etext۰۵/۸ethc۱۰.txt را آزمایش کردیم . – یک صفحه و چندین سایت جایگزین[۸۲] توسط گوگل نمایه سازی شده بود و ظرفیت آن نیز ۶۶۲ کیلوبایت بود ، هرچند همه نسخه های پنهان در ۵۱۴ کیلو بایتی ( و ناگهان در میانه جمله ) متوقف شده بودند ، و اگر ما برای یک عبارت در زیر این نقطه جستجو کنیم ، نمی توانیم آنرا بیابیم ، درحالیکه جستجوها در نقطه بالای متن موفقیت آمیز خواهند بود . نکته جالب توجه اینکه برای پرسش “Greek: hae peri ta aethae pragmateia aen dikaion esti prosagoreuen politikaen” ( نزدیک پایان کتاب ) ، نسخه پی.دی.اف[۸۳] اخلاقیات توسط گوگل بازیابی شد ، هرچند این پرونده های پی.دی.اف.ظرفیت ۷۳۰ کیلوبایت داشتند . بنابراین بنظر می رسد در میانه سال ۲۰۰۵ گوگل حدود ۵۰۰ کیلو از صفحات اچ.تی.ام.ال. را نمایه سازی می کند درحالیکه برای مدارک پی.دی.اف. این محدوده بیشتر است . دوفز[۸۴]( ۲۰۰۵) در آوریل ۲۰۰۵ گزارش کرد که گوگل شاید بیشتر از ۱۰۱ کیلو اولیه را نمایه سازی می نماید . ام.اس.ان. نسخه ۷ بیتی کتاب الکترونیکی http://www.gutenberg.org/dirs/etext۰۵/۷ethc۱۰.txt که ۶۶۲ کیلو ظرفیت دارد را نمایه سازی می کند و واژه های یونانی را در پایان کتاب بازیابی می نماید . حتی یاهو هم که نسخه های ۷ بیتی و ۸ بیتی را نمایه سازی می نماید هیچکدام از اینها را هنگامیکه واژه های یونانی جستجو میشده ، بازیابی نکرده است . یاهو تنها ۵۲۵ کیلو اولیه این فایلها را نمایه سازی می کند . موتورهای جستجو حداکثرظرفیت متن که برای یک صفحه وجود دارد را بیان نمی کنند ، بنابراین فقط می توانیم در باره این مساله تصور نمائیم .
۶) زمان پاسخگویی ، دسترس پذیری
گرچه گوگل تقریبا همیشه قابل دسترس است ، در جولای ۲۰۰۴ توسط ویروس مایدوم[۸۵] ویروسی شد و برای چند ساعت کار نمی کرد ( شیم و کانلوس [۸۶]۲۰۰۴) . بنظر میرسد یاهو در مورد تعداد درخواستها در یک چهارچوب زمانی محدود است ( فرنچ[۸۷] ۲۰۰۴) ، زمانیکه این محدودیت بیشتر می شود شخص پیغام "سرور مشغول است ، و دوباره امتحان کن " را بجای نتیجه واقعی دریافت می دارد . مشکل دیگر اینست که موتور جستجو نتایج جستجو را بدلیل وقفه هایی که گزارش نشده اند یا برای کاربر قابل توجه بوده اند ، نمایش نمی دهند ( به پاسخ آلتاویستا به پرسش الاستیر اسمیت[۸۸] توجه نمائید ۱۹۹۹) .
۷) عینیت – بدون تاثیر عوامل تجاری و بدون تاثیر بر محیط
تمام صنعت بهبود موتورهای جستجو به منظور طراحی و دوباره طراحی صفحات وب که در واژه های جستجویی بخصوصی در موتورهای جستجو بخصوص افزایش یافته اند ، صورت می پذیرد . کاربران سعی می کنند از موتورهای جستجو " درخواست کنند " ، بنابراین بجای اینکه ابزارهای فاقد جسارتی باشند ، موتورهای جستجو عاملهای تاثیرگذاری در شبکه شده اند .
انترونا و نیسنباوم[۸۹] ( ۲۰۰۰ ) بطور مفصل و مشروح قدرت سیاسی موتورهای جستجوی عظیم را به بحث گذاشته اند . موتورهای جستجو ، تجاری هستند و مجبورند مزایای خود رانشان دهند ، بنابراین بطور طبیعی موضوعات عامه پسند را بطور گسترده تری پوشش می دهند ، که تبلیغات بیشتری بر روی آنها انجام شده است . با توجه به اینکه برنامه های تبلیغاتی عمده ( " پیوندهای پشتیبانی شده [۹۰] " بوسیله موتورهای جستجو تصاحب شده (Adwords توسط گوگل و Overture توسط یاهو ). ون کوورینگ[۹۱] ( ۲۰۰۴) اینکه " سیستم کنونی فراهم آوری خدمات پیوسته برای مردم خوب است " را به پرسش می کشاند .
شامل شدن در نمایه موتورها[۹۲] ، مورد بحث انگیز دیگری است – گرچه مکاندهی آنها را ضمانت نمی کند - سطح پوشش درستی از یسامد روزآمد رسانی را ضمانت می نماید که برای شرکت کنندگان در این برنامه ها مزایایی دارد . هم اکنون تنها یاهو برنامه امکان شمول را در میان چندین موتور جستجوی بحث شده دارد . زمانیکه برنامه در ماه مه ۲۰۰۴ معرفی شد موردی بسیار بحث برانگیز شد . ( سولیوان ۲۰۰۴)
" گوگلینگ (Googling) " ( " جستجو کردن نام شخصی در گوگل که به کوشش برای یافتن اطلاعات بیشتر درمورد وی منجر می شود " Whatis.com،۲۰۰۴) و " گوگل بمبینگ (Google bombing) " ( " تلاش برای تاثیر گذاری در رتبه بندی یک سایت در نتایج منعکس شده توسط گوگل " ، ویکیپدیا ، ۲۰۰۵) در فعالیتهای اجتماعی ، امری پذیرفته شده است . بارایلان ( بی تا ) صفحات رقابتی[۹۳] در مدخل ویکیپدیا در مورد یهود و صفحه خانگی jewwatch.com را مشخص نموده است .
گوگلینگ ، گوگل بمبینگ ، بهمراه بهینه سازی ترقی گونه موتورهای جستجو و صنعت بازاریابی ( سمپو[۹۴] ۲۰۰۴) نشانگر تاثیر موتور جستجو بر محیط خود می باشند . در دانشگاه واشینگتن ، حتی رشته گوگل وجود دارد ( " این یک پدیده اجتماعی شده است ، " جین[۹۵] ، ۲۰۰۴)
۸) همه نتایج گزارش شده قابل بازیابی باشند
هم اکنون همه موتورهای جستجویی که در این مقاله بحث شده اند تعداد نتایج خود را به مقداری که خود برای نمایش هر پرسش بخواهند ، محدود می کنند . گوگل و یاهو هزار نتیجه و ام.اس.ان. ۲۵۰ نتیجه نمایش می دهند . این مشکل می تواند با استفاده از فنون بخش بندی متفاوت ، تا حدی برطرف شود ( مثلا با دامنه و تاریخ ) . جستجوهای تاریخی می تواند از طریق " رابط نهایی گوگل " http://www.faganfinder.com/google.html ) برای این موتور ، اجرا شود ، هرچند گزینه محدود کردن تاریخ در گوگل ( حدفاصل تاریخی[۹۶] : استفاده از شکل تاریخی ژولین[۹۷] ) در مدتی پیش کار خود را متوقف کرده بود ( دوباره گزارش نشده است ) . هنوز در مرجع رابط اعمال برنامه ریزی گوگل مستند شده است ( گوگل ۲۰۰۵ ای ) بنابراین از طریق رابط اعمال برنامه ریزی ، قابل اعمال است . همان تعداد نتایج با حدفاصل تاریخی و بدون آن منعکس شده است : عملگر برای پرسش اطلاع سنجی: حدفاصل تاریخی به ۱ ژوئن و ۱ سپتامبر ۲۰۰۵ محدود شده است و جستجوها در ۱ سپتامبر انجام شده است . ابزار کمکی گوگل پیشرفته[۹۸] تاریخ را فهرست می نماید : توضیحگر( به فرد اجازه می دهد برای " منابع " در ۳،۶ و ۱۲ ماه جستجو صورت می دهد :
تعداد نتایج در ۶ و ۱۲ ماه بطور قابل توجهی کمتر از تعداد نتایج در ۳ ماه گذشته است ! . همه جستجوها بین سه دقیقه انجام شده ، و این عمل برای بررسی تعداد تکرار شده است . جستجوهای مشابه در یاهو پاسخهای غیر متناقضی را فراهم می نماید . جستجوهای پیوندی نمی تواند با هیچ گزینه ای در گوگل ترکیب شود ، بنابراین محدوده کاری حدفاصل تاریخی ، نمی تواند برای شکستن نتایج به قطعات کوچکتر به منظور گرفتن بیش از ۱۰۰۰ نتیجه باهم ترکیب شود . فرم جستجوی پیشرفته آلتاویستا می تواند برای جستجوهای محدود به تاریخ برای یاهو مورد استفاده قرار گیرد ( آلتاویستا توسط یاهو اداره می شود )
۹) گزینه های رتبه بندی ، دسته بندی مختلف
تنها ام.اس.ان. گزینه ای برای تاثیر در رتبه بندی نتایج جستجو دارد ( ام.اس.ان. ، ۲۰۰۵) – فرد می تواند اسلایدهایی را برای تنظیم اهمیت دقت انطباق و نقاط پیوند به صفحات ، و با توجه به تاریخ صفحه ای که به نمایه اضافه شده ، میتواند استفاده نماید . هرچند وقتی جستجو برای " کاترینا " صورت می گیرد و تنظیم تازگی به حداکثر انجام می شود و همه دیگرمولفه ها به حداقل کاهش می یابند ، اولین نتایج موردی است از ۳۰ آگوست ۲۰۰۵ ، درحالیکه موارد معدود بعدی از ۳۰ آگوست ۲۰۰۵ می باشند ( جستجوها در ۱ سپتامبر ۲۰۰۵ در ساعت ۹ صبح ) . نتایج بالای " تازگی " جستجو بندرت متفاوت از نتایج جستجوهای منظم برای کاتریناست .
موتورهای جستجوی متفاوت بطور قابل توجهی الگوریتمهای رتبه بندی متفاوتی را بکار می بندند . داگپایل[۹۹] ابزار زیبایی دارد که به استفاده کنندگان اجازه میدهد رتبه بندی نتایج را در ده نتیجه گوگل ، یاهو ، ام.اس.ان. و اسکجیوز را با یکدیگر مقایسه نماید .http://comparesearchengines.dogpile.com/index.aspx . آنها اخیرا مطالعه ای را درهمپوشانی مبتنی بر بیش از ۲۲۰۰۰ جستجو منتشر کرده اند ( داگپایل ۲۰۰۵) . مطالعه توسط تیمی که توسط آماندا اسپینک و جیم جینسن[۱۰۰] اداره شد ، به انجام رسید . ووگان[۱۰۱] ( ۲۰۰۴) بطور تجربی رتبه بندی موتورهای جستجو را با قضاوت انسانی مقایسه نمود . معیارهای متفاوتی برای مقایسه رتبه بندی توسط فاژین [۱۰۲]و دیگران( ۲۰۰۳) و بارایلان ، لونس و مت – هسن[۱۰۳] ( ۲۰۰۴) معرفی شد .
۱۰) نمایش برونداد بصورت منعطف
بعضی از احتیاجات توسط موتورهای جستجو به انجام رسیده اند . فرد می تواند گزینه انقضای سایت را در یاهو و ام.اس.ان. فعال و غیرفعال کند ( از طریق رابط آلتاویستای آن ) . موتورهای جستجو به استفاده کننده اجازه می دهند تعداد نتایج صفحه را تنظیم نمایند . هیچکدام از آنها تکنیکهای خوشه بندی[۱۰۴] را بکار نمی گیرند ( مثل موردی که در ویویسیمو http://vivisimo.com بکارگرفته شده ) و استفاده کنندگان نمی توانند شکل برونداد را برای نتایج فردی تغییر دهند . آنها به استفاده کننده اجازه می دهند ، فیلتر گذاری محتوای فحشاء را فعال و غیر فعال نمایند .
۱۱) نتایج پنهان
گوگل ، یاهو و ام.اس.ان. دسترسی به نسخه پنهان صفحات را پیشنهاد می کنند . گوگل و ام.اس.ان. نیز تاریخی که صفحات پنهان شده اند ، که ویژگی مفید اضافی را فراهم می نمایند.
۱۲) بازیابی با کیفیت بالا در زبانهای غیر انگلیسی
موتورهای جستجویی که در اینجا به بحث گذاشته شده اند ، فنون بخصوصی را برای ارتقاء نتایج برای زبانهای غیر انگلیسی بکار نمی بندند ( بارایلان و گوتمن[۱۰۵] ۲۰۰۵) . برای زبان آلمانی ، بنظر می رسد گوگل بعضی تکنیکهای اضافی را بکار گرفته است ( گوگنهایم[۱۰۶] و بارایلان ۲۰۰۵) .
۱۳) رابط اعمال برنامه ریزی در دسترس
هم اکنون گوگل[۱۰۷] و یاهو[۱۰۸] ای.پی.آی. را پیشنهاد می کنند .
۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها
موتورهای جستجوی تجاری به " مردم" ارائه خدمت می کنند ، و مردم نمی خواهند از عملگرهای بولی استفاده نمایند ، و وقتی که از عملگرها استفاده می نمایند ، اغلب بطور کامل و صحیح از آنها استفاده نمی کنند ( یانسن و دیگران ۲۰۰۰) . بنابراین جستجوهای تمام بولی ( اجازه به استفاده از پرانتز و دیگر فنون که تا از گزاره های ترکیبی استفاده نمایند ) در لیست عملیات موتورهای جستجو در درجه اول قرار ندارد . همانطور که قبلا دیدیم ، حتی " یا " مستقل بطور کامل و صحیح در گوگل عمل نمی نماید ، و پرانتز بی معنی است . حتی نتایجی که از " عملیات ریاضی ساده استفاده می کنند " ( + / -) بنظر می رسد بدرستی در گوگل کار نمی کند . انتظار می رود که تعداد نتایج برای پرسش " کارولینسکا " برابر با مجموع تعداد نتایج پرسش " کارولینسکا استکلهلم " و " کارولینسکا – استکهلم "‌ باشد ، هرچند نتایج بسیار متفاوت است ( ۸۲۳۰۰۰ در مقابل ۱۳۷۰۰۰۰ ) یاهو و ام.اس.ان. هیچ چیزی درباره پشتیبانی از پرانتز نمی گویند ، اما بنظر میرسد قابل اعمال باشند .عملگر قرابت یا همجواری توسط هیچکدام از موتورهای جستجو پشتیبانی نمی شوند ( آلتاویستا معمولا عملگر قرابت را بکار می گیرد ) . گوگل عملگر * دارد ( ۲۰۰۵) ، قرمز* آبی به این معنی است که قرمز و آبی با یک یا بیش از یک واژه از یکدیگر جدا شده اند . مورد جالب توجه اینست که کمتر از یکسال پیش ( گوگل ، ۲۰۰۴ ) از * به معنی دقیقا یک واژه جدا از هم بکار میرفته است ، بنابراین با معنی بود اگر" اطلاع سنجی * کتابسنجی " در مقابل " اطلاع سنجی * * کتابسنجی " جستجو می شد . معنی جدید عملگر * ، از آنجایی که ما می دانیم ، اینست که تنها " کتابسنجی اطلاع سنجی " و " اطلاع سنجی کتابسنجی " را ( بعنوان یک عبارت ) از مجموعه ای از نتایج برای اطلاع سنجی کتابسنجی (این بار نه یک عبارت جستجویی ) بیرون نگاه می دارد ، هرچند این مورد وجود نداشت ، و ما نمی توانستیم معنی این عملگر را کشف نمائیم .
نه ( یا یک " – " قبل از واژه جستجویی ) یک عملگر است ، که بعنوان یک عملگر مستقل مفید است . هم اکنون هم ام.اس.ان. و هم گوگل آنرا پشتیبانی می نمایند ، اما یاهو از آن پشتیبانی نمی نماید .
۱۵) فنون پیشرفته برای بازیابی داده برای تجزیه و تحلیل پیوند
قابلیتهای کنونی موتورهای جستجو برای بازیابی پیوندهای داده شده از یک وب سایت ، زمانیکه آلتاویستا و آل د وب هنوز خدمات مستقلی بودند (پیوندهای خارجی[۱۰۹]) ، بدتر از آنچه قبلا استفاده می شده ، می باشد . بنابراین عملگر پیوند (‌ : ) صفحاتی را بازیابی می نماید که پیوندهایی به صفحات مشخص داشته اند و در این مورد مقصد یک راهنما ست که همه صفحات پیوند دهنده به هر صفحه ( نمایه شده توسط موتور جستجو ) در این راهنما وجود دارد ، گرچه این در صفحات کمکی بوضوح بیان نشده بود ( آلتاویستا ، ۲۰۰۲ ، آل د وب ، ۲۰۰۳) . گوگل قادر است بعضی از صفحات پیوند را بازیابی نماید ( بعضی ، نه همه آنها ، میزگرد سرچ انجینواچ ، ۲۰۰۴ ، بارایلان ۲۰۰۲) و تنها به صفحات بخصوصی این پیوند صورت می گیرد ، و این جستجو نمی تواند با چیز دیگری ترکیب شود . در یاهو ، ویژگی مستند نشده دامنه پیوند ( کالیشاین[۱۱۰] ۲۰۰۴) و می تواند با دیگر واژه ها جستجویی ترکیب شود ، اما این به بازیابی پیوندها به صفحات میزبان مورد نظر کمک می نماید ، هرچند این جستجو عمل نمی نماید ، اگرمثلا ما بخواهیم پیوند هایی که به سایت رونالد روسو منجرشده است را به آدرس زیرمطالعه نمائیم .
http://users.pandora.be/ronald.rousseau/ و نخواهیم تنها به مطالعه صفحه خانگی بپردازیم ، اخیرا ، ام.اس.ان. عملگر دامنه پیوند ( : ) را به امکانات خود اضافه نموده است .
۱۶) گوناگونی توضیحگرهای جستجو
بعضی از محدودیتها ، مثلا محدود کردن جستجو به یک دامنه یا یک زبان وجود دارند . آنها همیشه قابل ترکیب نیستند . مثلا گوگل همه واژه های بعد از ۳۲ مین واژه را در یک پرسش نادیده می گیرد ( معمولا تنها ۱۰ واژه را در نظر گرفته ) . ام.اس.ان. بطور واضح محدودیت جستجو در ۱۰ واژه را دارد (مستند نشده است ) ، برای پرسش " ۱ ، ۲ ......۱۱" نتایجی وجود نداشت ، اما صفحه http://www.timeanddate.com/calendar/?year=۲۰۰۴&country=۱
توسط این موتور نمایه سازی شده است ، و صفحه پنهان شامل شماره هایی بین ۱ و ۱۱ است . بنظر میرسد یاهو محدودیت زمان پرسش نداشته باشد . همه موتورهای جستجو طول واژه ها را تا اندازه ای محدود می نمایند ( نوتس ۲۰۰۵) . راه آسانی برای جستجوهای محدود به زمان برای باهو ، رابط پشرفته آلتاویستا است که برای این امر بسیار بهتر است . هم اکنون ام.اس.ان. جستجوی محدود به تاریخ را اجازه نمی دهد . بسیار مفید است اگر قادر باشیم در یک سایت یا دامنه ، بدون واژه های جستجو اضافی و یا با آن واژه ها جستجو نمائیم ( جدول ۱ را ببینید ) . این جستجو ها با جستجوهای پیوندی مرکب در تحقیقات وب سنجی ظاهر می گردند . مثلا پرسش
linkdomain:issi-society.info -site:issi-society.info همه صفحاتی را که به صفحات جامعه آی.اس.اس.آی. پیوند داده است را نشان داده ، درحالیکه خود پیوندها را از میان آنها خارج می نماید . ( که اغلب برای اهداف ناوبری[۱۱۱] استفاده می شود ) . این پرسشها در گوگل به دو دلیل ممکن نیست ، این موتور عملگر دامنه پیوند را ندارد ، و حتی اگر پرسش
linkdomain:issi -society.info for link: www.issi-society.info/ را بکار بریم ( صفحه خانگی جامعه آی.اس.اس.آی. ) قادر نخواهیم بود صفحات خود پیوند را ، زمانیکه عملگر پیوند نمی تواند ترکیب شود از صفحات خارج نمائیم . این محدودیتی جدی برای اجرای تحقیقات مبتنی بر پیوند می باشد .
۱۷) ویژگیهای اضافی : ریشه یابی ، کوتاه سازی ، چپ/راست نویسی ، نویسه عام ، حساسیت به حروف ، بررسی هجی ، انقضاء سایت .
هر سه موتور جستجو بعضی از انواع بررسی هجی را دارند ، همه آنها به حروف بزرگ حساس نیستند ، و ریشه یابی در آنها بی تاثیر است ( نوعی ریشه یابی در گوگل وجود دارد ( گوگل ۲۰۰۵ ب) ، وضعیت دیگر موتورهای جستجو معلوم نیست ) . معمولا استفاده از نویسه عام یا دیگر وسایل کوتاه سازی را اجازه نمی دهند . یاهو ممکن است نوعی ریشه یابی را بکار بندد : گرچه تعداد نتایج بازیابی شده برای " سگ " و برای " سگها " متفاوت است ، در هر دو حالت " سگ " و " سگها " در جزئیات[۱۱۲] پررنگ شده است . از دیدگاه محقق بهتر است موتورهای جستجو به آنها اجازه دهند ریشه یابی ، حساسیت به حروف و کوتاه سازی فعال یا غیر فعال شود . معمولا فرد می تواند انقضای سایت را در ام.اس.ان. و یاهو فعال و غیر فعال نماید ، اگر رابط التاویستا بکار گرفته شود ( حداکثر دو صفحه از یک سایت ) .
۱۸) کمک جستجو : بازخورد ربط ، صفحات و جستجوهای مشابه / مرتبط ، شخصی سازی
گوگل گزینه ای برای بازیابی " صفحات مشابه " به یک صفحه بخصوص دارد ; هرچند این ویژگی استفاده محدودی دارد ، اما بنظر میرسد در مقایسه با تجربه قبل ما با این ویژگی ، در حال توسعه است . در ۳ سپتامبر ۲۰۰۵ صفحاتی که بطور منطقی با صفحه خانگی رونالد روسو مرتبط بود ارائه شد ، اما هنگامیکه بدنبال صفحات مرتبط با تعریف " chunnel " در ویکیپدیا ( اسم مستعار انگلیسی channel ) رفتیم ، نتایج بسیار نا امید کننده بودند .
یاهو چیزی در امتداد خطوط مرتبط با جستجوها پیشنهاد می کند ، برای موضوعات وسیع ، لیستی از پرسشها در زیر واژه " نیزسعی کنید " آورده میشود . برای " اطلاعات " لیست کاملی از جستجوها شامل بیش از صد پیشنهاد ، شامل " اطلاعات درباره زندانیهای بخش آشپزی " ، اما نه شامل " بازیابی اطلاعات " آورده می شود ( احتمالا مردم بیشتر " اطلاعات درباره زندانیهای بخش آشپزی " را به نسبت " بازیابی اطلاعات " جستجو کرده اند . ام.اس.ان. به ما اجازه می دهد تا " اطراف رتبه بندی را نیز امتحان " نمائیم ( موثر بودن این گزینه باید بیشتر مورد تحقیق قرار گیرد ) .
شخصی سازی موضوع داغی است . گوگل اخیرا خدمت " جستچوی شخصی شده " را معرفی کرده است ، جائیکه شخصی سازی بر اساس تاریخچه جستجوی کاربر مبتنی است . این ویژگی شاید برای تحقیقات شبکه مفید باشد ( بعنوان راهی برای دریافت صفحات " بهتر" در بین ۱۰۰۰ نتیجه بازیابی شده ) ، هرچند مفید بودن آن در آینده کشف خواهد شد .
۱۹) توانایی ترکیب همه ویژگیها در یک سوال ساده ( شامل تعداد نامحدود واژه های جستجو ) یا ایجاد تنظیمات ، براساس نتایج قبلی ( مدل "ساختن بلوک " ) .
گوگل و ام.اس.ان. تعداد واژه های جستجو را در یک پرسش محدود می کنند ( گرچه گوگل اخیرا محدودیت را از ۱۰ به ۳۲ افزایش داده است ) این مورد می تواند برای محققین شبکه طراحی که پرسشی دقیق را بوجود می آورند ، نقصان محسوب می شود . گوگل جستجوی بولی پیچیده را اجازه نمی دهد ( استفاده از پرانتز ) و ترکیب عملگر پیوندها ( : ) را با هر واژه جستجویی ، ممکن نساخته است . گوگل اجازه می دهد " درون نتایج قبلی جستجو " انجام شود ، اما این ، تنها راهی دیگر برای اضافه کردن واژه های جستجویی به پرسش می باشد ، نه اینکه بر روی مجموعه نتایج قبلی ، جستجویی انجام دهیم ، همانطوریکه دربعضی از سیستمهای جستجویی ممکن است ( مثلا دیالوگ[۱۱۳] و وب آو ساینس[۱۱۴] ) .
۲۰)‌ قابلیتهای بازیابی غیر متنی
هم اکنون همه موتورهای جستجو ، جستجوی تصویر را پیشنهاد می کنند (‌احتمالا عمدتا بر اساس توصیف متنی )‌. تحفیفات زیادی در حوزه بازیابی اطلاعات چندرسانه ای صورت می گیرد . قابلیتهای جستجوی غیر متنی که مورد علاقه محققین شبکه است ، خارج از حوزه مقاله کنونی است .
▪ نتیجه گیری :
موتورهای جستجوی تجاری ، از رویای محققان شبکه در مورد یک ابزار شبکه ایده آل ، نسبتا دور هستند . چیزی که ما نیازمند آنیم ، ابزاری قابل اعتماد و منعطف به جامعه علمی است . احتمالا ما فهرست آمال و آرزوهای محققان شبکه را بطورکامل پوشش نداده ایم ‌، اما این فهرست را آغاز نموده ایم . لنارت بجورنبورن[۱۱۵] پیشنهاد می کند که این موتور جستجوی ایده آل را "‌ وبومت[۱۱۶] "‌ بنامیم . الان ما نامی برای آن داریم و ویژگیهایی اساسی این موتورها را نیز داریم – ما نیازمند بودجه ،‌ منابع و دانش چگونگی آن هستیم .
چند کلمه درباره پایایی این مطالعه . ما همه این تحقیقات را ذخیره کردیم ،‌ و در مورد تاریخی ( و اغلب ساعت آن ) که این جستجوها انجام شده نیز دقت نمودیم . جستجوها بصورت وسیعی ذخیره شده و در این مقاله مستند شده است .‌ تا زمانیکه تقریبا بدست آوردن دقیق نتایج غیرممکن خواهد بود ، ضروری بود جستجوها در زمان گزارش مقاله ذکر گردند . آماده ایم که خواننده علاقمند را با داده های خام این مطالعه آشنا نمائیم .
در اکثریت مثالهااز گوگل استفاده شده است . دلیل این امر اینست که از زمانیکه گوگل اخیرا محبوبترین موتور جستجوست (‌ کامسکور ، ۲۰۰۵‌)‌، بیشتر توجه ما معطوف به عملکرد این موتور بوده است . در مطالعات بعدی تصمیم داریم دیگر موتورهای جستجو را نیز همینگونه در امر تحقیق "‌ زیر میکرسکوپ " قرار دهیم . هرچند که موتورهای جستجو نقصهایی دارند ، ولی‌ ما از آنها هم در زندگی روزمره و هم در تحقیق ، استفاده می کنیم ،‌ زیرا تنها ابزارهای جستجویی در شکل وسیع در امر بازیابی هستند که بطور رایگان برای همگان قابل دسترس هستند .
ما قصد داریم ویژگیهای در دسترس را بصورت دوره ای بازنگری کرده ( مثلا در سال یک مرتبه ) و پیشرفتها را منتشر نمائیم . نسخه اولیه این مقاله در صورتجلسات آی.اس.اس.آی سال ۲۰۰۵ظاهر شد( بارایلان ، ۲۰۰۵ب) ،‌ که قابلیتهای موتورهای جستجو را در ابتدای سال ۲۰۰۵ بررسی کردیم . با مقایسه دو نسخه می توان تفاوتها و توسعه هایی را مشاهده کرد ،‌ که نشان دهنده نیاز به ارزیابی دوره ای است . شبکه و موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین در آینده کامل ضروری است ویژگیهای جدید ‌، برای تحقیقات شبکه در دسترس باشد .
پیشنهاد می کنیم مجموعه ای از آزمایشها را با راهنمایی روش شناختی درباره اجرا و مستند سازی این آزمایشها برای ارزیابی عملکرد موتورهای جستجو بطور متناوبی ایجاد شود .


وبگردی
بار دیگر زیر گرفتن ماموران پلیس با ماشین سواری توسط دراویش
بار دیگر زیر گرفتن ماموران پلیس با ماشین سواری توسط دراویش - باز هم زیر گرفتن ماموران امنیتی و نیروی انتظامی توسط یک ماشین دیگر سواری توسط اراذل خیابان گلستان هفتم
حمله با اتوبوس به مأموران پلیس در پاسداران
حمله با اتوبوس به مأموران پلیس در پاسداران - کی از دراویش گنابادی با اتوبوس به مردم و مأموران پلیس در خیابان پاسداران تهران / گفته میشود تعداد شهدای ناجا در حمله آشوبگران فرقه ضاله گنابادی و حامیان نورعلی تابنده به ۴ تن رسیده است.
لحظه مواجهه وزیر راه با خانواده قربانیان سانحه هواپیمای
لحظه مواجهه وزیر راه با خانواده قربانیان سانحه هواپیمای - به دنبال سقوط هواپیمای تهران-یاسوج ویدیو لحظه مواجه خانواده های جانباختگان را با وزیر مشاهده می کنید.
حمله با چاقو به یک راننده سر پارک خودرو
حمله با چاقو به یک راننده سر پارک خودرو - تصاویری دردناک از حمله مرد موتور سوار با چاقو به یک مرد راننده در حضور همسر و فرزندش در شهرستان داراب استان فارس را در ویدئوی زیر می بینید. به نظر میرسد این اتفاق در پی جرو بحثی بر سر پارک کردن وسایل نقلیه روی داده است!
اگر «عدم رویارویی با حریفان اسرائیلی» آرمان ماست چرا پنهانی و دزدکی؟
اگر «عدم رویارویی با حریفان اسرائیلی» آرمان ماست چرا پنهانی و دزدکی؟ - آنچه مشخص است جمهوری اسلامی ایران باید تصمیم مشخص و درستی درباره سیاست عدم رویارویی با ورزشکاران رژیم صهیونیستی بگیرد. دیگر نمی‌توان با این روش تعقیب و گریزی با این مسئله برخورد کرد. دیگر نمی‌توان ورزشکاران را از مقابله با کشتی‌گیران اسرائیلی باز داشت و در برابر رسانه‌های جهانی گفت به خاطر مصدومیت در میدان حاضر نمی‌شویم و در داخل جشن بگیریم که ما عزت‌مان را حفظ کردیم و...
بدل ایرانی آنجلینا جولی رونمایی شد !
بدل ایرانی آنجلینا جولی رونمایی شد ! - شب گذشته مراسم اکران فیلم بلوک 9 خروجی 2 به کارگردانی علیرضا امینی و تهیه کنندگی محمدرضا شریفی نیا و نیز فیلم شاخ کرگدن در پردیس سینمایی ملت برگزار گردید.
اظهارات جنجالی احمدی نژاد در مقابل دادگاه
اظهارات جنجالی احمدی نژاد در مقابل دادگاه - سخنرانی پرحاشیه احمدی نژاد در مقابل دادگاه بقایی
    35 گام برای کسب مخاطب بیشتر در Twitter
    اگر شما هم از ان دسته از افرادی هستید که به دنبال راه‌های خلاقانه افزایش مخاطب (فالوور) در تویتر هستید، مقاله زیر در 35 گام، راهنمای خوبی برای شما قلمداد می‌شود.