سه شنبه, ۹ بهمن, ۱۴۰۳ / 28 January, 2025
مجله ویستا

انتظارات دربرابر واقعیتها ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵


انتظارات دربرابر واقعیتها ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵

تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است اغلب داده های جمع آوری شده , توسط موتورهای جستجو صورت می گیرد

تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است . اغلب داده های جمع آوری شده ، توسط موتورهای جستجو صورت می گیرد . در این مقاله ما " لیست آرزویی " مان را برای موتور جستجو مناسب و ایده آل توصیف کرده ایم ، و نیاز به ویژگیهای بخصوص تشریح شده ، و اینکه موتورهای جستجوی عمده کنونی موجود می توانند ، حداقل تا اندازه ای ، نیازمندیهای یک ابزار جستجویی مطلوب و نهایی را برآورده سازند آزمایش شده است . ابزارهای جستجویی عمده تجاری هستند و بسوی کاربر " حد متوسط " متمایل شده اند نه بسوی محققین شبکه ، بنابراین قادرنیستند همه درخواستها را برآورده سازند . یک راه حل ممکن برای جامعه تحقیق بکارگیری بودجه لازم ، منابع ، و دانستن اینکه چگونه ابزار جستجویی تحقیق مدار ایجاد نمایند ، می باشد .

▪ مقدمه

با وجود اینکه شبکه تنها ۱۵ سال است که بوجود آمده است ، یک منبع اطلاعاتی عمده و رسانه ارتباطی شده است و تاثیر خود را بر رفتار اطلاعاتی و ارتباطاتی هم در زندگی روزمره و هم در زندگی علمی داشته است . تحقیقات شبکه ای چند رشته ای[۴] است . این تحقیقات بطور گسترده ای توسط دانشمندان رایانه و اطلاعات ، جامعه شناسان ، اقتصاددانان ، زبان شناسان ، روانشناسان ، دانشمندان ارتباطات و دیگران صورت می پذیرد . به منظور انجام مطالعه بر روی شبکه ، بیشتر محققان نیازمند داده هستند . بعضی از محققین ( مثل ثلوال[۵] ، ۲۰۰۱ یا آلبرت ، جونگ و بارباسی[۶] ، ۱۹۹۹) قادرند ( ازهر دو لحاظ فنی و اقتصادی ) ابزارهایی برای جمع آوری داده های ضروری را از شبکه ایجاد نمایند . سوسیبات[۷] توسط تیم ثلوال توسعه یافته است و برای هر کسی که منابعی دارد که می تواند توسط خزنده[۸] اداره شود و بروندادهای آن قابل ذخیره باشند ( گروه تحقیقات آماری سایبر متریکس[۹] ، ۲۰۰۴ الف ) ، و نتایج جستجوهای ویژه برای بارگیری در دسترس است (گروه تحقیقات آماری سایبر متریکس ، ۲۰۰۴ ب ) ، بصورت رایگان قابل استفاده است. دیگران ( مثلا اسپینک[۱۰] و یانسن[۱۱] ، ۲۰۰۴ یا هوبرمن و آدامیک[۱۲] ، ۱۹۹۹) به اندازه کافی خوش شانس بودند تا به داده های جمع آوری شده توسط ابزارهای جستجو تجاری دسترسی داشته باشند . بعضی از مطالعات شبکه ای توسط محققانی که در مورد موتورهای جستجو کار می کردند اجرا شده است ( مثلا برودر[۱۳] و دیگران ، ۲۰۰۰ یا فترلی[۱۴] و دیگران ۲۰۰۴ ) ، بنابراین آنها می توانستند به شبکه خزیده یا به داده های پایگاه داده موتورهای جستجو دسترسی یابند .

دیگر محققین به آنهایی که خوش شانس و مبتکر بوده اند و می توانستند رایگان به ابزارهای بازیابی اطلاعات دسترسی داشته باشند ، غبطه می خورند : به موتورهای جستجو ، یا به پایگاههای داده پروژه های نگهداری شبکه ( مثل آرشیو اینترنت[۱۵] ) . امروزه پروژه های نگهداری شبکه نیز دسترسی محدودی بوجود آورده اند ( بدلیل مشکلات حق مولف ) یا حداقل ابزارهای بازیابی و یا غیر متنی را فراهم می نمایند ، بنابراین برای استفاده تحقیقات شبکه بسیار محدودند . لذا بهترین ابزارهای جستجوی رایگان موتورهای جستجو هستند . چشم انداز موتورهای جستجو در سالهای اخیر تحت تغییرات عمده ای قرار گرفته اند ، و معمولا تنها چند بازیگر عمده معدود وجود دارد ( سولیوان[۱۶] ۲۰۰۴) : گوگل، یاهو ، اسکجیوز/ تئوما[۱۷] ، و ام.اس.ان. . در این مقاله ما گوگل ، یاهو و ام.اس.ان. را در نظر گرفته ایم ( هم اکنون اسکجیوز/ تئوما تعدادی از ویژگیهای عمده تحقیقات شبکه ای ، مثل پیوند به صفحات را دارانیست ) . اگزالید[۱۸] تازه واردی به صحنه جستجو است و تنها چیزی که باقی می ماند اینست ، ببینیم چگونه در آینده توسعه می یابد . موتورهای جستجوی اضافی با قابلیتهای بخصوص و مرتبط به تحقیقات شبکه ای ، میتواند وجود داشته باشند ، اما به عقیده ما پوشش ابزارهای جستجو یک ویژگی مرکزی است ( مثلا در این مورد ، اندازه فرق می کند ) و بنابراین آزمودن ابزارهای جستجو تنها محدود به این موتورهای جستجو می شود . با توجه به کامسکور[۱۹] ( ۲۰۰۵) ، گوگل ، یاهو و ام.اس.ان. با هم و در مجموع ۵/۸۲ % از نتایج شبکه ای در جولای ۲۰۰۵ را تشکیل داده اند ( گوگل ۵/۳۶% ، یاهو ۵/۳۰% و ام.اس.ان.۵/۱۵% ) .

نمای کلی مقاله بدین ترتیب است : اول ویژگیهای مطلوب را فهرست کرده و اهمیت آن را برای تحقیقات شبکه ای توضیح می دهیم . بعد آزمایش می کنیم که آیا سه موتور جستجویی که در بالا ذکر شدند این التزامات را به انجام می رسانند و در نهایت دریافتمان را از یافته ها به بحث می گذاریم . موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین می خواهیم بر این نکته تاکید داشته باشیم،‌ مواردی که درباره این ابزارها بدست آمده بر اساس یافته های ما در اواسط آگوست ۲۰۰۵ می باشد . برای پشتیبانی یافته ها ، ما هر مثالی را که در مقاله ارائه شده ، ذخیره و‌ مستند کرده ، و نسخه های ذخیره شده مثالهای جستجو و دیگر مستند سازیهایی که مقاله بر اساس آن شکل گرفته در اختیار علاقمندان قرار داده می شود .

▪ انتظارات – لیستی از معیارها برای موتورهای جستجو :

۱) پوشش

اگر بدنبال تولید معیارهای کمی باشیم ، سپس پوشش ابزار جستجو باید همسان ( همه دامنه های موجود) و جامع باشد . این برای معیار سنجش اندازه سایت یا دامنه و یا رویت پذیری آن ضروری است . ( مثلا تعداد لینکهای داخلی و خارجی ) ، اما الزامات اساسی برای نمونه گیری سایتها و صفحات وب می باشد . این خواسته بطور ۱۰۰ درصد قابل دستیابی نیست : صفحات وب جدید بطور پیوسته ایجاد میشوند و غیر ممکن است آنها را بطور مداوم ذخیره کرد . هنوز می خواهیم موتور کاوش تا حد ممکن ، بسیاری از صفحات وب را پوشش دهد .

۲) پایایی [۲۰]

با توجه به به واژه نامه آکسفورد ( ۱۹۸۹) پایایی " مقداری است که یک معیار در شرایط یکسان و برابر بطور مستمر نتایج هماهنگ و موزونی بوجود می آورد " . برای اینکه قادر به کار کردن با این موتورهای جستجو باشیم ، مجموعه نتایج باید برای یک دوره کوتاه زمانی ( مثلا یک ساعت یا یک روز ) پایدار( یا تقریبا پایدار) باشد . این که نتایج جستجو در طول زمان تغییر می کند ، قابل پذیرش است ، زیرا تغییرات پویا در شبکه رخ می دهد و پایگاه داده موتورهای جستجوی بروز میشوند . هرچند ، هنگامی که مشخص شوددلایل تغییرات عمده ، با دلایل ذکر شده در بالا بوجود نمی آیند ، اگر نوسانات عمده ای در نتایج بازیابی بوجود آید ، قابل پذیرش نیست .

۳) مستندسازی شفاف ، بی پرده و واضح

شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ویژگیها ، قابلیتها و رویکردها و روشهای عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند . به منظور این که قادر باشیم از نتایج ابزارهای جستجویی برای تحقیقات اینترنت استفاده کنیم ، ضروری است که ویژگیهای موتورهای جستجو با توجه خصوصیات ذکر شده عمل نماید و اگر استفاده کنندگان از این ویژگیها آگاه نیستند باید هر چه زودتر مطلع شوند .

۴) بهنگام بودن[۲۱]

پایگاه داده موتورهای جستجو باید بطور متناوب بروز شوند ، تا تصویر فوری[۲۲] که موتورهای جستجو از شبکه دارند ، باید هرچه بیشتر شبیه به واقعیت شبکه باشد . تازگی پایگاه داده با معیار ( آلفا و بتا) بریوتون و سیبنکو [۲۳] ، قابل اندازه گیری است .

۵) نمایه سازی تمام مدرک

هنگامی که قصد ما ایجاد لیستی جامع ازمدارک است ، داشتن یک ویژگی معین مبتنی بر متن ، سپس حتی اگر عبارت جستجو در پائین مدرک ظاهر شود( مثلا در منابع کتابشناختی )مدرک باید بخشی ازاین لیست باشد .

۶) زمان پاسخگویی ، دسترس پذیری

وقفه ها[۲۴] می توانند باعث مشکلات پایایی شوند ،زیرا این وقفه ها ممکن است تعداد نتایج بازیابی را تغییر دهند( که اغلب بدون اینکه موتور جستجو اطلاعاتی درباره تغییرات ناگهانی در نتایج ، گزارش نمایند ، همراه است ). یک ابزار جستجو که غیر دسترس پذیر یا دارای وقفه های زیادی است ، تداخلهای زیادی در فرایند جستجو ایجاد می نماید . زمانیکه شبکه به خودی خود پویاست واجب است که همه جستجوها برای یک تحقیق معین در کوتاهترین بازه زمانی ممکن انجام شود .

۷) عینیت – بدون تاثیر از عوامل تجاری و بدون تاثیربرمحیط

ما بدنبال ابزاری کامل می گردیم که به هیچ وجه سوگیری نداشته باشد و ما را قادر سازد تا شبکه را درحالیکه از این ابزار استفاده می کنیم ، مورد مطالعه قرار دهیم ، و نه بررسی تصویری که از طریق " چشمهای موتور جستجو " به ما رسیده است ،‌ بپردازیم . این درخواست مطلوب ماست . هدف واقعی ما نزدیک شدن به این وضعیت است . موتور جستجو باید ابزاری باشد که اجازه دهد تا از طریق آن به اطلاعات دسترسی داشته باشیم . موتور جستجو نباید خود شبکه را تحت تاثیر خود قرار دهد .

۸) همه نتایج گزارش شده باید قابل بازیابی باشند

شمارش مدارک و واژه ها اغلب برای تحقیقات شبکه ای نارساست ( مخصوصا وقتی که این تعداد غیر قابل اعتماد باشند ) . برای مطالعه خود مدارک ، مجبوریم به آنها دسترسی داشته باشیم . بنابراین دانستن اینکه مثلا ۱۱۲۰۳۳۴۹ صفحه وجود دارد که موتور جستجو بعنوان مدرک مرتبط با جستجو نشان داده ، اما قادر به دسترسی به تنها ۱۰۰۰ نتیجه از آنهاست ، رضایت بخش نیست . توانایی بازیابی تمام مجموعه نتایج ، و نه تنها ۲۵۰ یا ۱۰۰۰ مدرک اول برای تحقیق شبکه ای موفق ، ضروری است .

۹) رتبه بندی ، گزینه های مختلف دسته بندی

بسته به موضوع تحقیق ، همیشه نمی خواهیم به نتایج جستجو بنگریم ، و اغلب نمی توانیم ( معمولا، موتورهای جستجو تمامی مجموعه نتایج را نشان نمی دهند ). در این موارد رتبه بندی بسیار مهم می شود . الگوریتم رتبه بندی رازی است که بخوبی حفظ شده است ،هم بخاطر رقابت و هم بخاطر اسپم کنندگان[۲۵] بالقوه . در یک ابزار جستجوی مطلوب ، محققین شبکه باید قادر باشند مولفه هایی را که در رتبه بندی تاثیر می گذارند ، بکار گیرند ( از قبیل تاریخ ، وزن واژگانی ، مکاندهی[۲۶] ، پیوندهای خارجی [۲۷]، لنگرها[۲۸] .)

۱۰) نمایش انعطاف پذیر برونداد

اینجا ، منظور ما توانایی انتخاب تعداد نتایج در هر صفحه ، چه اطلاعاتی نمایش داده شود ( مثلا فقط مکانیاب جهانی شبکه، جزئیات[۲۹] ، اندازه ، عنوان ، مکانیاب جهانی شبکه ، زبان ) آیا نتایج باید خوشه بندی شوند یا نه ، و آیا نمونه ای از صفحات هر وب سایت نمایش داده شود( این گزینه انقضاء سایت نامیده میشود ). التزام بعدی قادر بودن به انجام تنظیمات می باشد. مرور آسان مجموعه نتایج نیز مورد نیاز است ، مثلا توانایی پرش سریع به رویت مدرک ۸۴۵ .

۱۱) نتایج پنهان[۳۰]

توانایی رویت نتایج پنهان ویژگی مفید دیگری است . به محقق کمک می کند تا بداند چرا مدرک بازیابی شده است ( اغلب صفحات بین زمانی که توسط موتورهای جستجو رویت شده و زمانیکه توسط استفاده کننده رویت می شوند ، تغییر می نماید ) . بعلاوه ، اگر زمانیکه میزبان صفحه موجود نیست یا قابل دسترس نیست ، فرد قادر خواهد بود نسخه پنهان را ببیند .

۱۲) کیفیت بازیابی بالا در زبانهای غیرانگلیسی

این مورد بسیار مشکل ساز است : وقتی که در سال ۲۰۰۰ حدود ۷۰% صفحات شبکه به زبان انگلیسی ، تخمین زده شده اند ( اطلس سایبر[۳۱] ۲۰۰۰) ، در سال ۲۰۰۴ دو سوم استفاده کنندگان از شبکه متکلم غیربومی زبان انگلیسی هستند ( گلوبال استاتس[۳۲] ، ۲۰۰۴) . تحقیقات بازیابی اطلاعات بطور فزاینده ای بسوی زبان انگلیسی در حال حرکت است . موتورهای جستجوی اصلی ، استفاده کنندگان را قادر می سازند تا به زبانی غیر از زبان انگلیسی و به خوبی آن جستجو نمایند ، و معمولا بدلیل عدم رضایت از ابزارهای جستجویی در زبانهای بومی ، این ابزارها که در اصل برای بازیابی در زبان انگلیسی توسعه یافته اند ، برای جستجو در دیگر زبانها نیز بکار می روند (البته استثناهایی وجود دارد ، مثلا زبان روسی ). برای زبانهایی که درآن ترکیبات ، صرف فعل و پیشوندها بسیاراستفاده می شوند و برای بازیابی در زبان انگلیسی پایه ماشینی دارند ، بسیار دور از شایستگی است . تحقیقات شبکه الزاما بر روی انگلیسی تمرکز ندارد ، و بازیابی اطلاعات باید بطورکلی در دیگر زبانها نیز به خوبی زبان انگلیسی باشد .

۱۳) رابط اعمال برنامه ریزی[۳۳] در دسترس

یک رابط اعمال برنامه ریزی ( ای.پی.آی.) قابل دسترس ، محلی سازی و توسعه مفید ابزارها و رابطهای مبتنی بر ویژگیهای قابل دسترس موتورهای جستجو، را ممکن می سازد.

۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها

نیازی به تشریح این ویژگی نیست . این ویژگی به محقق اجازه می دهد تا جستجوها با نیازهای وی ، متناسب شوند . واژگان جبری ، و ، یا ، و نه مجموعه ای کامل از عملگرها هستند ،هر گزاره جبری می تواند بعنوان ترکیبی از گزاره ها که فقط با این عملگرها مرتبطند ظاهر شوند . این ترکیبات استفاده از پرانتز را ضروری می سازد . بنابراین ما نه تنها نیازمند به و ، یا ، و نه هستیم بلکه به طریق دیگری ( پرانتز یا ستفاده دوباره از نتایج نسبی[۳۴] ) به منظور قابلیت بیان کامل جبری ، نیاز داریم . هرچند این نیز کافی نیست ، برای بازیابی متن نیازمندعملگرهای اضافی مثل جستجوی عبارتی ، قرابت[۳۵] یا همجواری[۳۶] می باشیم( با تعاریف منعطف ، اینکه این عملگرها چه معنی می دهند). همچنین نیازمند آنیم تا قادر باشیم جستجوهای مستقل نه را برای تخمین اندازه انجام دهیم .

۱۵) قنون پیشرفته برای بازیابی داده برای تحلیل پیوند

شبکه از پیوندها و گره ها ساخته شده است . پیوندها بصورت فعال در تعدادی از دامنه ها بررسی شده اند : تحقیق درباره ساختار شبکه ، تکامل آن و ایجاد جوامع و شبکه های اجتماعی در وب ، راههای اصلاح بازیابی اطلاعات ، استفاده از نشانگرهای مبتنی بر پیوند و خصیصه های ساختار پیوند ، ( برودر و دیگران، ۲۰۰۰ ، کومار و دیگران ، ۲۰۰۳، کومار و دیگران ، ۱۹۹۹ ، فابا- پرز، گوئررو- بوتا و دی مویا- آنگون، ۲۰۰۳، کلاینبرگ ، ۱۹۹۹ ، اینگورسن ، ۱۹۹۸، ثلوال، ۲۰۰۳و ۲۰۰۴ ، بار- ایلان ، ۲۰۰۵).چنین مطالعاتی متکی بر داده های مربوط به پیوندهاست . اساسی ترین ویژگی به صفحه مخصوصی مرتبط است . پیوندهای به یک سایت یا یک سایت فرعی اغلب مورد توجه است ، و بطور عمومی تر ، می خواهیم قادر باشیم تا مجموعه صفحات لنگری و مجموعه صفحات هدف را تعریف نماییم . بعضی مواقع به تعدادی از صفحات پیوند دهنده به صفحه ای ، سایتی یا مجموعه ای از صفحات علاقه مند هستیم ، اما بعضی مواقع تعداد واقعی پیوندها مدنظر ماست (مثلا اگر چندین پیونداز منبع به مجموعه هدف وجود داشته باشد،ابزاری برای شمارش صفحات ،‌ با تعدد زیاد میخواهیم). باید قادر باشیم ، چگونگی اداره پیوندهای نسبی[۳۷] را معین نمائیم . قدم بعدی به جلو داشتن حداقل یک سری خصوصیات پیوندها خواهد بود. پیوندهای ناوبری ، پیوندهای جاسازی شده محتوا[۳۸] ، پیوند درون لیستها و بدست آوردن اطلاعاتی در مکاندهی پیوند.

۱۶) گوناگونی توضیحگرهای جستجو

پیش فرض اصلی مااین است که محققین می دانند که چه می خواهند ، و قادرند ویژگیهای مختلف را درک نمایند و گزینه صحیح را برای حل مشکل موجود انتخاب نمایند . این باآنچه که توسعه دهندگان موتورهای جستجو در باره عموم مردم می پذیرند، در تضاد است ( شبکه جهانگستر ۱۰ پانل ، ۲۰۰۱)[۳۹]. برای اینکه قادر باشیم پرسشها را بطور دقیق تعبیر نمائیم ، نیازمند آن هستیم که راههایی را برای محدود کردن جستجوها برگزینیم ، لیست نسبی محتوا : تاریخ ، دامنه ها ، زبانها، ناحیه جغرافیایی،قالب فایلها،مکاندهی در فایل ( مثلا عنوان ، مکانیاب جهانی منبع ، لنگرها ) و دامنه های ابرداده اگر و هنگامیکه در مدرک موجود باشند.

۱۷) ویژگیهای اضافی : ریشه یابی[۴۰] ، کوتاه سازی[۴۱] به چپ / راست ، نویسه عام[۴۲] ، حساسیت به حروف[۴۳] ، بررسی هجی ، انقضای سایت

ویژگیهای اضافی که در بالا فهرست شد به محققین شبکه کمک می کند در تعبیر پرسشها بطور دقیق تری عمل نمایند . کوتاه سازی برای زبانهایی که واژه های ترکیبی و پیشوندها و پسوندها را دارند ، بسیار مهم هستند . این ویژگیها ، برای جنبه های زبانشناختی شبکه یا برای تحلیل هم واژگانی[۴۴] نیز مهمند .

۱۸) کمک جستجو : بازخورد ربط ، صفحات و جستجوهای مرتبط / مشابه ، شخصی سازی

داشتن این ویژگیها بسیار خوب است ، و به محققین شبکه کمک می کنند ، همانطوریکه تصور می شود برای عموم کمک خوبی هستند .

۱۹) قابلیت ترکیب همه ویژگیها در یک پرسش واحد ( شامل تعداد نامحدود واژگان جستجویی )‌یا ایجاد مجموعه ها ،‌براساس نتایج پیشین (‌ مدل "ساختن بلوکها ")

این ویژگیها بسیار مهم هستند . این ویژگیها محققان را قادر می سازند تا پرسشهای دقیق تری را ایجاد نمایند .

۲۰) قابلیت جستجوی غیر متنی

مقاله بر بازیابی متنی تمرکز دارد ، اما باید رسانه اضافی نیز به همانگونه محاسبه شود. قابلیتهای بخصوص برای جستجوهای چند رسانه ای برای تحقیق شبکه فراتر از دامنه تحقیق کنونی است .

▪ واقعیت – ویژگیهای موتورهای جستجو در گذشته و حال

۱) پوشش

در سال ۱۹۹۵ شبکه به اندازه کافی بی تجربه بود تا این ادعای لایکوس[۴۵] را بپذیرد که " ۹۱% شبکه نمایه سازی شده است " (آمبورگی [۴۶]،۱۹۹۵) . بعد از اینکه تحقیقات توسط بهارات و برودر(۱۹۹۸) و لاورنس و گیلز[۴۷] منتشر شد ( ۱۹۹۸،۱۹۹۹) ، این ادعاها دیگر تکرار نشدند ، و ما بسادگی نمیتوانیم انتظار داشته باشیم که ابزارهای جستجو جامعیت داشته باشند. هرچند ، " جنگ اندازه موتورهای جستجو شروع شده " ( سولیوان[۴۸] ۲۰۰۵) وباادعای یاهو که ۲/۱۹ میلیارد صفحه را نمایه سازی می نماید، در حالیکه گوگل با این ادعا ستیز می کند، به شدت ادامه دارد . ( پرایس[۴۹] ۲۰۰۵) . چنسی و پری[۵۰] ( ۲۰۰۵ الف ،‌ ۲۰۰۵ ب)تعداد نتایج منعکس شده توسط گوگل و یاهو را حدود ۱۰۰۰۰ پرسش با کمتر از ۱۰۰۰ نتیجه مقایسه می نماید ، آنها آزمایش را دوبار اجرا کردند : در مطالعه اول گوگل ۲۷۰ درصد بیشتر از یاهو نتیجه منعکس کرد، درحالیکه در آزمایش دوم آنها فهمیدند که گوگل ۶۵% بیشتر از یاهو نتیجه داده است ( دومین آزمایش بمنظور غلبه بر بعضی دغدغه های روش شناختی نامشخص انجام شد ) .

مشکل دیگر عدم یکسانی پوشش است . اسنایدر و روزنباوم[۵۱](۱۹۹۹) نشان دادند که حتی پوشش نسبی دامنه های عمده موتورهای جستجوی مختلف ،یکسان نیست. تلوال( ۲۰۰۰) پوشش دامنه های ملی بزرگ را آزمودو دریافت که پوشش بسیار نا متوازن می باشد که محاسبه عامل تاثیر شبکه بر اساس داده های فراهم شده توسط موتورهای جستجو ممکن نیست. نتایج اخیر نشان می دهد که پوشش موتورهای جستجو هنوز نا متوازن است . ما برای "- kxht site:.hu"(بدون واژهkxht در دامنه مجارستان) در یاهو و گوگل ،‌وsite:hu-(kxht)" " در۱۳ ژانویه در ام.اس.ان. و دوباره در ۱۷جولای ۲۰۰۵ بااین پرسش site:hu -(kxht) جستجو را صورت دادیم . ما مجبور بودیم واژه های بسیار نادری را خارج نمائیم ، زیرا گوگل جستجوهای مجزا را برای سایتها در آن زمان پشتیبانی نمی کرد. دور سوم جستجوهادر۳ سپتامبر ۲۰۰۵ زمانی که هر سه موتور جستجوهای نوع "site:.hu"(or "site:hu" for MSN) راانجام می دادند ،‌ صورت گرفت. نتایج برای تعدادی از دامنه ها در جدول ۱ آمده است . تشخیص تفاوتهای نسبی در پوشش دامنه ها بین موتورهای جستجو و همچنین بین رتبه بندی موتورهای جستجو برای پوشش وقتی دامنه ها یک به یک در نظر گرفته می شوند،بسیار ساده است. مورد دیگر، تغییرات عظیم در تعداد صفحات گزارش شده بین دو نقطه جمع آوری داده ، گوگل و ام.اس.ان. صفحات مجارستانی بسیار کمتری را در دفعه دوم گزارش نمودند، درحالیکه یاهو دو برابر بیشتر است و این مقدار وقتی برای سومین بار جستجو شد دوباره دو برابر شد . گوگل و ام.اس.ان. صفحات بیشتری از جیبوتی[۵۲] به نسبت سورینام[۵۳] در دو دور اول جستجو گزارش کردند درحالیکه نتایج یاهو خلاف این را نشان میداد . بنظر میرسد ام.اس.ان. به گوگل و یاهو در تعداد صفحات کانادایی نمایه شده توسط آنها می باشند ، درحال نزدیک شدن می باشد ، و در دور سوم جستجو یاهو با پوشش بیشتر صفحات کانادایی سبقت گرفته است ( حداقل این چیزی است که گزارش شده است ) .

۲) پایایی

مثالهای گذشته درباره عدم اعتبار موتورهای جستجو شامل نتایج شمرده شده توسط آلتاویستا نیز میشود

( نوتس۲۰۰۰[۵۴]) . روسو[۵۵] ( ۲۰۰۰) نوسانات روزانه را در تعدادی از نتایج بازیابی شده توسط آلتاویستا را گزارش میکند . این نوسانات با رشد مداوم تعداد نتایج گزارش شده توسط نورثرن لایت مقایسه شده است . بارایلان ( ۲۰۰۰) نوسانات روزانه شدیدی را در نتایج بازیابی شده توسط هات بوت[۵۶] مشاهده کرده زمانیکه با اسنپ[۵۷] مقایسه شده ، جائیکه هردو ابزار جستجو توسط اینکتومی اداره میشود . پایداری[۵۸] موتورهای جستجو در طول زمان می تواند با مجموعه ای از معیارهای پیشنهاد شده توسط بار ایلان ( ۲۰۰۲) اندازه گیری شود .

اغلب تعداد نتایج گزارش شده وقتی که به سمت پائین لیست نتایج حرکت می کنیم تغییر می کند . مثلا در گوگل جستجوی واژه “digifeed” در آگوست ۲۰۰۵ بین ساعت ۱۳:۵۱ و ۱۴:۰۰ شش بار صورت گرفت .

بار اول ، گوگل ۶۹۷ نتیجه را گزارش کرد ، و سپس ما به تمام مجموعه نتایج رفتیم ( شامل مواردی که در اول حذف شده بود ) . این دفعه تعداد نتایج ثبت شده ۷۴۴ بود ، اما وقتی که به سمت صفحه آخر حرکت کردیم ، این تعداد به ۵۷۱ کاهش یافت . بعد از ذخیره صفحه ، به پرسش برگشتیم ، این بار تعداد نتایج به ترتیب ۱۰۳۰ ، ۱۰۷۰ و ۸۵۶ شدند . این نوسانات ، احتمالا به دلیل سرورهای متفاوتی است که درخواستهای متفاوتی را کنترل می کنند ، ولی هنگامی که جستجو در شبکه صورت می گیرد ، هنوز مشکل جدی ثابلیت اطمینان و پایایی موتورهای جستجو می باشد ۳) مستند سازی شفاف ، بی پرده و واضح گزارش اخیر ( ووترز[۵۹] ،۲۰۰۴) عملیات فاش سازی موتورهای جستجو را به بحث گذاشته است ( بیشتر مرتبط با مکاندهی[۶۰] و شمول[۶۱] اختصاص داده شده )

متاسفانه موتورهای جستجو همیشه مشکلات را گزاش نمی نمایند . مثلا ، بار ایلان ( ۲۰۰۲) ثابت کرده که گوگل تعداد واقعی صفحات پیوند داده شده به یک وب سایت که توسط موتور جستجو نمایه سازی شده را گزارش نمی کند . تنها اخیرا گوگل به این مطلب اذعان داشته است ( میزگرد سرچ انجینواچ[۶۲] ، ۲۰۰۴) . حتی وقتی موتورهای جستجو سوالات واضحی را دریافت می دارند ، همیشه زحمت دادن پاسخ رضایتمند را برخود نمی پسندند ، مثل موردی که با هات بوت وجود داشت ( بار ایلان ، ۲۰۰۰) . بعضی مواقع فشار واقع شده بر موتورهای جستجو از طرف میزگرد موتورهای جستجو / متخصصان شبکه نتایج واضحتری را دریافت می دارد. موتورهای جستجو دلیل اینکه چرا آنها اسناد نمایه سازی شده را برای بعضی از پرسشهایی که این مدارک باید نهایتا در بازیابی ظاهر شوند ، پاسخ نمی دهند . ( متروپ و نیوون هایسن[۶۳] ، ۲۰۰۱) مثلا پرسشی زیر را در گوگل در نظر بگیرید .

link: www.umu.se/inforsk/ISSI۲۰۰۵/

این سوال ۱۱ نتیجه را در ۲۹ آگوست ۲۰۰۵ گزارش کرد ( ۱۰نتیجه نمایش داده شد ) . پرسش مشابه

link:http://www.umu.se/inforsk/ISSI۲۰۰۵

در یاهو ۹۶ نتیجه را گزارش کرد ( ۹۵ نتیجه نمایش داده شد ) . دومین و سومین نتایج (می خواستیم حداقل دو مکانیاب متحد منابع را برای پوشش به نتایج نمایش داده نشده ، برداریم ) در صفحات یاهو توسط گوگل نیز نمایه سازی شده اند .

اغلب مستندسازی که موتورهای جستجو فراهم می آورند ، قابلیتهای کلی موتورهای جستجو را منعکس نمی نماید. ویژگیهایی که وجود دارد ذکر نشدند ، درحالیکه ویژگیهایی که اعلام کرده اند ، بدرستی کار نمی کنند و یا وجود ندارند . مثلا ویژگی نشان دادن پیوند دامنه پیوند[۶۴] یاهو صفحاتی را که به یک وب سایت پیوند داده شده است را بازیابی می کند ( نوتس۲۰۰۴) ، هرچند فرا- واژه[۶۵] دامنه پیوند ( ویژگی بسیار مفیدی که به تجزیه و تحلیل پیوند می پردازد ) در یاهو ذکر نشده است (۲۰۰۵) .

اخیرا پیوند یاهو و گزینه های دامنه پیوند بدرستی کار نمی کنند ( حداقل یکی از آنها – به بحث میزگرد سرچ انجینواچ مراجعه نمائید ، ۲۰۰۵) بعنوان مثال تعداد نتایجی که یاهوبه پرسش

( ۵۳۶۰۰۰) link: http://www.huji.ac.il گزارش می کند در مقابل پرسش

( ۳۰۹۰۰۰) linkdomain: huji.ac.il در ۲۹ آگوست ۲۰۰۵ مقایسه شده است . چیزی بطور واضح اشتباه است ، وقتی که همه پیوندها به صفحه خانگی دانشگاه هبرو[۶۶] اشاره می کنند باید در پرسش دامنه پیوند بخوبی منعکس شود . هر چند تا زمانی که موتورهای جستجو ۱۰۰۰ نتبجه را نشان میدهند ، قادر نیستیم بررسی کنیم چه می گذرد. سعی کردیم تعدادی از سایتهای را که تعداد پیوندهای داخلی کمی دارند را ( به منظور دانستن اینکه در آنها چه می گذرد ) آزمایش نمائیم ، اما قادرنبودیم نتایج مشکوکی را در این موارد تهیه نمائیم .

بعضی مواقع در گوگل بنظر میرسد در " عملیات ریاضی موتورجستجو " کمی ضعیف است . مثلا ، در ۲۹ آگوست ۲۰۰۵ در بین ۵ دقیقه پرسشهای زیر را انجام دادیم :

پرز[۶۷] =۲۹۳۰۰۰۰ نتیجه

رابین[۶۸] =۱۲۳۰۰۰۰ نتیجه

رابین پرز[۶۹]=۱۳۸۰۰۰ نتیجه

رابین یا پرز ۲۲۸۰۰۰۰ نتیجه ( که باید درحدود ۴۰۲۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰+۲۹۳۰۰۰۰ باشد با پذیرش اینکه تعداد پیشین درست باشند ، اما در هر مورد تعداد نتایج باید بیشتر از ۲۹۳۰۰۰۰ باشد )

پرز – رابین =۱۵۴۰۰۰۰ نتیجه ( انتظار می رفت ۲۷۹۲۰۰۰ = ۱۳۸۰۰۰+۲۹۳۰۰۰۰ باشد )

رابین پرز = ۹۴۸۰۰۰ نتیجه ( این کاملا نزدیک به تعداد مورد انتظار نتایج ۱۰۹۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰ می باشد ) .

یک دلیل برای گزارش مساله برانگیز گزارش شده توسط یاهو یا گوگل ، می تواند این باشد که از زمانیکه تعداد نتایج بوضوح ، بیشتر از تعداد مدارک نشان داده شده است ، تعداد نتایج فقط یک تخمین نادرست است . همانطوریکه قبلا گفتیم ، قادر نبودیم مساله پیوند در برابر دامنه پیوند را در یاهو در دامنه های کوچک آزمایش نمائیم . هرچند برای گوگل ما می توانستیم مثالهای " کوچک " را بخوبی بیابیم . برای پرسشهای “digifee ” و " “transnova گوگل بترتیب ۷۹۲ و ۹۹۸ نتیجه را در ۳۰ آگوست ۲۰۰۵ گزارش نمود . پرسش" و" ۴ نتیجه را منعکس نمود ، هرچند برای پرسش " یا " ۳۶۵۰ نتیجه گزارش شده ، که بیشتر از تعداد دو پرسش منفرد بود ( ۱۷۹۰) – دوباره اینجا مورد اشتباهی وجود دارد. ورونیس[۷۰] ( ۲۰۰۵ الف ) توضیح ممکنی را برای پاسخهای عجیب پرسشهای بولی گوگل فراهم نموده است ، هرچند بنظر می رسد او پیشنهاد کند که این مشکلات تا پایان مارس ۲۰۰۵ حل شده باشد . ما جستجوهای مساله ساز را در پایان آگوست ۲۰۰۵ انجام دادیم .

نوشته :‌جودیت بار- ایلان[۲]

ترجمه :‌ رضا رجبعلی بگلو[۳]

منابع :

‌Albert, R., Jeong, H., & Barabasi , A.L.( ۱۹۹۹) . The diameter of the world wide web . Naturre, ۴۰۱, ۱۳۰- ۱۳۱.

AlltheWeb (۲۰۰۳). Query language.<http://web.archive.org/web/۲۰۰۳۱۰۰۲۰۱۴۳۱۴/http://www.alltheweb.com/help/faqs/query_language> (archived October ۲،۲۰۰۳، accessed September ۲، ۲۰۰۵)

AltaVista (۲۰۰۲). Searching Web elements.<http://web.archive.org/web/۲۰۰۱۰۴۱۳۱۶۰۱۵۵/doc.altavista.com/help/search/search_web_elements.html> (archived October ۴، ۲۰۰۱، accessed September ۲، ۲۰۰۲)

Ambrogi، R. J. (۱۹۹۵). Legal research on the Internet. A primer. <http://www.legaline.com> (accessed September ۱، ۲۰۰۵ )

Bar-Ilan، J. (۲۰۰۰). Evaluating the stability of the search tools HotBot and Snap: A case study. Online Information Review، ۲۴(۶)، ۴۳۹-۴۴۹.

Bar-Ilan، J. (۲۰۰۲). How Much Information Search Engines Disclose on the Links to a Web Page? – A Longitudinal Case Study of the ۰۳۹;Cybermetrics۰۳۹; Home Page. Journal of Information Science، ۲۸(۶).

Bar-Ilan، J. (no date). Web links and search engine ranking - The case of Google and the query “Jew”. To appear in the Journal of the American Society for Information Science and Technology.

Bar-Ilan، J. (۲۰۰۲a). Methods for Measuring Search Engine Performance over Time. Journal of the American Society for Information Science and Technology.، ۵۴(۳)، ۳۰۸-۳۱۹، ۲۰۰۲.

Bar-Ilan، J. (۲۰۰۲b). How Much Information Search Engines Disclose on the Links to a Web Page? –A Longitudinal Case Study of the ۰۳۹;Cybermetrics۰۳۹; Home Page. Journal of Information Science، ۲۸(۶) ۴۵۵-۴۶۶.

Bar-Ilan، J. (۲۰۰۵). What do we know about links and linking? A framework for studying links in academic environments. Information Processing and Management، ۴۱(۴)، ۹۷۳-۹۸۶.

Bar-Ilan، J. (۲۰۰۵b). Expectations versus reality – Web search engines at the beginning of ۲۰۰۵. In Proceedings of the ۱۰th International Conference of the International Society for Scientometrics and Informetrics، ۸۷-۹۶.

Bar-Ilan، J.، & Gutman، T. (۲۰۰۵). How do search engines respond to some non-English queries. Journal of Information Science، ۳۱(۱)، ۱۳-۲۸.

Bar-Ilan، J.، Levene، M.، & Mat-Hassan، M. (۲۰۰۴). Dynamics of search engine rankings – A case study. In Proceedings of the ۳rd International Workshop on Web Dynamics، New-York، May ۲۰۰۴. http://www.dcs.bbk.ac.uk/webDyn۳/webdyn۳_proceedings.pdf (accessed August ۳۱، ۲۰۰۵)

Bar-Ilan، J.، Mat-Hassan، M.، & Levene، M. (no date). Methods for comparing rankings of search engine results. To appear in Communication Networks. Preliminary version http://arxiv.org/abs/cs.IR/۰۵۰۵۰۳۹> (accessed September ۱، ۲۰۰۵)

Bharat، K.، & Broder، A. (۱۹۹۸). A technique for measuring the relative size and overlap of public Web search engines. In Proceedings of the ۷th International World Wide Web Conference، April ۱۹۹۸، http://www.ra.ethz.ch/CDstore/www۷/۱۹۳۷/com۱۹۳۷.htm (accessed September ۱، ۲۰۰۵)

Brewington، B. E.، & Cybenko، G. (۲۰۰۰). Keeping up with the changing Web. Computer، ۳۳(۵)، ۵۲-۵۸. Brin، S.، & Page، L. (۱۹۹۸). The anatomy of a large-scale hypertextual Web search engine. In Proceedings of the ۷th International World Wide Web Conference، April ۱۹۹۸.

<http://www-db.stanford.edu/pub/papers/google.pdf> (accessed September ۱، ۲۰۰۵)

Broder، A.، Kumar، R.، Maghoul، F.، Raghavan. P.، Rajagopalan، S.، Stata، R.، Tomlins، A. & Wiener،

J. (۲۰۰۰). Graph structure in the Web.http://www.cindoc.csic.es/cybermetrics/articles/v۹i۱p۲.html In Proceedings of the ۹th International World Wide Web Conference، May ۲۰۰۰. <http://www۹.org/w۹cdrom/۱۶۰/۱۶۰.html> (accessed September ۱،۲۰۰۵)

Callishain، T. (۲۰۰۴). Yahoo ’s groovy linkdomain syntax. ResearchBuzz.

<http://www.researchbuzz.org/yahoos_groovy_linkdomain_syntax.shtml> (updated May ۲۶، ۲۰۰۴، accessed September ۲، ۲۰۰۵)

Cheney، M. & Perry، M. (۲۰۰۵a). A comparison of the Yahoo and Google indices.

<http://vburton.ncsa.uiuc.edu/oldstudy.html> (updated ۱۶ August، ۲۰۰۵، accessed ۲۹ August، ۲۰۰۵)

Cheney، M. & Perry، M. (۲۰۰۵b). A comparison of the Yahoo and Google indices.

<http://vburton.ncsa.uiuc.edu /indexsizepage.html> (accessed ۲۹ August، ۲۰۰۵)

comScore (۲۰۰۵). comScore reports July ۲۰۰۵ search engine

rankings.<http://www.comscore.com/press /release.asp?press=۶۲۲ > (updated on ۱۹

August ۲۰۰۵، accessed on ۲۷ August، ۲۰۰۵).

Cyber Atlas (۲۰۰۰). Web pages by language.

<http://www.clickz.com/stats/sectors/demographics/article.php/۴۰۸۵۲۱> (updated

on ۵ July، ۲۰۰۰، accessed on ۲۷ August، ۲۰۰۵)

Dogpile (۲۰۰۵). Different engines، different results <http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf> (accessed September ۱، ۲۰۰۵)

Duffez، O. (۲۰۰۵). Google indexes more than ۱۰۱K per document. Search Engine News.

<http://www.prweaver.com/blog/۲۰۰۵/۰۴/۰۷/۱۷۰-google-indexes-more -than-۱۰۱k-per-document> (updated April ۷، ۲۰۰۵،accessed August ۲۹، ۲۰۰۵)

Faba -Perez، C.، Guerrero-Bote، V. P.، & De Moya -Anegon، F. (۲۰۰۳). Data mining in a closed Web

environment. Scientometrics، ۵۸(۳)، ۶۲۳-۶۴۰.

Fagin، R.، Kumar، R. and Sivakumar، D. (۲۰۰۳). Comparing top k lists. SIAM Journal on Discrete Mathematics، ۱۷(۱)، ۱۳۴-۱۶۰.

Fetterly، D.، Manasse، M.، Najork، M.، & Wiener، J. (۲۰۰۴). A large-scale study of the evolution of Web pages. Software: Practice and Experience، ۳۴(۲)، ۲۱۳-۲۳۷.

French، G. (۲۰۰۴). Tool compares Google and Yahoo algorithms. <http://www.webpronews.com/insiderreports/searchinsider/wpn-۴۹- ۲۰۰۴۰۳۱۲ToolComparesGoogleAndYahoo Algorithms.html> (updated March ۱۲، ۲۰۰۴، accessed August ۳۰، ۲۰۰۵)

Global Reach. (۲۰۰۴). Global Internet statistics (by language).<http://www.global-reach.biz/globstats/ > (updated on ۳۰ March،۲۰۰۴، accessed on ۲۷ August، ۲۰۰۵)

Google (۲۰۰۴). Google help: Cheat sheet .<http://web.archive.org/web/۲۰۰۴۱۱۲۸۰۰۴۷۵۳ AND /http://www.google.com/help/cheatsheet.html> (archived November ۲۸، ۲۰۰۴،accessed September ۱، ۲۰۰۵)

Google (۲۰۰۵a). Information for Webmasters.<http://www.google.com/webmasters/۴.html>

(accessed August ۲۹،۲۰۰۵)

Google (۲۰۰۵b). The basics of Google search .<http://www.google.com/intl/en/help/basics.html > (accessed August۲۹، ۲۰۰۵)

Google (۲۰۰۵c). Google Help: Cheat sheet. <http://www.google.com/help/cheatsheet.html>

(accessed September۱، ۲۰۰۵)

Google (۲۰۰۵d). Advanced search made easy <http://www.google.com/intl/en/help/refinesearch.html > (accessed September ۱، ۲۰۰۵)

Google (۲۰۰۵e). Google Web APIs (beta). <http://www.google.com/apis/reference.html>

(accessed Spetember۱، ۲۰۰۵)

Guggenheim، E.، & Bar-Ilan، J. (۲۰۰۵). Tauglichkeit von Suchmaschinen f ür deutschesprachige

Abfragen. Information، Wissenschaft und Praxis، ۵۶(۱)، ۳۵-۴۰.

Huberman، B. A.، & Adamic، L. A.، (۱۹۹۹). Growth dynamics of the World Wide Web. Nature، ۴۰۱، ۱۳۱.

Ingwersen. P. (۱۹۹۸). The calculation of Web Impact Factors. Journal of Documentation، ۵۴(۲)، ۲۳۶-۲۴۳.

Introna، L. D.، & Nissenbaum، H. (۲۰۰۰). Shaping the Web: Why the politics of search engines matters . The Information Society، ۱۶، ۱۶۹-۱۸۰.

Janes، J. W. (۲۰۰۴). LIS ۵۹۸. Google.<http://www.ischool.washington.edu/jwj/google/> (accessed September ۱، ۲۰۰۵)

Jansen، B. J.، Spink، A.، & Saracevic، T. (۲۰۰۰). Real life، real users and real needs: A study and analysis of user queries on the Web. Information Processing and Management، ۳۶، ۲۰۷-۲۲۷.

Kleinberg، J. M. (۱۹۹۸). Authoritative sources in a hyperlinked environment. Journal of the ACM، ۴۶(۵)، ۶۰۴-۶۳۲، ۱۹۹۹.

Kumar، R.، Novak، J.، Raghavan، P.، & Tomkins، A. (۲۰۰۳). On the bursty evolution of Blogspace، In

Proceedings of the ۱۲th International World Wide Web Conference، (pp. ۵۶۸-۵۷۶).<http://www۲۰۰۳.org/cdrom/papers/refereed/p۴۷۷/p۴۷۷-kumar/p۴۷۷- kumar.htm> (accessed September ۱، ۲۰۰۵)

Kumar، S. R.، Raghavan، P.، Rajagopalan، S.، & Tomkins، A. (۱۹۹۹). Trawling emerging cyber –communities automatically. In Proceedings of the ۸th International World Wide Web Conference ، May ۱۹۹۹. <http://www۸.org/w۸-papers/۴a-searchmining/trawling /trawling.html> (accessed September ۱، ۲۰۰۵)

Lawrence، S.، & Giles، C. L. (۱۹۹۸). Searching the World Wide Web. Science،۲۸۰ (۵۳۶۰)، ۹۸-۱۰۰.

Lawrence، S.، & Giles، C. L. (۱۹۹۹). Accessibility of information on the Web.Nature، ۴۰۰، ۱۰۷-۱۰۹.

Mettrop، W.، & Nieuwenhuysen، P. (۲۰۰۱). Internet search engines - fluctuations in document

accessibility. Journal of Documentation، ۵۷(۵)، ۶۲۳-۶۵۱.

MSN (۲۰۰۵). Search builder and advanced search options.<http://search.msn.com/docs/help.aspx?t=SEARCH_REF_AdvSrchOperators.htm> (accessed September ۱، ۲۰۰۵)

MSN (۲۰۰۵b). New operators explained. MSN Search’s Weblog.<http://blogs.msdn.com/msnsearch/archive/۲۰۰۵/۰۶/۲۴/۴۳۲۴۳۹.aspx> (updated June ۲۴، ۲۰۰۵، accessed September ۲،۲۰۰۵)

Notess، G. (۲۰۰۰). Search engine inconsistencies. Online (March ۲۰۰۰).

<http://www.onlinemag.net/OL۲۰۰۰/net۳.html> (accessed September ۱، ۲۰۰۵)

Notess، G. (۲۰۰۵). Yahoo! Review on Search Engine Showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/features/yahoo/review.html > (updated April ۲۵، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵).

Notess، G. (۲۰۰۵b). Long word showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/stats/longwords.shtml> (updated March ۵، ۲۰۰۵،accessed September ۲، ۲۰۰۵).

Olsen، S. (۲۰۰۱). AltaVista serving up out-of-date listings. <http://news.com.com/۲۱۰۰ -۱۰۲۳-۲۷۴۸۳۹.html?legacy=cnet> (accessed September ۱، ۲۰۰۵)

Oxford Dictionary (۱۹۸۹). Reliability.<http://dictionary.oed.com/cgi /entry/۵۰۲۰۲۰۰۲?query_type =word&queryword=reliability&first=۱&max_to_show=۱۰&single=۱&sort_type=alpha> (accessible through subscription، accessed January ۱۵، ۲۰۰۵).

Price، G. (۲۰۰۵). More on the total database size battle and Googlewhacking with Yahoo.Searchenginewatch.<http://blog.searchenginewatch.com/blog/۰۵۰۸۱۱-۲۳۱۴۴۸>

(updated ۱۱ August، ۲۰۰۵، accessed ۲۸ August، ۲۰۰۵).

Rousseau، R. (۱۹۹۹). Daily time series of common single word searches in AltaVista and NorthernLight. Cybermetrics، ۲/۳(۱)، paper ۲.<http://www.cindoc.csic.es /cybermetrics /articles/v۲i۱p۲.html > (accessed September ۱، ۲۰۰۵)

Shim، R.، & Kanellos، M. (۲۰۰۴). Google downed by latest MyDoom. Retrieved January ۱۳، ۲۰۰۵، from <http://news.zdnet.co.uk/internet/۰،۳۹۰۲۰۳۶۹،۳۹۱۶۱۶۷۸،۰۰.htm>

(accessed September ۱، ۲۰۰۵)

Searchenginewatch Forum (۲۰۰۴). Google say not reporting all backlinks. <http://forums.searchenginewatch.com/showthread.php? t=۲۴۲۳&page=۲&pp=۲۰> (updated November ۱۸، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵)

Searchenginewatch Forum (۲۰۰۵). Ridiculous increase in Yahoo backlink counts & is bigger index real? <http://forums.searchenginewatch.com/showthread.php?threadid=۷۱۹۵> (updated August ۴، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵)

SEMPO (۲۰۰۴). Summary report: The state of search engine marketing ۲۰۰۴. <http://www.sempo.org/research /SEMPO-Market-Sizing -۲۰۰۴-SUMMARY-v۱.pdf> (accessed September ۱، ۲۰۰۵)

Smith، Alastair (۱۹۹۹). ANZAC webometrics: exploring Australasian Web structures. In Proceedings of Information Online and On Disc ۹۹: Strategies for the next millennium. Sydney، Australia، ۱۹-۲۱ January ۱۹۹۹ [Sydney]:ALIA، ۱۹۹۹. Pp ۱۵۹-۱۸۱. <http://www.csu.edu.au /special/online۹۹/proceedings۹۹/۲۰۳b.htm> (accessed August ۳۰، ۲۰۰۵).

Snyder، H. & Rosenbaum، H. (۱۹۹۹). Can search engines be used as tools for web-link analysis? A critical view. Journal of Documentation، ۵۵، ۳۷۵-۳۸۴.

Spink، A.، & Jansen، B. J. (۲۰۰۴). Web search: Public searching the Web.London: Springer.

Statistical Cybermetrics Research Group (۲۰۰۴ a). SocSciBot۳.<http://socscibot.wlv.ac.uk/help /tutorial۳.html > (accessed September۱، ۲۰۰۵)

Statistical Cybermetrics Research Group (۲۰۰۴b). The academic weblink database project.

<http://cybermetrics.wlv.ac.uk/database/> (accessed September ۱،۲۰۰۵)

Sullivan، D. (۱۹۹۸). Northern Light add search functions، freshens index.

<http://searchenginewatch.com/sereport/article.php/۲۱۶۶۴۷۱ (accessed September ۱، ۲۰۰۵)

Sullivan، D. (۲۰۰۴a). Major search engines and directories.<http://searchenginewatch.com/links/article.php/۲۱۵۶۲۲۱> (accessed September ۱، ۲۰۰۵)

Sullivan، D. (۲۰۰۵). Search engine sizes. Searchenginewatch.<http://searchenginewatch.com/reports/article.php/۲۱۵۶۴۸۱> (updated ۲۸ January، ۲۰۰۵ ، accessed August ۲۸، ۲۰۰۵).

Sullivan، D. (۲۰۰۴c). Yahoo reawakens the paid inclusion debate.Searchenginewatch. <http://searchenginewatch.com/searchday/article.php/۳۳۵۵۲۲۱> (accessed

September ۱، ۲۰۰۵)

Sullivan، D. (۲۰۰۴d). Search engine size wars V erupts. Searchenginewatch. <http://blog.searchenginewatch .com/blog/۰۴۱۱۱۱-۰۸۴۲۲۱> (updated November

۱۱، ۲۰۰۴، accessed August ۲۹، ۲۰۰۵)

Thelwall، M. (۲۰۰۰a). Web impact factors and search engine coverage. Journal of Documentation، ۵۶، ۱۸۵-۱۸۹.

Thelwall، M. (۲۰۰۱). A web crawler design for data mining، Journal of Information Science ۲۷(۵)، ۳۱۹-۳۲۵.

Thelwall، M. (۲۰۰۱b). The responsiveness of search engine indexes. Cybermetrics، ۵(۱)، paper ۱. <http://www.cindoc.csic.es/cybermetrics/articles/v۵i۱p۱.html> (accessed September ۱، ۲۰۰۵)

Thelwall، M. (۲۰۰۳). What is this link doing here? Beginning a fine-grained process of identifying reasons for academic hyperlink creation. Information Research، ۸(۳).

<http://informationr.net/ir/۸ -۳/paper۱۵۱.html> (accessed September ۱، ۲۰۰۵)

Thelwall، M. (۲۰۰۵). Link analysis: An information science approach. San Diego: Academic Press.

Vaughan، L. (۲۰۰۴). New measurements for search engine evaluation proposed and tested. Information Processing and Management، ۴۰ (۴)، ۶۷۷-۶۹۱.

Van Couvering، E. (۲۰۰۴). New media? The political economy of Internet search engines. Paper presented at the Annual Conference of the International Association of Media & Communications Researchers، Porto Alegre، Brazil.<http://personal.lse.ac.uk/vancouve/IAMCR-CTP _SearchEnginePolitical Economy_EVC_۲۰۰۴-۰۷-۱۴.pdf> http://personal.lse.ac.uk/vancouve /IAMCR-CTP_SearchEnginePoliticalEconomy_EVC_۲۰۰۴ -۰۷-۱۴.pdf> (accessed September ۳، ۲۰۰۵)

Veronis، J. (۲۰۰۵a). Google’s missing pages. Mystery solved? Technologies du Langage. <http://aixtal.blogspot.com/۲۰۰۵/۰۲/web-googles -missing-pages-mystery.html>

(updated February ۸، ۲۰۰۵،accessed October ۱۷، ۲۰۰۵)

Veronis، J. (۲۰۰۵b). Google: A snapshot of the update. Technologies du Langage. <http://aixtal.blogspot.com/۲۰۰۵/۰۳/google-snapshot-of -update.html> (updated

March ۲۵، ۲۰۰۵، accessed October ۱۷، ۲۰۰۵)

Whatis.com (۲۰۰۲). Googling.<http://searchwebservices.techtarget.com/sDefinition/۰،،sid۲۶_gci۷۹۹۳۶۷،۰۰.html> (updated March ۹، ۲۰۰۲، accessed September ۱، ۲۰۰۵)

Wikipedia (۲۰۰۵). Google bomb.<http://en.wikipedia.org/wiki/Googlebomb> (updated August ۲۹،۲۰۰۵، accessed September ۱، ۲۰۰۵)

Wouters، J. J. (۲۰۰۴). Searching for disclosure: How search engines alert consumers to the presence of advertising in search results.<http://www.consumerwebwatch.org/news/paidsearch/finalreport.pdf> (accessed September ۱، ۲۰۰۵)

WWW۱۰ Panel (۲۰۰۱). Search: Beyond the keyword interface. At The ۱۰th International World Wide Web Conference، Hong-Kong، May ۲۰۰۰. Outline.<http://www۱۰.org/program/w۱۰-panel.shtml> (accessed September۱، ۲۰۰۵)

Yahoo (۲۰۰۵). Help: Using meta search words to find specific URLs، subpages، link popularity and more. http://help.yahoo.com/help/us/ysearch/tips/tips-۰۸.html (accessed ۲۹ August، ۲۰۰۵).

پانوشتها:

[۱] International Journal of Scientometrics، Informetrics and Bibliometrics ISSN ۱۱۳۷-۵۰۱۹، VOLUME ۹ (۲۰۰۵): ISSUE ۱. PAPER ۲

[۲] Judit Bar – Ilan

[۳] rezarajab_beglou@yahoo.com

[۴] Multidisciplinary

[۵] Thelwal

[۶] Albert، Jeong & Barabasi،

[۷] SocSciBot

[۸] Crawler

[۹] CYBER metrics

[۱۰] Spink

[۱۱] Jansen

[۱۲] Huberman & Adamic،

[۱۳] Broder

[۱۴] Fetterly

[۱۵] http://www.archive.org

[۱۶] Sullivan

[۱۷] http://www.teoma.com

[۱۸] http://beta.exalead.com/search

[۱۹] Comscore

[۲۰] Stability

[۲۱] ‌Timeliness

[۲۲] snapshot

[۲۳] Brewington and Cybenko’s (۲۰۰۰) (a،ß)-currency measure.

[۲۴] Timeouts

[۲۵] Spammers

[۲۶] Placement

[۲۷] Inlinks

[۲۸] Anchors

[۲۹] Snippet

[۳۰] Cached results

[۳۱] Cyber Atlas

[۳۲] Globalstats

[۳۳] API (application programming interface )

[۳۴] Partial Results

[۳۵] NEAR

[۳۶] ADJACENT

[۳۷] Relative links

[۳۸] Embedded content links

[۳۹] WWW۱۰ Panel، ۲۰۰۱

[۴۰] Stemming

[۴۱] Truncation

[۴۲] Wildcard

[۴۳] Case sensitivity

[۴۴] Co-word

[۴۵] Lycos

[۴۶] Ambrogi

[۴۷] Lawrence and Giles

[۴۸] Sullivan

[۴۹] Price

[۵۰] Cheney and Perry

[۵۱] Snyder and Rosenbaum

[۵۲] Djibouti

[۵۳] Suriname

[۵۴] Notess

[۵۵] Rousseau

[۵۶] Hotbot

[۵۷] Snap

[۵۸] stability

[۵۹] Wouters

[۶۰]placement

[۶۱] inclusion

[۶۲] Searchenginewatch forum

[۶۳] Mettrop & Nieuwenhuysen

[۶۴] Linkdomain

[۶۵] Meta – word

[۶۶] Hebrew

[۶۷] Peres

[۶۸] Rabin

[۶۹] Rabin Peres

[۷۰] Veronis

[۷۱] Exclusion

[۷۲] help pages

[۷۳] Locate

[۷۴] Northern Light

[۷۵] Olsen

[۷۶] Wikipedia

[۷۷] Prince Harry

[۷۸] Cached Copy

[۷۹] Active Page

[۸۰] Lycos

[۸۱] Header text

[۸۲] Mirror Site

[۸۳] PDF

[۸۴] Duffez

[۸۵] MyDoom Worm

[۸۶] Shim & Kanellos،

[۸۷] French، ۲۰۰۴

[۸۸] AltaVista’s email answer to Alastair Smith’s query ۱۹۹۹

[۸۹] Introna and Nissenbaum)۲۰۰۰)

[۹۰] sponsored links

[۹۱] Van Couvering (۲۰۰۴)

[۹۲] Paid inclusion

[۹۳] competing pages

[۹۴] SEMPO

[۹۵] Janes

[۹۶] Daterange

[۹۷] Julian

[۹۸] Google’s advanced

[۹۹] Dogpile

[۱۰۰] Amanda Spink and Jim Jansen

[۱۰۱] Vaughan

[۱۰۲] Fagin

[۱۰۳] Levene and Mat-Hassan

[۱۰۴] clustering

[۱۰۵] Gutman

[۱۰۶] Guggenheim

[۱۰۷] http://www.google.com/apis

[۱۰۸] http://developer.yahoo.net

[۱۰۹] Backlinks

[۱۱۰] Callishain

[۱۱۱] Navigation

[۱۱۲] Snippets

[۱۱۳] Dialog

[۱۱۴] Web of Science

[۱۱۵] Lennart Bjorneborn

[۱۱۶] Webomet


شما در حال مطالعه صفحه 1 از یک مقاله 2 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.