دوشنبه, ۱۸ تیر, ۱۴۰۳ / 8 July, 2024
مجله ویستا

انتظارات دربرابر واقعیتها ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵


انتظارات دربرابر واقعیتها ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵

شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ویژگیها , قابلیتها و رویكردها و روشهای عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند

● چکیده

تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است . اغلب داده های جمع آوری شده ، توسط موتورهای جستجو صورت می گیرد . در این مقاله ما " لیست آرزویی " مان را برای موتور جستجو مناسب و ایده آل توصیف کرده ایم ، و نیاز به ویژگیهای بخصوص تشریح شده ، و اینکه موتورهای جستجوی عمده کنونی موجود می توانند ، حداقل تا اندازه ای ، نیازمندیهای یک ابزار جستجویی مطلوب و نهایی را برآورده سازند آزمایش شده است . ابزارهای جستجویی عمده تجاری هستند و بسوی کاربر " حد متوسط " متمایل شده اند نه بسوی محققین شبکه ، بنابراین قادرنیستند همه درخواستها را برآورده سازند . یك راه حل ممکن برای جامعه تحقیق بکارگیری بودجه لازم ، منابع ، و دانستن اینکه چگونه ابزار جستجویی تحقیق مدار ایجاد نمایند ، می باشد .

● مقدمه

با وجود اینكه شبکه تنها ۱۵ سال است که بوجود آمده است ، یک منبع اطلاعاتی عمده و رسانه ارتباطی شده است و تاثیر خود را بر رفتار اطلاعاتی و ارتباطاتی هم در زندگی روزمره و هم در زندگی علمی داشته است . تحقیقات شبکه ای چند رشته ای[۴] است . این تحقیقات بطور گسترده ای توسط دانشمندان رایانه و اطلاعات ، جامعه شناسان ، اقتصاددانان ، زبان شناسان ، روانشناسان ، دانشمندان ارتباطات و دیگران صورت می پذیرد . به منظور انجام مطالعه بر روی شبکه ، بیشتر محققان نیازمند داده هستند . بعضی از محققین قادرند ( ازهر دو لحاظ فنی و اقتصادی ) ابزارهایی برای جمع آوری داده های ضروری را از شبکه ایجاد نمایند . سوسیبات[۷] توسط تیم ثلوال توسعه یافته است و برای هر کسی که منابعی دارد که می تواند توسط خزنده[۸] اداره شود و بروندادهای آن قابل ذخیره باشند ، و نتایج جستجوهای ویژه برای بارگیری در دسترس است ، بصورت رایگان قابل استفاده است. دیگران به اندازه كافی خوش شانس بودند تا به داده های جمع آوری شده توسط ابزارهای جستجو تجاری دسترسی داشته باشند . بعضی از مطالعات شبكه ای توسط محققانی كه در مورد موتورهای جستجو كار می كردند اجرا شده است ، بنابراین آنها می توانستند به شبكه خزیده یا به داده های پایگاه داده موتورهای جستجو دسترسی یابند .

دیگر محققین به آنهایی كه خوش شانس و مبتكر بوده اند و می توانستند رایگان به ابزارهای بازیابی اطلاعات دسترسی داشته باشند ، غبطه می خورند : به موتورهای جستجو ، یا به پایگاههای داده پروژه های نگهداری شبكه . امروزه پروژه های نگهداری شبكه نیز دسترسی محدودی بوجود آورده اند ( بدلیل مشكلات حق مولف ) یا حداقل ابزارهای بازیابی و یا غیر متنی را فراهم می نمایند ، بنابراین برای استفاده تحقیقات شبكه بسیار محدودند . لذا بهترین ابزارهای جستجوی رایگان موتورهای جستجو هستند . چشم انداز موتورهای جستجو در سالهای اخیر تحت تغییرات عمده ای قرار گرفته اند ، و معمولا تنها چند بازیگر عمده معدود وجود دارد گوگل، یاهو ، اسكجیوز/ تئوما[۱۷] ، و ام.اس.ان. . در این مقاله ما گوگل ، یاهو و ام.اس.ان. را در نظر گرفته ایم ( هم اكنون اسكجیوز/ تئوما تعدادی از ویژگیهای عمده تحقیقات شبكه ای ، مثل پیوند به صفحات را دارانیست ) . اگزالید[۱۸] تازه واردی به صحنه جستجو است و تنها چیزی كه باقی می ماند اینست ، ببینیم چگونه در آینده توسعه می یابد . موتورهای جستجوی اضافی با قابلیتهای بخصوص و مرتبط به تحقیقات شبكه ای ، میتواند وجود داشته باشند ، اما به عقیده ما پوشش ابزارهای جستجو یك ویژگی مركزی است ( مثلا در این مورد ، اندازه فرق می كند ) و بنابراین آزمودن ابزارهای جستجو تنها محدود به این موتورهای جستجو می شود . با توجه به کامسکور[۱۹] ( ۲۰۰۵) ، گوگل ، یاهو و ام.اس.ان. با هم و در مجموع ۵/۸۲ % از نتایج شبكه ای در جولای ۲۰۰۵ را تشكیل داده اند .

نمای كلی مقاله بدین ترتیب است : اول ویژگیهای مطلوب را فهرست كرده و اهمیت آن را برای تحقیقات شبكه ای توضیح می دهیم . بعد آزمایش می كنیم كه آیا سه موتور جستجویی كه در بالا ذكر شدند این التزامات را به انجام می رسانند و در نهایت دریافتمان را از یافته ها به بحث می گذاریم . موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین می خواهیم بر این نكته تاكید داشته باشیم،‌ مواردی كه درباره این ابزارها بدست آمده بر اساس یافته های ما در اواسط آگوست ۲۰۰۵ می باشد . برای پشتیبانی یافته ها ، ما هر مثالی را كه در مقاله ارائه شده ، ذخیره و‌ مستند كرده ، و نسخه های ذخیره شده مثالهای جستجو و دیگر مستند سازیهایی كه مقاله بر اساس آن شكل گرفته در اختیار علاقمندان قرار داده می شود .

● انتظارات – لیستی از معیارها برای موتورهای جستجو :

۱) پوشش

اگر بدنبال تولید معیارهای کمی باشیم ، سپس پوشش ابزار جستجو باید همسان ( همه دامنه های موجود) و جامع باشد . این برای معیار سنجش اندازه سایت یا دامنه و یا رویت پذیری آن ضروری است . ( مثلا تعداد لینکهای داخلی و خارجی ) ، اما الزامات اساسی برای نمونه گیری سایتها و صفحات وب می باشد . این خواسته بطور ۱۰۰ درصد قابل دستیابی نیست : صفحات وب جدید بطور پیوسته ایجاد میشوند و غیر ممکن است آنها را بطور مداوم ذخیره کرد . هنوز می خواهیم موتور کاوش تا حد ممکن ، بسیاری از صفحات وب را پوشش دهد .

۲) پایایی [۲۰]

با توجه به به واژه نامه آکسفورد پایایی " مقداری است که یک معیار در شرایط یکسان و برابر بطور مستمر نتایج هماهنگ و موزونی بوجود می آورد " . برای اینكه قادر به کار کردن با این موتورهای جستجو باشیم ، مجموعه نتایج باید برای یک دوره کوتاه زمانی ( مثلا یک ساعت یا یک روز ) پایدار( یا تقریبا پایدار) باشد . این که نتایج جستجو در طول زمان تغییر می کند ، قابل پذیرش است ، زیرا تغییرات پویا در شبکه رخ می دهد و پایگاه داده موتورهای جستجوی بروز میشوند . هرچند ، هنگامی که مشخص شوددلایل تغییرات عمده ، با دلایل ذکر شده در بالا بوجود نمی آیند ، اگر نوسانات عمده ای در نتایج بازیابی بوجود آید ، قابل پذیرش نیست .

۳) مستندسازی شفاف ، بی پرده و واضح

شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ویژگیها ، قابلیتها و رویكردها و روشهای عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند . به منظور این كه قادر باشیم از نتایج ابزارهای جستجویی برای تحقیقات اینترنت استفاده كنیم ، ضروری است که ویژگیهای موتورهای جستجو با توجه خصوصیات ذكر شده عمل نماید و اگر استفاده کنندگان از این ویژگیها آگاه نیستند باید هر چه زودتر مطلع شوند .

۴) بهنگام بودن[۲۱]

پایگاه داده موتورهای جستجو باید بطور متناوب بروز شوند ، تا تصویر فوری[۲۲] که موتورهای جستجو از شبکه دارند ، باید هرچه بیشتر شبیه به واقعیت شبکه باشد . تازگی پایگاه داده با معیار ( آلفا و بتا) بریوتون و سیبنکو [۲۳] ، قابل اندازه گیری است .

۵) نمایه سازی تمام مدرك

هنگامی که قصد ما ایجاد لیستی جامع ازمدارك است ، داشتن یک ویژگی معین مبتنی بر متن ، سپس حتی اگر عبارت جستجو در پائین مدرك ظاهر شود( مثلا در منابع كتابشناختی )مدرك باید بخشی ازاین لیست باشد .

۶) زمان پاسخگویی ، دسترس پذیری

وقفه ها[۲۴] می توانند باعث مشکلات پایایی شوند ،زیرا این وقفه ها ممکن است تعداد نتایج بازیابی را تغییر دهند( كه اغلب بدون اینکه موتور جستجو اطلاعاتی درباره تغییرات ناگهانی در نتایج ، گزارش نمایند ، همراه است ). یک ابزار جستجو كه غیر دسترس پذیر یا دارای وقفه های زیادی است ، تداخلهای زیادی در فرایند جستجو ایجاد می نماید . زمانیکه شبکه به خودی خود پویاست واجب است که همه جستجوها برای یک تحقیق معین در کوتاهترین بازه زمانی ممکن انجام شود .

۷) عینیت – بدون تاثیر از عوامل تجاری و بدون تاثیربرمحیط

ما بدنبال ابزاری کامل می گردیم که به هیچ وجه سوگیری نداشته باشد و ما را قادر سازد تا شبکه را درحالیکه از این ابزار استفاده می کنیم ، مورد مطالعه قرار دهیم ، و نه بررسی تصویری که از طریق " چشمهای موتور جستجو " به ما رسیده است ،‌ بپردازیم . این درخواست مطلوب ماست . هدف واقعی ما نزدیک شدن به این وضعیت است . موتور جستجو باید ابزاری باشد که اجازه دهد تا از طریق آن به اطلاعات دسترسی داشته باشیم . موتور جستجو نباید خود شبکه را تحت تاثیر خود قرار دهد .

۸) همه نتایج گزارش شده باید قابل بازیابی باشند

شمارش مدارك و واژه ها اغلب برای تحقیقات شبکه ای نارساست ( مخصوصا وقتی که این تعداد غیر قابل اعتماد باشند ) . برای مطالعه خود مدارك ، مجبوریم به آنها دسترسی داشته باشیم . بنابراین دانستن اینکه مثلا ۱۱۲۰۳۳۴۹ صفحه وجود دارد که موتور جستجو بعنوان مدرک مرتبط با جستجو نشان داده ، اما قادر به دسترسی به تنها ۱۰۰۰ نتیجه از آنهاست ، رضایت بخش نیست . توانایی بازیابی تمام مجموعه نتایج ، و نه تنها ۲۵۰ یا ۱۰۰۰ مدرک اول برای تحقیق شبکه ای موفق ، ضروری است .

۹) رتبه بندی ، گزینه های مختلف دسته بندی

بسته به موضوع تحقیق ، همیشه نمی خواهیم به نتایج جستجو بنگریم ، و اغلب نمی توانیم ( معمولا، موتورهای جستجو تمامی مجموعه نتایج را نشان نمی دهند ). در این موارد رتبه بندی بسیار مهم می شود . الگوریتم رتبه بندی رازی است كه بخوبی حفظ شده است ،هم بخاطر رقابت و هم بخاطر اسپم کنندگان[۲۵] بالقوه . در یک ابزار جستجوی مطلوب ، محققین شبکه باید قادر باشند مولفه هایی را که در رتبه بندی تاثیر می گذارند ، بکار گیرند ( از قبیل تاریخ ، وزن واژگانی ، مکاندهی[۲۶] ، پیوندهای خارجی [۲۷]، لنگرها[۲۸] .)

۱۰) نمایش انعطاف پذیر برونداد

اینجا ، منظور ما توانایی انتخاب تعداد نتایج در هر صفحه ، چه اطلاعاتی نمایش داده شود ( مثلا فقط مکانیاب جهانی شبکه، جزئیات[۲۹] ، اندازه ، عنوان ، مکانیاب جهانی شبکه ، زبان ) آیا نتایج باید خوشه بندی شوند یا نه ، و آیا نمونه ای از صفحات هر وب سایت نمایش داده شود( این گزینه انقضاء سایت نامیده میشود ). التزام بعدی قادر بودن به انجام تنظیمات می باشد. مرور آسان مجموعه نتایج نیز مورد نیاز است ، مثلا توانایی پرش سریع به رویت مدرک ۸۴۵ .

۱۱) نتایج پنهان[۳۰]

توانایی رویت نتایج پنهان ویژگی مفید دیگری است . به محقق کمک می کند تا بداند چرا مدرک بازیابی شده است ( اغلب صفحات بین زمانی که توسط موتورهای جستجو رویت شده و زمانیکه توسط استفاده کننده رویت می شوند ، تغییر می نماید ) . بعلاوه ، اگر زمانیکه میزبان صفحه موجود نیست یا قابل دسترس نیست ، فرد قادر خواهد بود نسخه پنهان را ببیند .

۱۲) کیفیت بازیابی بالا در زبانهای غیرانگلیسی

این مورد بسیار مشکل ساز است : وقتی که در سال ۲۰۰۰ حدود ۷۰% صفحات شبکه به زبان انگلیسی ، تخمین زده شده اند ، در سال ۲۰۰۴ دو سوم استفاده کنندگان از شبکه متکلم غیربومی زبان انگلیسی هستند . تحقیقات بازیابی اطلاعات بطور فزاینده ای بسوی زبان انگلیسی در حال حرکت است . موتورهای جستجوی اصلی ، استفاده کنندگان را قادر می سازند تا به زبانی غیر از زبان انگلیسی و به خوبی آن جستجو نمایند ، و معمولا بدلیل عدم رضایت از ابزارهای جستجویی در زبانهای بومی ، این ابزارها که در اصل برای بازیابی در زبان انگلیسی توسعه یافته اند ، برای جستجو در دیگر زبانها نیز بکار می روند (البته استثناهایی وجود دارد ، مثلا زبان روسی ). برای زبانهایی که درآن ترکیبات ، صرف فعل و پیشوندها بسیاراستفاده می شوند و برای بازیابی در زبان انگلیسی پایه ماشینی دارند ، بسیار دور از شایستگی است . تحقیقات شبکه الزاما بر روی انگلیسی تمرکز ندارد ، و بازیابی اطلاعات باید بطورکلی در دیگر زبانها نیز به خوبی زبان انگلیسی باشد .

۱۳) رابط اعمال برنامه ریزی[۳۳] در دسترس

یك رابط اعمال برنامه ریزی ( ای.پی.آی.) قابل دسترس ، محلی سازی و توسعه مفید ابزارها و رابطهای مبتنی بر ویژگیهای قابل دسترس موتورهای جستجو، را ممكن می سازد.

۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها

نیازی به تشریح این ویژگی نیست . این ویژگی به محقق اجازه می دهد تا جستجوها با نیازهای وی ، متناسب شوند . واژگان جبری ، و ، یا ، و نه مجموعه ای کامل از عملگرها هستند ،هر گزاره جبری می تواند بعنوان ترکیبی از گزاره ها که فقط با این عملگرها مرتبطند ظاهر شوند . این ترکیبات استفاده از پرانتز را ضروری می سازد . بنابراین ما نه تنها نیازمند به و ، یا ، و نه هستیم بلکه به طریق دیگری ( پرانتز یا ستفاده دوباره از نتایج نسبی[۳۴] ) به منظور قابلیت بیان کامل جبری ، نیاز داریم . هرچند این نیز کافی نیست ، برای بازیابی متن نیازمندعملگرهای اضافی مثل جستجوی عبارتی ، قرابت[۳۵] یا همجواری[۳۶] می باشیم( با تعاریف منعطف ، اینکه این عملگرها چه معنی می دهند). همچنین نیازمند آنیم تا قادر باشیم جستجوهای مستقل نه را برای تخمین اندازه انجام دهیم .


شما در حال مطالعه صفحه 1 از یک مقاله 6 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.