دوشنبه, ۱۳ اسفند, ۱۴۰۳ / 3 March, 2025
مجله ویستا
اینترنت: سازماندهی و جستجو
مقدمه
رشد اینترنت شگفتآور شده است. با توجه به تحقیق میدانی در سال ۱۹۹۶ این رشد تصاعدی همچنان ادامه دارد. و تخمین زده شده كه شبكه از نظر اندازه و حجم هر ۱۲ تا ۱۵ ماه دوبرابر میشود. بطور تقریبی ۰۰۰/۱۰۰ وبگاه در اگوست ۱۹۹۵ وجود داشته و این تعداد در اگوست ۱۹۹۶ به ۰۴۱/۵۳۶ رسیده است. از آنجائی كه هر پایگاه میتواند بسیاری از صفحات وب را در خود داشته باشد این باعث میشود كه تعداد بیشتری از صفحات وب بوجود آید. در حالیكه كیفیت بسیاری از صفحات ممكن است مورد سؤال باشد و نگهداری بسیاری از صفحات پراكنده است. اما صفحات معتبری هم وجود دارد كه اطلاعات با ارزشی در مورد بسیاری از موضوعات ارائه میدهد. آنچه استفادهكنندگان به آن نیاز دارند یك سیستم جداكننده است كه مو از ماست بكشد.تلاشهای زیادی صورت گرفته كه این وظیفه را آسان كند: كتابداران و متخصصان موضوعی راهنماهای موضوعی را گردآوری كردهاند.«اخبار كتابخانههای تحقیقاتی و دانشكدهای»۱ بطور دورهای راهنماهای منابع اینترنتی را در موضوعات انتخابی منتشر میكند. علاوه بر آن فهرستنویسان Intercat را (كه یك فهرست آزمایشی برای اینترنت است) بوجود آوردهاند. OCLC نیز پایگاه Netfirst را برای نمایهسازی منابع اینترنت با سرعنوانهای موضوعی كتابخانه كنگره و اعداد طرح دهدهی دیویی ایجاد كرده است. كتابداران مرجع یك پایگاه وب را به نام Infofilter بوجود آوردهاند كه مرور منابع اینترنتی را به اشتراك بگذارند و كتابداران ردهبندی موضوعی را برای سازماندهی منابع اینترنت مورد آزمایش قرار دادهاند. اما چیزی كه بیشترین توجه استفادهكنندگان اینترنت را به خود معطوف داشته است، احتمالاً عنكبوتها و روباتهایی هستند كه خدمات جستجو را انتخاب میكنند. برای بسیاری از جستجوگران اینترنت، این موتورها با راه دادن آنها به فضای اطلاعاتی عظیم كمك موقتی ارائه میدهند. كاربران اینترنت بزودی فهمیدند كه این موتورها كامل و مناسب نیستند زیرا آنها منطقه جغرافیایی خاصی را پوشش میدهند، بصورت متفاوت نمایهسازی میشوند و منابع را با كلیدواژهها بازیابی میكنند. استفادهكنندگان هرگز نمیتوانند اعتماد كنند كه یك جستجو جامع یا قطعی باشد. با وجود اینكه نتایج بازیابی ظاهراً بوسیله میزان ارتباط مرتب شده است و استفادهكنندگان مبارزه با ریزش كاذب مواد تكراری و نامربوط را ادامه میدهند. در كل پیشرفت خوبی در كمك به استفادهكنندگان برای جهتیابی در اینترنت بوجود آمده، اما این ابزارها آنقدر زیاد هستند كه انتخاب صحیح یكی از آنها كار سختی است.علاوه بر آن انتخاب موتورهای جستجوی مناسب ممكن است برای استفادهكنندگان عمومی و نیز كتابداران، به علت رویههای پیچیده، مهمتر باشد. بعنوان مثال، اینفوسیك سرویس رایگان دارد، اما سرویسهای هزینه بر، یعنی متخصصان اینفوسیك، نمایهء بزرگتر و قابلیتهای جستجوی قویتر ارائه میدهند. وب كروكر یك درخواست حق عضویت دارد كه زمانی آن را تحمیل میكند. اگر این عمل در مقابل هزینه برای خدمات یك رویه شود، لازم خواهد بود برای استفاده كنندگان و بخصوص كتابداران كه بدانند كدامیك از موتورهای جستجو را باید به خدمت بگیرند.
این تحقیق تلاش كرده كه كارآیی موتورهای كاوش را در آدرس دهی نیازهای اطلاعاتی ارزیابی كند. آیا آنها میتوانند جوابهایی برای سؤالات مرجع واقعی بازیابی كنند؟ آیا آنها منابع خوبی برای سؤالات موضوعی ارائه میدهند؟ آنها تا چه حد نتایج جستجو را براساس میزان ارتباط مرتب میكنند؟ كدامیك از موتورهای جستجو بهتر عمل میكنند؟ جواب این سؤالات به ما كمك خواهد كرد كه نقاط ضعف و قوت موتورهای كاوش را بهتر بفهمیم و ما را قادر میسازد كه برای برطرف كردن نیازهای اطلاعاتی موتور كاوش مناسب را انتخاب كنیم.
پیشینه پژوهش
موتورهای كاوش بسیاری موجود هستند و براحتی در دسترس قرار میگیرند Netsearch متعلق به نت اسكیپ و www by subject or keyword مربوط به كتابخانه كنگره، هر دو با هم موتورهای كاوش اصلی را گرد آوردهاند. همچنین ابرموتورهایی وجود دارد كه به جستجوگران اجازه میدهد كه سریعاً به چندین موتور كاوش دسترسی پیدا كنند، اما فقط Savy search قادر به جستجوی بیش از ۵ پایگاه در یك زمان است. “All-in-one” گروهی دیگر از ابزارهائی را كه ارائه دهنده نمونههای جستجو بسیاری از موتورهای كاوش در یك پایگاه وب برای آسانسازی عمل جستجو هستند را نشان میدهد.
كار عنكبوتها، روباتها و دیگر برنامههای خودكار بوسیله پروسیس خلاصه شده است. (۱۹۹۵) و محدودیتهای این ابزارها بوسیلهء كاستر تجزیه و تحلیل شدهاند. (۱۹۹۵) چندین مقاله ادعا كردهاند كه ابزارهای جستجوی اینترنت را ارزیابی كردهاند، اما اغلب آنها توصیفهایی از شبكه جهانی وب یا موتورهای كاوش ارائه دادهاند. برینكلی و بیورك (۱۹۹۵) هایتلنت، آرچی، گوفر، و ایزو شبكه جهانی وب را شرح دادهاند. كورتولیس، بیرواستارك (۱۹۹۵) پرسشهایی بكار بردهاند برای اینكه موتورهای كاوش و نمایههای وب را آزمایش كنند. اما گزارش آنها بیشتر توصیفی است. كایمل (۱۹۹۶) تاریخچهای از پایگاههای تولید شده بوسیله رباتها را ارائه داده و به جستجوگران مبتدی راهنمائیهای خوبی در مورد موتورهای كاوش پیشنهاد كرده است. وندیتو(۱۹۹۶) هفت موتور كاوش را آزمایش كرده و ویژگیهای جستجوی آنها را شرح داده است. گزارشهای مشابه در مورد اینترنت فراوان است و بسیاری از آنها را میتوان در لیت كمپبل پیدا كرد. نمونههای خوب بسیار كم هستند. مثل گزارشهای لین (۱۹۹۵)، وین شیپ (۱۹۹۵) وبستر و پانول (۱۹۹۵).مطالعات ارزشیابی نسبتاً كمی وجود داشته كه شامل تحقیق میدانی در مورد موتورهای جستجو باشد. دسای (۱۹۹۵) قدرت بازیابی سیزده ابزار جستجو را با یك سؤال آزمایش كرده است. او قادر بود با جستجوی نامش تعیین كند كه چگونه بسیاری از اسناد وبی او بازیابی شده است. اینفوسیك و لایكاس با بازیابی هفت سند از ۲۴ سند بهتر عمل كردند. در حالیكه دیگر موتورها و نمایهها نظیر وب كرولر و یاهو ضعیف عمل كردند. لیتون (۱۹۹۵) عملكرد اینفوسیك، لایكاس، وب كرولر و ورلد واید وب وارم را با استفاده از ۸ سؤال مقایسه كرده است. او این آزمایش را با ۴ معیار انجام داد-نسبت تكراری بودن، دقت، دقت كامل و حداكثر ۱۰ دقت- و نتیجه گرفت كه لایكاس و اینفوسیك بهتر از بقیه عمل كردند. پكروتومایولو ۲ سؤال مرجع را در آلتاویستا، ماژلان، اینفوسیك، لایكاس و یونیت جستجو كردند. امتیاز دقت آنها مبتنی بود بر ۱۰ نتیجه اول، آنها فهمیدند كه آلتاویستا بهترین عملكرد را داشت بعد از آن اینفوسیك، لایكاس، ماژلان و پوینت. مقابقاب (۱۹۹۵) ۵ سؤال را برای امتحان كردن ۵ موتور كاوش با اجرای جستجوهای اصلی و اصلاح شده در هر موتور بكار برد. او دقت نتیجه اول را تغییر داد. با استفاده از ۲۵ نتیجه بعنوان پایه و مبنا. او یاهو را بعنوان بهترین عمل كننده شناخت. یافتههای این مطالعات بطور قطعی بهترین موتورهای كاوش را مشخص نكرد بعلت سؤالات مختلف، تعداد متفاوت سؤالات و مقیاسهای مختلف بكار رفته برای ارزشیابی. با این وجود، این مطالعات شیوههای مختلف ارزیابی موتورهای كاوش را ثابت كرد و معیارهای جدید و منطقی برای اجرای جستجو پیشنهاد كرد.
سؤالات تحقیقی
پژوهش حاضر با مطالعات قبلی متفاوت است از این نظر كه این مطالعه بر دو نوع سئوال متمركز شده است: سؤالات مرجعی كه در یك میز مرجع جمع شده و سؤالات موضوعی ساختگی برای این تحقیق. همچنین دو معیار قبلی را تغییر داده و دو معیار جدید برای ارزیابی نحوه مرتبسازی براساس میزان ارتباط موتورهای كاوش معرفی كرده است. طراحی این تحقیق بوسیلهء این سؤالات تحقیقی هدایت شده است:
۶۱۵۹۱; موتورهای كاوش تا چه حد میتوانند در مورد سؤالات موضوعی اطلاعاتی را بازیابی كنند؟ سه موتور كاوش مناسب برای این قبیل سؤالات كدامند؟
۶۱۵۹۱; آیا موتورهای كاوش در مورد سؤالات موضوعی و سؤالات مرجع عمومی بطور متفاوت عمل میكنند؟
۶۱۵۹۱; آیا موتورهای كاوش برای سؤالات مرجع واقعی و سؤالات ساختگی بطور متفاوت عمل میكنند؟
روششناسی
این مطالعه هشت موتور كاوش را كه مشهور هستند و برای عموم رایگانند ارزیابی میكند. این موتورها عبارتند از: آلتاویستا، اكسایت، اینفوسیك، گاید، لایكاس، ماژلان، این تكست، وب كرولر و ورد واید وب وارم.عوامل بسیاری ممكن است برای موفقیت یك جستجو مشاركت كنند. درك صحیح از تقاضای جستجو، استراتژی جستجو، پایگاه اطلاعاتی، موتور كاوش، و قضاوت میزان ارتباط بوسیلهء جستجوگران. در این تحقیق تعدادی از این معیارها كنترل شده بودند بنحوی كه تفاوت موتورهای كاوش قابل مشاهده بود. موتورهای كاوش از نظر اندازه، محتوای پایگاه اطلاعاتیشان، خطمشیهای نمایهسازیشان، كنترل كیفیت، شیوههای بازیابی و ارائه نتایج جستجو متفاوتند. فرض بر این شد كه سؤالات آزمایشی با پیچیدگی و وضع متفاوت در تعیین بهترین موتور جستجو با ارزشتر خواهد بود. با این وجود، مطالعات پیشین مشخص كردند كه امكان اینكه یك موتور جستجو در جوابگویی همه نوع سؤالات بهتر از همه باشد، وجود ندارد. ما تقاضاهای جستجو را با استفاده از ۲۰ سؤال مطرح شده در میز مرجع استاندارد كردیم. و ۵ سؤال موضوعی كه در حوزههایی كه منابع اینترنتی بسیاری داشت، بوجود آمده بود-سرگرمی، تجارت، سیاست اقتصاد و بهداشت. سؤالات مرجع گردآوری شده شامل سؤالات تخصصی و پرسشهای موضوعی وسیع بود و از نظر اینكه توانایی موتورهای كاوش را در جوابگویی به سؤالات مرجع واقعی مورد آزمایش قرار داد با ارزش بودند. ۵ سؤال موضوعی ساختگی بودند، اما این طراحی ما را قادر میساخت كه تجزیه و تحلیل معنیدار بیشتری انجام دهیم. با این همه، هیچ ارزشیابی خیلی خردمندانه نبود اگر ما از سؤالاتی كه برای آن هیچ چیز قابل بازیابی نبود، استفاده میكردیم.مجموعه دادهها۲ به هشت موتور كاوش چهار جستجو اختصاص یافته بود برای اطمینان از اینكه هر سؤال دو بار در یك موتور جستجو شده است. به جستجوگران آموزش داده شد كه از مرورگر نت اسكیپ برای دسترسی به اینترنت استفاده كنند و سؤالات داده شده را در موتورهای كاوش تعیین شده جستجو كنند و نسخههای چاپی از نتایج جستجو ارائه دهند. جستجوگران كار را در آوریل شروع كردند و در ژوئن ۱۹۹۶ نتیجهگیری انجام شد. جملهبندی سؤالات مرجع برای جستجوهای اینترنتی كمی تغییر داده شد. برای اطمینان یافتن از تكنیكهای مشابه بكار رفته، كلیدواژهها تعیین شده بودند و پارامترهای اساسی در مورد اینكه در هر موتور كاوش جستجو به چه صورت انجام شود ارائه شدند. به جستجوگران گفته شد كه بهترین قضاوتشان را در ارزیابی ارتباط منابع بازیابی شده بكار گیرند.
یكی از سؤالات مرجع دو بخش داشت، بنابراین سئوالات مرجع به ۲۱ تبدیل شد. هر كدامیك از سؤالات ۲۱ گانه مرجع و ۵ سؤال موضوعی دو بار در هر موتور، جستجو شده بود. اما در اكسایت ۴ بار جستجو شد، زیرا در این موتور، جستجوگر قادر به جستجوی كلیدواژهای و نیز جستجوی مفهومی میباشد. در میانه راه با ماژلان جستجوگران گزینهای از جستجو را در بخش خاصی از پایگاههای اطلاعاتی یا كل پایگاهها به منظور هماهنگی و یكدستی همه جستجوگران در كل پایگاهها انجام دادند. در كل ۴۶۸ جستجو انجام شده بود.
متغیرهای وابسته. چهار متغیر برای این تحقیق اندازهگیری شدند. «دقت»۳ كه بطور سنتی تعریف شده بود: تعداد منابع مرتبط بازیابی شده تقسیم بر تعداد منابع بازیابی شده و یك معیار استانداردی برای سیستمهای بازیابی اطلاعات بوده است. از آنجائی كه ارزیابی ارتباط تعداد زیاد صفحات بازیابی شده بوسیلهء موتورهای كاوش غیرممكن بود. این متغیر در این تحقیق بطور عملیاتی چنین تعریف شده:
دقت: تعداد منابع مرتبط در ۱۰ گزینه اول
شیوه استفاده از ده گزینه اول قابل توصیه است، زیرا این گزینهها بیشتر امكان دارد كه به وسیله جستجوگران دیده شود. این معیار را لیتون، پیكروتومایولو بكار برده است. اما برخلاف تحقیق لیتون، این تحقیق پایگاههای ارجاعی و تكراری را در معیار دقت درنظر میگیرد. زیرا آنها بالقوه مفید بودند (در صورتی كه گزینههای تكراری مرتبط باشد) و حذف آنها باعث میشد كه پایهء مقایسه (كه ده تا بود) كوچكتر شود.
«تكراری بودن»۴: در همان اوایل جستجو در موتورهای كاوش گزارشهای حكایت گونهای از تكراریها بوجود آمد. در نتیجه این معیار در ارزیابیهای ما وارد شد. تكراری بودن بطور عملیاتی «تعداد گزینههایی كه تكرار شدند و قبل از آن نیز ارائه شده بودند» تعریف شده بود. پایگاههای ارجاعی هم جزء تكراریها به حساب آمدند. در این مطالعه ما تعداد گزینههای تكراری را بر اساس ده نتیجه اول در نظر گرفتیم.
«امتیاز مرتبطترین گزینه»۵: همه موتورهای كاوش انتخابی، نتایج بازیابی را با استفاده از الگوریتم متفاوت مرتب میكنند و بهترین تطبیقها را اول ارائه میدهند. اما تنظیم همیشه مفید نبوده است. این متغیر برای امتحان كردن توانایی درجهبندی موتورهای كاوش طراحی شده بود. كه بر این فرضیه مبتنی است كه شیوه درجهبندی مؤثر، مرتبطترین گزینهها را در بالاترین لیست نتایج جستجو قرار میدهد. جستجوگران، بطور عملیاتی مرتبطترین گزینه از بین ده گزینه تعریف كردند و به آن بخاطر جایگاهش یك امتیاز دادند. اگر این گزینه در اولین، دومین یا سومین گزینه بود این موتور امتیازی بین ۱ یا ۲ یا سه میگرفت. اگر این گزینه جای دیگر ظاهر میشد به آن امتیاز ۶ داده میشد. عدد ۶ به این علت انتخاب شده بود كه نشان میداد این گزینه در خارج از اولین نیمه لیست ده تایی قرار گرفته است.این مشكل در شبكه جهانی وب خیلی شدیدتر است. با هزاران هزار صفحه وب نمایه شده به وسیله موتورهای جستجو انتخابی غیرممكن بود كه همه صفحات وب مرتبط با موضوع جستجو شناسایی شود. به این ترتیب بازیابی در این مطالعه استفاده نشد.«تجزیه و تحلیل دادهها»۸: از ۴۶۸ جستجوی انجام شده ۴ معیار برای هر جستجو در موتور كاوش ثبت شد. بسامد و میانگین این معیارها برای هر موتور جستجو با نوع سؤالات حساب شده بودند.
یافتهها
دقت
سؤالات مرجع عمومی متنوع بود بطوری كه شاید یك كتابدار مرجع برای یافتن پاسخ آنها از اینترنت استفاده نمیكرد. با این وجود همه سؤالات در موتورهای كاوش جستجو شده بودند كه توانائیشان را در پاسخگویی به سؤالات مرجع ارزیابی كنند. موتورهای كاوش این كار را بخوبی انجام ندادند. میانگین امتیاز دقت خیلی پائین بود. بین ۳۱/۰ و ۹۳/۲. این تكست بالاترین تعداد گزینههای مرتبط را بازیابی كرد. بعد از آن آلتاویستا و اینفوسیك و سپس لایكاس با اختلاف كم چهارم شد. برای نشان دادن جنبه دیگری از این جستجوها، اطلاعاتی در مورد نقاط كور هر موتور در جدول ۱ قرار گرفتند كه نشان داد اكسایت پائینترین تعداد نقاط كور را داشت و بعد از آن این تكست و لایكاس. بر رویهم رفته، این دو مجموعه از دادهها این تكست را بعنوان بهترین موتور در برخورد با سؤالات مرجع معرفی كرد. این موتور صفحات وب را برای این سؤالات بازیابی كرد و نتایج جستجویش بالاترین امتیاز میزان دقت را داشت.
در این پژوهش موتورهای جستجو با سؤالات موضوعی ساختگی بهتر عمل كردند. سؤالات موضوعی پائینترین میانگین امتیاز دقت (۲/۳) نسبت به بالاترین امتیاز میزان دقت (۹۳/۲) در سؤالات مرجع واقعی بالات بود. اینفوسیك بهتر عمل كرد بعد از آن ماژلان و این تكست و باز هم لایكاس با اختلاف كم چهارم شد. از آنجائی كه سؤالات مرجع برای حوزههایی طراحی شده بودند كه در مورد آن اطلاعات بیشتری در وب موجود باشد، مشكل نقاط كور در این سؤالات خیلی جدی نبود. در سؤالات مرجع كیفیت گزینههای بازیابی شده، «دقت خاص» تعداد جستجوهایی كه بیش از ۵ گزینه مرتبط را بازیابی كردند در نظر گرفته شد كه در جدول ۲ آمده است.اینفوسیك باز هم برنده ظاهر شد، بعد از آن ماژلان و این تكست و لایكاس و وب كرولر هر سه بطور مساوی در جایگاه سوم قرار گرفتند. این اطلاعات نشان داد كه اینفوسیك در برخورد با سؤالات بهترین بود. این موتور بیش از ۵ گزینه مرتبط را برای اغلب پرسشهای موضوعی بازیابی كرد ونتایج جستجویش بالاترین امتیاز میزان دقت را داشت.
تكراری بودن
تكراریها در بازیابی زمان جستجوگران را تلف میكنند و باعث سردرگمی میشوند. علاوه بر قصه شكایت در مورد تكراریها، به هر حال، این مسأله به نظر میرسد كه در بیشتر موتورهای كاوش مطرح بوده است. میانگین تعداد موارد تكراری برای هر دو سؤالات مرجع و سؤالات موضوعی در هر موتور كاوش ناچیز است (كمتر از یك). اما سؤالات موضوعی شانسشان برای داشتن موارد تكراری بیشتر بود. این اطلاعات نشان میدهد كه نمایش دادههای تكراری حتی زمانی كه گزینههای مرتبط زیادی بازیابی شده بود اهمیت چندانی نداشتند.
امتیاز مرتبط ترین گزینه
این امتیاز توانایی هر موتور كاوش را برای نشان دادن اولین گزینهء مرتبط اندازهگیری كرد. بخاطر اینكه امتیازی به محل گزینهها اختصاص یافته بود، پائینترین امتیازها عملكردهای بهتر را نشان میداد. برای سؤالات مرجع امتیاز موتورهای جستجو بین ۳/۳ و ۳/۵ قرار داشت، اول اپن تكست بعنوان برنده بعد از آن اكسایت و آلتاویستا قرار گرفتند. موتورهای كاوش با سؤالات موضوعی خوب عمل نكردند. امتیازات آنها بین ۵/۲ تا ۲/۴ قرار داشت. اپن تكست و بعد از آن اینفوسیك و وب كرولر بهترین عملكرد را داشتند. اپن تكست در ارائه مرتبطترین گزینه همیشه بهترین بود.
امتیاز تنظیم براساس ارتباط
این امتیاز قدرت موتورهای كاوش را اندازهگیری كرد برای ارائه گزینههای مرتبط در اولین نیمه نتایج جستجو. برای سؤالات مرجع، امتیازات موتورهای كاوش بین ۵/۱۵% تا ۱/۴۵% و با پیشتازی اپن تكست و بعد از آن اینفوسیك و اكسایت قرار داشت. برای سؤالات موضوعی امتیازاتشان بین ۲۳% تا ۸/۵۲% قرار گرفت. اینفوسیك بعنوان بهترین عمل كننده لایكاس در جایگاه دوم و اكسایت به عنوان سومین جایگاه.
عملكرد جامع
چهار معیار جنبههای قدرت بازیابی موتورهای كاوش را اندازهگیری كردند. نمودار ۲ دقت، تكراری بودن و امتیاز مرتبطترین گزینهها را برای سؤالات مرجع خلاصه كرده است.امتیاز رتبهبندی براساس میزان ارتباط در آن وارد نشد، زیرا دامنه آنها خیلی بالاتر بود و نمیتوانست بطور كامل در این نمودار وارد شود. بهترین موتور جستجو بالاترین دقت، پائینترین موارد تكراری، پائینترین امتیاز مرتبط ترین گزینه و بهترین امتیاز تنظیم براساس دقت را دارد. این نتایج در نمودار ۲ روشن است، به هر حال موتورهای كاوش چنین عمل كردند: اپن تكست بالاترین مانعیت و پائینترین امتیاز مرتبطترین گزینه را داشت. اما اكسایت و اینفوسیك پایینترین تعداد موارد تكراری را داشتند. از این ۴ معیار، اپن تكست بهترین امتیاز را از بین آنها داشت و توانست بهترین عمل كننده برای این نوع سؤالات باشد. رتبه دوم مشخص نبود چون این موتورها فقط در یك یا دو معیار ممتاز بودند. با این وجود این امكان وجود داشت كه آنها را به دو گروه تقسیم كنیم: آلتاویستا، اكسایت، اینفوسیك و لایكاس نسبتاً بهتر از ماژلان، وب كرولر و ورلدواید وب وارم عمل كردند.
نمودار ۳ شباهت دشواری را در تعیین برنده برای سؤالات موضوعی نشان میدهد. اطلاعات موجود بر روی نمودار ۳ اینفوسیك را بهترین عملگر میداند و امتیاز تنظیم براساس ارتباط آنرا تقویت میكند. بقیه موارد برای اعلام كردن خیلی مشكل بود.
نتیجهگیریها
این پژوهش ۸ موتور كاوش اصلی را با دوبار جستجوی ۲۶ سؤال در هر كدام از آنها (۴ بار در اكسایت) ارزشیابی كرد. اطلاعات نشان داد كه موتورهای كاوش انتخابی نمیتوانند نتایج خوبی برای سؤالات مرجع واقعی ارائه دهند. اما در مورد سؤالات موضوعی ساختگی خوب عمل كردند. این نكته نیز فهمیده شد كه موتورهای كاوش برای دو نوع سؤال بطور متفاوت عمل كردند: اینفوسیك در سؤالات موضوعی بهتر عمل كرد؛ در حالیكه اپن تكست در سؤالات مرجع بهترین بود. از این پژوهش فهمیده شد كه موارد تكراری یك مشكل نمیتواند باشد. با تعریف متغیر تنظیم براساس میزان ارتباط در موتورهای كاوش میتواند ارزشیابی شود. با ارائه اطلاعاتی در مورد این ۴ متغیر این پژوهش چندین جنبه از عملكرد موتورهای كاوش را روشن كرد.این پژوهش بدون محدودیت نبود. اول، دادههای آن لحظات ناپایدار را در اینترنت ثبت كرد. آنها عكسهایی ارائه دادند از اینكه چگونه موتورهای كاوش از آوریل تا ژوئن ۱۹۹۶ كار كردند. و این تصاویر ممكن است كاملاً نهایی نباشد كه قبلاً بود زیرا اینترنت سریعاً در حال گسترش است. با این وجود، مشابه مطالعه لیتون، این پژوهش دریافت كه اینفوسیك یكی از بهترین موتورهای كاوش است. اگر این تحقیق تكرا شده و همان یافتهها كه بدست آمده. به هر حال یكی از تحقیقات قادر خواهد بود كه اطمینان بیشتری در مورد این یافتهها بدهد. دوم، سؤالات مرجع از یك كتابخانهء دانشگاهی جمعآوری شده بود و سخت بود تعیین كردن اینكه آنها نمونهای از سؤالات مرجع بودند. باز هم، تكرار این پژوهش اعتبار یافتهها را افزایش میداد. سوم، تعداد سؤالات آزمایش احتمالاً میتوانست زیاد باشد اگرچه این پژوهش سؤالات بیشتری نسبت به اغلب پژوهشهای دیگری بكار برد.گذشته از محدودیتها، این پژوهش متغیرهای جدید برای ارزشیابی تنظیم براساس ارتباط تولید كرد و یك طرح تحقیقی برای مقایسه عملكرد موتورهای كاوش برای دو نوع سؤال بكار برد، درك عملكرد موتورهای كاوش را افزایش داد، توصیههایی در مورد اینكه چگونه طراحان سیستم میتوانند سیستمهای خود را بهبود بخشند ارائه داد و اشاره كرد كه چگونه كتابداران میتوانند خودشان و مردم را برای جستجو در اینترنت آماده كنند.
پینوشتها
۱. College & Research Libraries News.
۲. Data collection
۳. Precision
۴. Duplicate
۵. Most-relevant-item scove (MRI)
۶. Releven cy-van king score.
۷. Recell
۸. Data analysis
منابع
All-in-one search page. [online]. Available HTTP: http://www.Albany.net/allinone/Argus Clearinghouse. (۱۹۹۶). Subject guides. [Formerly Clearinghouse for subject-oriented internet resource guides]. [online]. Available HTTP://www.clearinghouse.net/
Boyce, Bert R., Mcadow, Charles T., & Kraft, Donald H. (۱۹۹۴). Measurement in Information Science. San Diego: Academic Press.
Brinkley, Monica, & Burke, Mary. (۱۹۹۵). Information retrieval from the internet: An evaluation of the tools. Internet Research: Electronic Networking Applications and Policy, ۵(۳), ۳-۱۰.
BUBL Information Service. BUBL WWW subject tree-arranged by Universal Decimal Classification. [online]. Available HTTP: http://www.bubl.bath.ac.uk/BUBL/Tree.html
Campbell, Karen. (۱۹۹۶). Understanding and comparing Web search tools. [online]. Available HTTP: http://hamline.edu/library/links/comparisons.html
Courtois, Martin P., Bear, William M., & Stark, Marcella. (۱۹۹۵). Cool tools for searching the web. Online, ۱۹(۶), ۱۴-۳۲.
Desai, Bipin C. (۱۹۹۵). Test: Internet indexing systems vs list of known urls. [Online]. Available HTTP: http://www.cs.concordia.ca/~faculty/bcdesai/test=of=index=systems.html
Infofilter. [Online]. Available HTTP: http://www.kcpl.lib.mo.us/infofilter.htm
Internet Solutions. (۱۹۹۶). Internet statistics-estimated. [Online].
Available HTTP: http://www.internetsol.com/netbin/internetstats
Kimme, Stacey. (۱۹۹۶). Robot-generated databases on the World Wide Web. Database ۱۹(۱): ۴۰-۴۹.
Koster, Martin. (۱۹۹۵). Robots in the Web: thrثat or treat? [Online]. Available HTTP: http://web.nexor.co.uk/mak/doc/robots/threat-or-treat.html
Leighton, H. Vernon. (۱۹۹۵). World Wide Web indexes: A study. [Online]. Available HTTP: http://www.winona.msus.edu/services-f/library-f/webind.htm
Library of Congress. WWW by subject or keyword.[Online].
Available http://lcweb.loc.gov/global/search.html#www
Liu, Jian. (۱۹۹۶). Undestanding WWW search tools. [Online]. Available
HTTP: http://www.Indiana.edu/~librcsd/search/
Lottor, Mark. (۱۹۹۶). Domain survey. [Online]. Available HTTP: http://www.nw.com/
Mckiernan, Gerry. Cyberstacks(sm). [Online]. Available HTTP: http://www.public-iastate.edu/~CYBERSTACKS/
Meghabghab, Dania Bilal, & Meghabghab, George V. (۱۹۹۶). Information retrieval in cyberspace. In The Digital Revolution: Proceedings of the ASIS Midyear Meeting. San Diego, California May ۱۸-۲۲, ۱۹۹۶(pp.۲۲۴-۲۳۷),Medford, New Jersey: Information Today.
Netscape. Net search. [Online]. Available HTTP: http://home.netscape.com/home/internet-search.html
Online Computer Library center, NetFirst. [Online].
Available HTTP: http://www.oclc.org/oclc/netfirst/netfirst.html
Packer, Joan G., & Tomaiuolo, Nicholas G. (۱۹۹۶). Qualitative analysis of five WWW “search engines”. [Online].
Available HTTP: http://neal.ctstateu.edu:۲۰۰۱/htdocs/websearch.html
ترجمه: قاسم آزادی
دانشجوی كارشناسی ارشد كتابداری و اطلاعرسانی دانشگاه تهران
رشد اینترنت شگفتآور شده است. با توجه به تحقیق میدانی در سال ۱۹۹۶ این رشد تصاعدی همچنان ادامه دارد. و تخمین زده شده كه شبكه از نظر اندازه و حجم هر ۱۲ تا ۱۵ ماه دوبرابر میشود. بطور تقریبی ۰۰۰/۱۰۰ وبگاه در اگوست ۱۹۹۵ وجود داشته و این تعداد در اگوست ۱۹۹۶ به ۰۴۱/۵۳۶ رسیده است. از آنجائی كه هر پایگاه میتواند بسیاری از صفحات وب را در خود داشته باشد این باعث میشود كه تعداد بیشتری از صفحات وب بوجود آید. در حالیكه كیفیت بسیاری از صفحات ممكن است مورد سؤال باشد و نگهداری بسیاری از صفحات پراكنده است. اما صفحات معتبری هم وجود دارد كه اطلاعات با ارزشی در مورد بسیاری از موضوعات ارائه میدهد. آنچه استفادهكنندگان به آن نیاز دارند یك سیستم جداكننده است كه مو از ماست بكشد.تلاشهای زیادی صورت گرفته كه این وظیفه را آسان كند: كتابداران و متخصصان موضوعی راهنماهای موضوعی را گردآوری كردهاند.«اخبار كتابخانههای تحقیقاتی و دانشكدهای»۱ بطور دورهای راهنماهای منابع اینترنتی را در موضوعات انتخابی منتشر میكند. علاوه بر آن فهرستنویسان Intercat را (كه یك فهرست آزمایشی برای اینترنت است) بوجود آوردهاند. OCLC نیز پایگاه Netfirst را برای نمایهسازی منابع اینترنت با سرعنوانهای موضوعی كتابخانه كنگره و اعداد طرح دهدهی دیویی ایجاد كرده است. كتابداران مرجع یك پایگاه وب را به نام Infofilter بوجود آوردهاند كه مرور منابع اینترنتی را به اشتراك بگذارند و كتابداران ردهبندی موضوعی را برای سازماندهی منابع اینترنت مورد آزمایش قرار دادهاند. اما چیزی كه بیشترین توجه استفادهكنندگان اینترنت را به خود معطوف داشته است، احتمالاً عنكبوتها و روباتهایی هستند كه خدمات جستجو را انتخاب میكنند. برای بسیاری از جستجوگران اینترنت، این موتورها با راه دادن آنها به فضای اطلاعاتی عظیم كمك موقتی ارائه میدهند. كاربران اینترنت بزودی فهمیدند كه این موتورها كامل و مناسب نیستند زیرا آنها منطقه جغرافیایی خاصی را پوشش میدهند، بصورت متفاوت نمایهسازی میشوند و منابع را با كلیدواژهها بازیابی میكنند. استفادهكنندگان هرگز نمیتوانند اعتماد كنند كه یك جستجو جامع یا قطعی باشد. با وجود اینكه نتایج بازیابی ظاهراً بوسیله میزان ارتباط مرتب شده است و استفادهكنندگان مبارزه با ریزش كاذب مواد تكراری و نامربوط را ادامه میدهند. در كل پیشرفت خوبی در كمك به استفادهكنندگان برای جهتیابی در اینترنت بوجود آمده، اما این ابزارها آنقدر زیاد هستند كه انتخاب صحیح یكی از آنها كار سختی است.علاوه بر آن انتخاب موتورهای جستجوی مناسب ممكن است برای استفادهكنندگان عمومی و نیز كتابداران، به علت رویههای پیچیده، مهمتر باشد. بعنوان مثال، اینفوسیك سرویس رایگان دارد، اما سرویسهای هزینه بر، یعنی متخصصان اینفوسیك، نمایهء بزرگتر و قابلیتهای جستجوی قویتر ارائه میدهند. وب كروكر یك درخواست حق عضویت دارد كه زمانی آن را تحمیل میكند. اگر این عمل در مقابل هزینه برای خدمات یك رویه شود، لازم خواهد بود برای استفاده كنندگان و بخصوص كتابداران كه بدانند كدامیك از موتورهای جستجو را باید به خدمت بگیرند.
این تحقیق تلاش كرده كه كارآیی موتورهای كاوش را در آدرس دهی نیازهای اطلاعاتی ارزیابی كند. آیا آنها میتوانند جوابهایی برای سؤالات مرجع واقعی بازیابی كنند؟ آیا آنها منابع خوبی برای سؤالات موضوعی ارائه میدهند؟ آنها تا چه حد نتایج جستجو را براساس میزان ارتباط مرتب میكنند؟ كدامیك از موتورهای جستجو بهتر عمل میكنند؟ جواب این سؤالات به ما كمك خواهد كرد كه نقاط ضعف و قوت موتورهای كاوش را بهتر بفهمیم و ما را قادر میسازد كه برای برطرف كردن نیازهای اطلاعاتی موتور كاوش مناسب را انتخاب كنیم.
پیشینه پژوهش
موتورهای كاوش بسیاری موجود هستند و براحتی در دسترس قرار میگیرند Netsearch متعلق به نت اسكیپ و www by subject or keyword مربوط به كتابخانه كنگره، هر دو با هم موتورهای كاوش اصلی را گرد آوردهاند. همچنین ابرموتورهایی وجود دارد كه به جستجوگران اجازه میدهد كه سریعاً به چندین موتور كاوش دسترسی پیدا كنند، اما فقط Savy search قادر به جستجوی بیش از ۵ پایگاه در یك زمان است. “All-in-one” گروهی دیگر از ابزارهائی را كه ارائه دهنده نمونههای جستجو بسیاری از موتورهای كاوش در یك پایگاه وب برای آسانسازی عمل جستجو هستند را نشان میدهد.
كار عنكبوتها، روباتها و دیگر برنامههای خودكار بوسیله پروسیس خلاصه شده است. (۱۹۹۵) و محدودیتهای این ابزارها بوسیلهء كاستر تجزیه و تحلیل شدهاند. (۱۹۹۵) چندین مقاله ادعا كردهاند كه ابزارهای جستجوی اینترنت را ارزیابی كردهاند، اما اغلب آنها توصیفهایی از شبكه جهانی وب یا موتورهای كاوش ارائه دادهاند. برینكلی و بیورك (۱۹۹۵) هایتلنت، آرچی، گوفر، و ایزو شبكه جهانی وب را شرح دادهاند. كورتولیس، بیرواستارك (۱۹۹۵) پرسشهایی بكار بردهاند برای اینكه موتورهای كاوش و نمایههای وب را آزمایش كنند. اما گزارش آنها بیشتر توصیفی است. كایمل (۱۹۹۶) تاریخچهای از پایگاههای تولید شده بوسیله رباتها را ارائه داده و به جستجوگران مبتدی راهنمائیهای خوبی در مورد موتورهای كاوش پیشنهاد كرده است. وندیتو(۱۹۹۶) هفت موتور كاوش را آزمایش كرده و ویژگیهای جستجوی آنها را شرح داده است. گزارشهای مشابه در مورد اینترنت فراوان است و بسیاری از آنها را میتوان در لیت كمپبل پیدا كرد. نمونههای خوب بسیار كم هستند. مثل گزارشهای لین (۱۹۹۵)، وین شیپ (۱۹۹۵) وبستر و پانول (۱۹۹۵).مطالعات ارزشیابی نسبتاً كمی وجود داشته كه شامل تحقیق میدانی در مورد موتورهای جستجو باشد. دسای (۱۹۹۵) قدرت بازیابی سیزده ابزار جستجو را با یك سؤال آزمایش كرده است. او قادر بود با جستجوی نامش تعیین كند كه چگونه بسیاری از اسناد وبی او بازیابی شده است. اینفوسیك و لایكاس با بازیابی هفت سند از ۲۴ سند بهتر عمل كردند. در حالیكه دیگر موتورها و نمایهها نظیر وب كرولر و یاهو ضعیف عمل كردند. لیتون (۱۹۹۵) عملكرد اینفوسیك، لایكاس، وب كرولر و ورلد واید وب وارم را با استفاده از ۸ سؤال مقایسه كرده است. او این آزمایش را با ۴ معیار انجام داد-نسبت تكراری بودن، دقت، دقت كامل و حداكثر ۱۰ دقت- و نتیجه گرفت كه لایكاس و اینفوسیك بهتر از بقیه عمل كردند. پكروتومایولو ۲ سؤال مرجع را در آلتاویستا، ماژلان، اینفوسیك، لایكاس و یونیت جستجو كردند. امتیاز دقت آنها مبتنی بود بر ۱۰ نتیجه اول، آنها فهمیدند كه آلتاویستا بهترین عملكرد را داشت بعد از آن اینفوسیك، لایكاس، ماژلان و پوینت. مقابقاب (۱۹۹۵) ۵ سؤال را برای امتحان كردن ۵ موتور كاوش با اجرای جستجوهای اصلی و اصلاح شده در هر موتور بكار برد. او دقت نتیجه اول را تغییر داد. با استفاده از ۲۵ نتیجه بعنوان پایه و مبنا. او یاهو را بعنوان بهترین عمل كننده شناخت. یافتههای این مطالعات بطور قطعی بهترین موتورهای كاوش را مشخص نكرد بعلت سؤالات مختلف، تعداد متفاوت سؤالات و مقیاسهای مختلف بكار رفته برای ارزشیابی. با این وجود، این مطالعات شیوههای مختلف ارزیابی موتورهای كاوش را ثابت كرد و معیارهای جدید و منطقی برای اجرای جستجو پیشنهاد كرد.
سؤالات تحقیقی
پژوهش حاضر با مطالعات قبلی متفاوت است از این نظر كه این مطالعه بر دو نوع سئوال متمركز شده است: سؤالات مرجعی كه در یك میز مرجع جمع شده و سؤالات موضوعی ساختگی برای این تحقیق. همچنین دو معیار قبلی را تغییر داده و دو معیار جدید برای ارزیابی نحوه مرتبسازی براساس میزان ارتباط موتورهای كاوش معرفی كرده است. طراحی این تحقیق بوسیلهء این سؤالات تحقیقی هدایت شده است:
۶۱۵۹۱; موتورهای كاوش تا چه حد میتوانند در مورد سؤالات موضوعی اطلاعاتی را بازیابی كنند؟ سه موتور كاوش مناسب برای این قبیل سؤالات كدامند؟
۶۱۵۹۱; آیا موتورهای كاوش در مورد سؤالات موضوعی و سؤالات مرجع عمومی بطور متفاوت عمل میكنند؟
۶۱۵۹۱; آیا موتورهای كاوش برای سؤالات مرجع واقعی و سؤالات ساختگی بطور متفاوت عمل میكنند؟
روششناسی
این مطالعه هشت موتور كاوش را كه مشهور هستند و برای عموم رایگانند ارزیابی میكند. این موتورها عبارتند از: آلتاویستا، اكسایت، اینفوسیك، گاید، لایكاس، ماژلان، این تكست، وب كرولر و ورد واید وب وارم.عوامل بسیاری ممكن است برای موفقیت یك جستجو مشاركت كنند. درك صحیح از تقاضای جستجو، استراتژی جستجو، پایگاه اطلاعاتی، موتور كاوش، و قضاوت میزان ارتباط بوسیلهء جستجوگران. در این تحقیق تعدادی از این معیارها كنترل شده بودند بنحوی كه تفاوت موتورهای كاوش قابل مشاهده بود. موتورهای كاوش از نظر اندازه، محتوای پایگاه اطلاعاتیشان، خطمشیهای نمایهسازیشان، كنترل كیفیت، شیوههای بازیابی و ارائه نتایج جستجو متفاوتند. فرض بر این شد كه سؤالات آزمایشی با پیچیدگی و وضع متفاوت در تعیین بهترین موتور جستجو با ارزشتر خواهد بود. با این وجود، مطالعات پیشین مشخص كردند كه امكان اینكه یك موتور جستجو در جوابگویی همه نوع سؤالات بهتر از همه باشد، وجود ندارد. ما تقاضاهای جستجو را با استفاده از ۲۰ سؤال مطرح شده در میز مرجع استاندارد كردیم. و ۵ سؤال موضوعی كه در حوزههایی كه منابع اینترنتی بسیاری داشت، بوجود آمده بود-سرگرمی، تجارت، سیاست اقتصاد و بهداشت. سؤالات مرجع گردآوری شده شامل سؤالات تخصصی و پرسشهای موضوعی وسیع بود و از نظر اینكه توانایی موتورهای كاوش را در جوابگویی به سؤالات مرجع واقعی مورد آزمایش قرار داد با ارزش بودند. ۵ سؤال موضوعی ساختگی بودند، اما این طراحی ما را قادر میساخت كه تجزیه و تحلیل معنیدار بیشتری انجام دهیم. با این همه، هیچ ارزشیابی خیلی خردمندانه نبود اگر ما از سؤالاتی كه برای آن هیچ چیز قابل بازیابی نبود، استفاده میكردیم.مجموعه دادهها۲ به هشت موتور كاوش چهار جستجو اختصاص یافته بود برای اطمینان از اینكه هر سؤال دو بار در یك موتور جستجو شده است. به جستجوگران آموزش داده شد كه از مرورگر نت اسكیپ برای دسترسی به اینترنت استفاده كنند و سؤالات داده شده را در موتورهای كاوش تعیین شده جستجو كنند و نسخههای چاپی از نتایج جستجو ارائه دهند. جستجوگران كار را در آوریل شروع كردند و در ژوئن ۱۹۹۶ نتیجهگیری انجام شد. جملهبندی سؤالات مرجع برای جستجوهای اینترنتی كمی تغییر داده شد. برای اطمینان یافتن از تكنیكهای مشابه بكار رفته، كلیدواژهها تعیین شده بودند و پارامترهای اساسی در مورد اینكه در هر موتور كاوش جستجو به چه صورت انجام شود ارائه شدند. به جستجوگران گفته شد كه بهترین قضاوتشان را در ارزیابی ارتباط منابع بازیابی شده بكار گیرند.
یكی از سؤالات مرجع دو بخش داشت، بنابراین سئوالات مرجع به ۲۱ تبدیل شد. هر كدامیك از سؤالات ۲۱ گانه مرجع و ۵ سؤال موضوعی دو بار در هر موتور، جستجو شده بود. اما در اكسایت ۴ بار جستجو شد، زیرا در این موتور، جستجوگر قادر به جستجوی كلیدواژهای و نیز جستجوی مفهومی میباشد. در میانه راه با ماژلان جستجوگران گزینهای از جستجو را در بخش خاصی از پایگاههای اطلاعاتی یا كل پایگاهها به منظور هماهنگی و یكدستی همه جستجوگران در كل پایگاهها انجام دادند. در كل ۴۶۸ جستجو انجام شده بود.
متغیرهای وابسته. چهار متغیر برای این تحقیق اندازهگیری شدند. «دقت»۳ كه بطور سنتی تعریف شده بود: تعداد منابع مرتبط بازیابی شده تقسیم بر تعداد منابع بازیابی شده و یك معیار استانداردی برای سیستمهای بازیابی اطلاعات بوده است. از آنجائی كه ارزیابی ارتباط تعداد زیاد صفحات بازیابی شده بوسیلهء موتورهای كاوش غیرممكن بود. این متغیر در این تحقیق بطور عملیاتی چنین تعریف شده:
دقت: تعداد منابع مرتبط در ۱۰ گزینه اول
شیوه استفاده از ده گزینه اول قابل توصیه است، زیرا این گزینهها بیشتر امكان دارد كه به وسیله جستجوگران دیده شود. این معیار را لیتون، پیكروتومایولو بكار برده است. اما برخلاف تحقیق لیتون، این تحقیق پایگاههای ارجاعی و تكراری را در معیار دقت درنظر میگیرد. زیرا آنها بالقوه مفید بودند (در صورتی كه گزینههای تكراری مرتبط باشد) و حذف آنها باعث میشد كه پایهء مقایسه (كه ده تا بود) كوچكتر شود.
«تكراری بودن»۴: در همان اوایل جستجو در موتورهای كاوش گزارشهای حكایت گونهای از تكراریها بوجود آمد. در نتیجه این معیار در ارزیابیهای ما وارد شد. تكراری بودن بطور عملیاتی «تعداد گزینههایی كه تكرار شدند و قبل از آن نیز ارائه شده بودند» تعریف شده بود. پایگاههای ارجاعی هم جزء تكراریها به حساب آمدند. در این مطالعه ما تعداد گزینههای تكراری را بر اساس ده نتیجه اول در نظر گرفتیم.
«امتیاز مرتبطترین گزینه»۵: همه موتورهای كاوش انتخابی، نتایج بازیابی را با استفاده از الگوریتم متفاوت مرتب میكنند و بهترین تطبیقها را اول ارائه میدهند. اما تنظیم همیشه مفید نبوده است. این متغیر برای امتحان كردن توانایی درجهبندی موتورهای كاوش طراحی شده بود. كه بر این فرضیه مبتنی است كه شیوه درجهبندی مؤثر، مرتبطترین گزینهها را در بالاترین لیست نتایج جستجو قرار میدهد. جستجوگران، بطور عملیاتی مرتبطترین گزینه از بین ده گزینه تعریف كردند و به آن بخاطر جایگاهش یك امتیاز دادند. اگر این گزینه در اولین، دومین یا سومین گزینه بود این موتور امتیازی بین ۱ یا ۲ یا سه میگرفت. اگر این گزینه جای دیگر ظاهر میشد به آن امتیاز ۶ داده میشد. عدد ۶ به این علت انتخاب شده بود كه نشان میداد این گزینه در خارج از اولین نیمه لیست ده تایی قرار گرفته است.این مشكل در شبكه جهانی وب خیلی شدیدتر است. با هزاران هزار صفحه وب نمایه شده به وسیله موتورهای جستجو انتخابی غیرممكن بود كه همه صفحات وب مرتبط با موضوع جستجو شناسایی شود. به این ترتیب بازیابی در این مطالعه استفاده نشد.«تجزیه و تحلیل دادهها»۸: از ۴۶۸ جستجوی انجام شده ۴ معیار برای هر جستجو در موتور كاوش ثبت شد. بسامد و میانگین این معیارها برای هر موتور جستجو با نوع سؤالات حساب شده بودند.
یافتهها
دقت
سؤالات مرجع عمومی متنوع بود بطوری كه شاید یك كتابدار مرجع برای یافتن پاسخ آنها از اینترنت استفاده نمیكرد. با این وجود همه سؤالات در موتورهای كاوش جستجو شده بودند كه توانائیشان را در پاسخگویی به سؤالات مرجع ارزیابی كنند. موتورهای كاوش این كار را بخوبی انجام ندادند. میانگین امتیاز دقت خیلی پائین بود. بین ۳۱/۰ و ۹۳/۲. این تكست بالاترین تعداد گزینههای مرتبط را بازیابی كرد. بعد از آن آلتاویستا و اینفوسیك و سپس لایكاس با اختلاف كم چهارم شد. برای نشان دادن جنبه دیگری از این جستجوها، اطلاعاتی در مورد نقاط كور هر موتور در جدول ۱ قرار گرفتند كه نشان داد اكسایت پائینترین تعداد نقاط كور را داشت و بعد از آن این تكست و لایكاس. بر رویهم رفته، این دو مجموعه از دادهها این تكست را بعنوان بهترین موتور در برخورد با سؤالات مرجع معرفی كرد. این موتور صفحات وب را برای این سؤالات بازیابی كرد و نتایج جستجویش بالاترین امتیاز میزان دقت را داشت.
در این پژوهش موتورهای جستجو با سؤالات موضوعی ساختگی بهتر عمل كردند. سؤالات موضوعی پائینترین میانگین امتیاز دقت (۲/۳) نسبت به بالاترین امتیاز میزان دقت (۹۳/۲) در سؤالات مرجع واقعی بالات بود. اینفوسیك بهتر عمل كرد بعد از آن ماژلان و این تكست و باز هم لایكاس با اختلاف كم چهارم شد. از آنجائی كه سؤالات مرجع برای حوزههایی طراحی شده بودند كه در مورد آن اطلاعات بیشتری در وب موجود باشد، مشكل نقاط كور در این سؤالات خیلی جدی نبود. در سؤالات مرجع كیفیت گزینههای بازیابی شده، «دقت خاص» تعداد جستجوهایی كه بیش از ۵ گزینه مرتبط را بازیابی كردند در نظر گرفته شد كه در جدول ۲ آمده است.اینفوسیك باز هم برنده ظاهر شد، بعد از آن ماژلان و این تكست و لایكاس و وب كرولر هر سه بطور مساوی در جایگاه سوم قرار گرفتند. این اطلاعات نشان داد كه اینفوسیك در برخورد با سؤالات بهترین بود. این موتور بیش از ۵ گزینه مرتبط را برای اغلب پرسشهای موضوعی بازیابی كرد ونتایج جستجویش بالاترین امتیاز میزان دقت را داشت.
تكراری بودن
تكراریها در بازیابی زمان جستجوگران را تلف میكنند و باعث سردرگمی میشوند. علاوه بر قصه شكایت در مورد تكراریها، به هر حال، این مسأله به نظر میرسد كه در بیشتر موتورهای كاوش مطرح بوده است. میانگین تعداد موارد تكراری برای هر دو سؤالات مرجع و سؤالات موضوعی در هر موتور كاوش ناچیز است (كمتر از یك). اما سؤالات موضوعی شانسشان برای داشتن موارد تكراری بیشتر بود. این اطلاعات نشان میدهد كه نمایش دادههای تكراری حتی زمانی كه گزینههای مرتبط زیادی بازیابی شده بود اهمیت چندانی نداشتند.
امتیاز مرتبط ترین گزینه
این امتیاز توانایی هر موتور كاوش را برای نشان دادن اولین گزینهء مرتبط اندازهگیری كرد. بخاطر اینكه امتیازی به محل گزینهها اختصاص یافته بود، پائینترین امتیازها عملكردهای بهتر را نشان میداد. برای سؤالات مرجع امتیاز موتورهای جستجو بین ۳/۳ و ۳/۵ قرار داشت، اول اپن تكست بعنوان برنده بعد از آن اكسایت و آلتاویستا قرار گرفتند. موتورهای كاوش با سؤالات موضوعی خوب عمل نكردند. امتیازات آنها بین ۵/۲ تا ۲/۴ قرار داشت. اپن تكست و بعد از آن اینفوسیك و وب كرولر بهترین عملكرد را داشتند. اپن تكست در ارائه مرتبطترین گزینه همیشه بهترین بود.
امتیاز تنظیم براساس ارتباط
این امتیاز قدرت موتورهای كاوش را اندازهگیری كرد برای ارائه گزینههای مرتبط در اولین نیمه نتایج جستجو. برای سؤالات مرجع، امتیازات موتورهای كاوش بین ۵/۱۵% تا ۱/۴۵% و با پیشتازی اپن تكست و بعد از آن اینفوسیك و اكسایت قرار داشت. برای سؤالات موضوعی امتیازاتشان بین ۲۳% تا ۸/۵۲% قرار گرفت. اینفوسیك بعنوان بهترین عمل كننده لایكاس در جایگاه دوم و اكسایت به عنوان سومین جایگاه.
عملكرد جامع
چهار معیار جنبههای قدرت بازیابی موتورهای كاوش را اندازهگیری كردند. نمودار ۲ دقت، تكراری بودن و امتیاز مرتبطترین گزینهها را برای سؤالات مرجع خلاصه كرده است.امتیاز رتبهبندی براساس میزان ارتباط در آن وارد نشد، زیرا دامنه آنها خیلی بالاتر بود و نمیتوانست بطور كامل در این نمودار وارد شود. بهترین موتور جستجو بالاترین دقت، پائینترین موارد تكراری، پائینترین امتیاز مرتبط ترین گزینه و بهترین امتیاز تنظیم براساس دقت را دارد. این نتایج در نمودار ۲ روشن است، به هر حال موتورهای كاوش چنین عمل كردند: اپن تكست بالاترین مانعیت و پائینترین امتیاز مرتبطترین گزینه را داشت. اما اكسایت و اینفوسیك پایینترین تعداد موارد تكراری را داشتند. از این ۴ معیار، اپن تكست بهترین امتیاز را از بین آنها داشت و توانست بهترین عمل كننده برای این نوع سؤالات باشد. رتبه دوم مشخص نبود چون این موتورها فقط در یك یا دو معیار ممتاز بودند. با این وجود این امكان وجود داشت كه آنها را به دو گروه تقسیم كنیم: آلتاویستا، اكسایت، اینفوسیك و لایكاس نسبتاً بهتر از ماژلان، وب كرولر و ورلدواید وب وارم عمل كردند.
نمودار ۳ شباهت دشواری را در تعیین برنده برای سؤالات موضوعی نشان میدهد. اطلاعات موجود بر روی نمودار ۳ اینفوسیك را بهترین عملگر میداند و امتیاز تنظیم براساس ارتباط آنرا تقویت میكند. بقیه موارد برای اعلام كردن خیلی مشكل بود.
نتیجهگیریها
این پژوهش ۸ موتور كاوش اصلی را با دوبار جستجوی ۲۶ سؤال در هر كدام از آنها (۴ بار در اكسایت) ارزشیابی كرد. اطلاعات نشان داد كه موتورهای كاوش انتخابی نمیتوانند نتایج خوبی برای سؤالات مرجع واقعی ارائه دهند. اما در مورد سؤالات موضوعی ساختگی خوب عمل كردند. این نكته نیز فهمیده شد كه موتورهای كاوش برای دو نوع سؤال بطور متفاوت عمل كردند: اینفوسیك در سؤالات موضوعی بهتر عمل كرد؛ در حالیكه اپن تكست در سؤالات مرجع بهترین بود. از این پژوهش فهمیده شد كه موارد تكراری یك مشكل نمیتواند باشد. با تعریف متغیر تنظیم براساس میزان ارتباط در موتورهای كاوش میتواند ارزشیابی شود. با ارائه اطلاعاتی در مورد این ۴ متغیر این پژوهش چندین جنبه از عملكرد موتورهای كاوش را روشن كرد.این پژوهش بدون محدودیت نبود. اول، دادههای آن لحظات ناپایدار را در اینترنت ثبت كرد. آنها عكسهایی ارائه دادند از اینكه چگونه موتورهای كاوش از آوریل تا ژوئن ۱۹۹۶ كار كردند. و این تصاویر ممكن است كاملاً نهایی نباشد كه قبلاً بود زیرا اینترنت سریعاً در حال گسترش است. با این وجود، مشابه مطالعه لیتون، این پژوهش دریافت كه اینفوسیك یكی از بهترین موتورهای كاوش است. اگر این تحقیق تكرا شده و همان یافتهها كه بدست آمده. به هر حال یكی از تحقیقات قادر خواهد بود كه اطمینان بیشتری در مورد این یافتهها بدهد. دوم، سؤالات مرجع از یك كتابخانهء دانشگاهی جمعآوری شده بود و سخت بود تعیین كردن اینكه آنها نمونهای از سؤالات مرجع بودند. باز هم، تكرار این پژوهش اعتبار یافتهها را افزایش میداد. سوم، تعداد سؤالات آزمایش احتمالاً میتوانست زیاد باشد اگرچه این پژوهش سؤالات بیشتری نسبت به اغلب پژوهشهای دیگری بكار برد.گذشته از محدودیتها، این پژوهش متغیرهای جدید برای ارزشیابی تنظیم براساس ارتباط تولید كرد و یك طرح تحقیقی برای مقایسه عملكرد موتورهای كاوش برای دو نوع سؤال بكار برد، درك عملكرد موتورهای كاوش را افزایش داد، توصیههایی در مورد اینكه چگونه طراحان سیستم میتوانند سیستمهای خود را بهبود بخشند ارائه داد و اشاره كرد كه چگونه كتابداران میتوانند خودشان و مردم را برای جستجو در اینترنت آماده كنند.
پینوشتها
۱. College & Research Libraries News.
۲. Data collection
۳. Precision
۴. Duplicate
۵. Most-relevant-item scove (MRI)
۶. Releven cy-van king score.
۷. Recell
۸. Data analysis
منابع
All-in-one search page. [online]. Available HTTP: http://www.Albany.net/allinone/Argus Clearinghouse. (۱۹۹۶). Subject guides. [Formerly Clearinghouse for subject-oriented internet resource guides]. [online]. Available HTTP://www.clearinghouse.net/
Boyce, Bert R., Mcadow, Charles T., & Kraft, Donald H. (۱۹۹۴). Measurement in Information Science. San Diego: Academic Press.
Brinkley, Monica, & Burke, Mary. (۱۹۹۵). Information retrieval from the internet: An evaluation of the tools. Internet Research: Electronic Networking Applications and Policy, ۵(۳), ۳-۱۰.
BUBL Information Service. BUBL WWW subject tree-arranged by Universal Decimal Classification. [online]. Available HTTP: http://www.bubl.bath.ac.uk/BUBL/Tree.html
Campbell, Karen. (۱۹۹۶). Understanding and comparing Web search tools. [online]. Available HTTP: http://hamline.edu/library/links/comparisons.html
Courtois, Martin P., Bear, William M., & Stark, Marcella. (۱۹۹۵). Cool tools for searching the web. Online, ۱۹(۶), ۱۴-۳۲.
Desai, Bipin C. (۱۹۹۵). Test: Internet indexing systems vs list of known urls. [Online]. Available HTTP: http://www.cs.concordia.ca/~faculty/bcdesai/test=of=index=systems.html
Infofilter. [Online]. Available HTTP: http://www.kcpl.lib.mo.us/infofilter.htm
Internet Solutions. (۱۹۹۶). Internet statistics-estimated. [Online].
Available HTTP: http://www.internetsol.com/netbin/internetstats
Kimme, Stacey. (۱۹۹۶). Robot-generated databases on the World Wide Web. Database ۱۹(۱): ۴۰-۴۹.
Koster, Martin. (۱۹۹۵). Robots in the Web: thrثat or treat? [Online]. Available HTTP: http://web.nexor.co.uk/mak/doc/robots/threat-or-treat.html
Leighton, H. Vernon. (۱۹۹۵). World Wide Web indexes: A study. [Online]. Available HTTP: http://www.winona.msus.edu/services-f/library-f/webind.htm
Library of Congress. WWW by subject or keyword.[Online].
Available http://lcweb.loc.gov/global/search.html#www
Liu, Jian. (۱۹۹۶). Undestanding WWW search tools. [Online]. Available
HTTP: http://www.Indiana.edu/~librcsd/search/
Lottor, Mark. (۱۹۹۶). Domain survey. [Online]. Available HTTP: http://www.nw.com/
Mckiernan, Gerry. Cyberstacks(sm). [Online]. Available HTTP: http://www.public-iastate.edu/~CYBERSTACKS/
Meghabghab, Dania Bilal, & Meghabghab, George V. (۱۹۹۶). Information retrieval in cyberspace. In The Digital Revolution: Proceedings of the ASIS Midyear Meeting. San Diego, California May ۱۸-۲۲, ۱۹۹۶(pp.۲۲۴-۲۳۷),Medford, New Jersey: Information Today.
Netscape. Net search. [Online]. Available HTTP: http://home.netscape.com/home/internet-search.html
Online Computer Library center, NetFirst. [Online].
Available HTTP: http://www.oclc.org/oclc/netfirst/netfirst.html
Packer, Joan G., & Tomaiuolo, Nicholas G. (۱۹۹۶). Qualitative analysis of five WWW “search engines”. [Online].
Available HTTP: http://neal.ctstateu.edu:۲۰۰۱/htdocs/websearch.html
ترجمه: قاسم آزادی
دانشجوی كارشناسی ارشد كتابداری و اطلاعرسانی دانشگاه تهران
منبع : مركز اطلاعات و مدارك علمی ایران
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست