ارزیابی بازیابی اطلاعات

●مقدمه

از سال ۱۹۴۰ مساله ذخیره و بازیابی اطلاعات مورد توجه بسیار قرار گرفت. این مساله از زمانی آغاز شد كه بشر سعی كرد محیط پیرامون خود را كنترل كند یا حداقل از فشارهای خارجی كه باعث نابودی او می شدند جلوگیری كند. بشر برای ایجاد محیطی مطلوب برای ادامه بقا به اتخاذ تصمیمات سریع، صحیح، دقیق نیاز داشت. كیفیت این تصمیمات به توانایی تصمیم گیرنده در حل مسایل وابسته بود ولی قبل از آن به میزان ارتباط كیفیت اطلاعاتی وابسته بود كه تصمیم گیرنده برای حل مشكل فراهم آورده بود. بتدریج در طول تاریخ جمع آوری، سازماندهی و نگهداری امری متداول و مرسوم شد.

در چند دهه اخیر بازیابی رایانه ای مورد توجه خاصی قرار گرفته كه علت آن را می توان ۴ عامل دانست: افزایش اهمیت زمان، تغییر در كمیت و كیفیت اطلاعات، تغییر در ماهیت نیازهای اطلاعاتی، تغییر در اهمیت منابع اطلاعاتی. این عوامل تغییر و توسعه در سیستم های بازیابی اطلاعات را به دنبال داشته و موجب مطرح شدن بحث هایی از جمله لزوم تغییر در ابزارهای اطلاعاتی، ایجاد سیستم های ارتباطی جدید و استفاده از آنها و تغییر معانی اشاعه اطلاعات شده اند.

امروزه رشد اهمیت حیاتی اطلاعات، لزوم صرفه جویی در وقت و هزینه جستجوكنندگان، جوان بودن شبكه های گسترده بخصوص از لحاظ سرعت، لزوم دستیابی سریع، جامع و مانع به اطلاعات خاص مورد نیاز از جمله مسایل مهمی هستند كه اهمیت یك فرایند بازیابی حساب شده، كنترل شده و كامل را آشكار می سازند.

می توان گفت هنوز هم مساله بازیابی موثر همچنان در حد وسیعی بصورت حل نشده باقی مانده است و هدف یك استراتژی اتوماتیك بازیابی، بدست آوردن تمام مدارك مربوط و در عین حال بازیابی كمترین مدارك نامربوط تا حد امكان است، بعبارتی مفهوم ربط در مركز مساله بازیابی اطلاعات قراردارد. میتوان با یك نمودار سیستم بازیابی اطلاعات را به صورت زیر نمایش داد:

با توجه به مدل ارائه شده هر سیستم بر سه محور سازماندهی، بازیابی و نمایش اطلاعات استوار است و چرخه عمل بازیابی اطلاعات شامل ۷ مرحله زیر است:

۱. انتخاب یك بانك اطلاعاتی برای انجام جستجو: بر مبنای بانكهای موجود و نیاز اطلاعاتی كاربر، یك بانك اطلاعاتی انتخاب می شود آنگاه سیستم خلاصه ای از اطلاعات، محدوده تاریخی ركوردها، تعداد ركوردها، قیمت و را در اختیار كاربر قرار می دهد.

۲. جستجو برای واژه های مورد نظر در بانك واژگان: قبل از انجام جستجو برای فرمول بندی جستجو، كاربر می تواند هریك از واژه نامه های موجود در سیستم را مورد استفاده قرار دهد. واژه نامه ها نقش بسیار مهمی در بازیابی اطلاعات ایفا می كنند. حداقل استفاده ای كه از بانك واژگان بعمل می آید این است كه كاربر خواهد فهمید كه آیا واژه های كورد نظر او در بانك اطلاعاتی وجود دارند؟ شكل صحیح آنها به چه صورت است و ....

۳. ایجاد فرمول جستجو و انجام جستجو: فرمول بندی صحیح و دقیق نیازهای اطلاعاتی كاربران وابسته به امكانات بازیابی اطلاعات برای فرمول بندی می باشد. هرچه قابلیتهای بیشتری فراهم آورده شود، كاربر راحتتر و آسانتر می تواند به بیان نیازهای خود بپردازد. امكانات لازم برای فرمول بندی جستجو در یك سیستم بهینه شامل امكان استفاده از عملگرهای بولی، عملگرهای جستجوی املایی و ... می باشد.

۴. نمایش و بازبینی ركوردها: بازخورد خوب سیستم در این قسمت نقش مهمی در هدایت كاربر برای رسیدن به اطلاعات مورد نظرش دارد. در این قسمت سیستم باید بتواند به سوالات زیر پاسخ دهد:

- چه ركوردهایی با نیاز اطلاعاتی كاربر مطابقت دارند؟- آیا مجموعه ركوردهای بازیابی شده با نیازهای اطلاعاتی كاربر مطابقت دارند؟ و ....

۵. سفارش مدرك

۶. درخواست برای اطلاعاتی درباره سیستم بازیابی اطلاعات

۷. برقراری پارامترهای نمایشی و ارتباطی در مجموعه: كه چهار مقوله باید به عنوان مهم ترین اهداف مدنظر طراحان سیستمهای بازیابی اطلاعات قرار گیرند: بهینه سازی انتخاب واژكان جستجو توسط كاربران، بهینه سازی فرمول جستجوی كاربران، بهینه سازی تعداد ركوردهای بازیابی شده، بهینه سازی ضریب دقت و بازیابی یا بهینه سازی كلی بازیابی اطلاعات.

در نهایت باید این نكته را خاطرنشان كرد كه جستجوگران باتجربه و متخصصان بازیابی این نكته را میدانند كه جستجو مستلزم صرف وقت و هزینه است و در این مسیر باید با اصلاح، بازنویسی و تكرار چرخه جستجو به نتایج دلخواه دست یافت.

●ارزیابی بازیابی اطلاعات

ایجاد نظامهای بازیابی اطلاعات در مقیاس وسیع بسیار پرهزینه است. هزینه های كاوش قابل ملاحظه هستند و زمان قابل توجهی برای جستجوی اطلاعات در پایگاهها توسط متخصصان اطلاع رسانی و كاربران نهایی صرف می شود، و از همه مهمتر اینكه یك كاوش در بهترین حالت ممكن می تواند آنچه را كه مورد جستجو است بیابد. درحالیكه اطلاعات دیگر حذف می شوند. و در بدترین حالت جستجو می تواند اطلاعات بی ارزش را ارائه دهد و در عین حال موارد مورد نیاز را از دست بدهد. بنابراین مهم است بدانیم كدام نظامها و كاوشها و جستجوگران بیش از همه موثرند.

تحقیقات و تلاشهای بسیاری در جهت حل مساله ارزیابی سیستمهای بازیابی اطلاعات صورت گرفته است و گفته می شود كه بسیاری از افرادی كه در زمینه ذخیره و بازیابی اطلاعات فعالیت دارند احساس می كنند كه این مساله تا حل شدن فاصله زیادی دارد.

اطلاع یابی فعالیتی عملی با هدفی بسیار دقیق و مشخص است با وجود این، تلاشهایی كه در جهت ارزیابی این فعالیت انجام شده برگرفته از كاوشهای واقعی توسط جستجوگران واقعی برای پاسخ به نیاز اطلاعاتی واقعی بوده است.

اغلب متفكران علم اطلاع رسانی درگیر این مساله هستند كه چگونه می توان بازیابی اطلاعاتی را به بهترین وجه ارزیابی كرد.

برای قرار دادن مساله ارزیابی در یك چشم‌انداز می توان سه سوال را مطرح نمود: ۱) چرا ارزیابی می كنیم؟ ۲) چه چیزی را باید ارزیابی كرد؟ ۳) چگونه باید ارزیابی كرد؟ كه پاسخ به این سوالات به خوبی زمیته ارزیابی را پوشش خواهد داد.

پاسخ به سوال اول جنبه اجتماعی و اقتصادی دارد. جنبه اجتماعی آن اساسا وابسته به طراحی برای ایجاد یك معیار سنجش اثربخشی در سیستم های بازیابی اطلاعات است. برای مثال كاربران از تعویض منابع سنتی اطلاعات با یك سیستم كاملا اتوماتیك و تعاملی بازیابی اطلاعات چه سود یا زیانی خواهند برد؟ مطالعات در این زمینه در حال انجامند اما به نتیجه رسیدن كمی دشوار است چرا كه برای برخی از سیستمهای بازیابی، اثربخشی ممكن است راحت تر از سایر سیستمها اندازه گیری شود.

جنبه اقتصادی به این امر وابسته است كه استفاده از یكی از این سیستمها چقدر برای شما هزینه دارد و آیا اصلا ارزش این میزان هزینه را دارد یا نه؟ كه در این مورد هم به نتیجه رسیدن دشوار است چرا كه مثلا هزینه های كامپیوتری به راحتی اندازه گیری می شوند اما دستیابی به هزینه نیروی انسانی فعال در این زمینه مشكل تر است. بنابراین ارزشمند بودن یا نبودن بستگی به خود كاربر دارد.

اكنون مشخص شد كه در ارزیابی یك سیستم بازیابی اطلاعات اساسا با تهیه اطلاعات مواجهیم و كاربر است كه می تواند تصمیم گیری كند كه ۱) آیا آن سیستم را می خواهد؟ (جنبه اجتماعی) و ۲) آیا از نظر اقتصادی این سیستم ارزشمند است یا خیر؟ بعبارت دیگر وقتی كه درخواستی مطرح می شود و استراتژی جستجو شكل می گیرد، معیارهای ارزیابی مشخص كننده این هستند كه آیا این درخواست از نوع ارزشمند است.

سوال دوم (چه چیزی را باید ارزیابی كنیم؟) ما را به این سمت هدایت می كند كه چه چیزهایی را می توانیم اندازه گیری كنیم كه نشاندهنده توانایی سیستم در برآوردن نیازهای كاربر باشد. در این مورد ۶ كمیت ذكر شده اند كه عبارتند از:

۱) پوشش مجموعه كه دامنه شمول منابع مرتبط در سیستم است.

۲) عقب ماندگی زمان كه میانگین مدتی است میان زمانی كه درخواست جستجو شكل می گیرد و زمانی كه پاسخی ارائه می شود.

۳) شكل ارائه برونداد.

۴) تلاشی كه از سوی كاربر برای بدست آوردن پاسخ به نیاز اطلاعاتی اش صورت می گیرد.

۵) جامعیت سیستم كه نسبت منابع مرتبطی است كه به صورت واقعی برای پاسخگویی به یك درخواست جستجو بازیابی می شوند.

۶) مانعیت سیستم كه نسبت آن دسته از مواد بازیابی شده ای هستند كه واقعا مرتبط با درخواست كاربر می باشند.

ادعا شده كه موارد ۱ تا ۴ بسهولت قابل تشخیص اند و جامعیت و مانعیت هستند كه در آنچه كه ما آن را بازیابی كارآمد سیستم می نامیم موثر هستند. بعبارت دیگر بازیابی مدارك مرتبط و در عین حال جلوگیری از بازیابی مدارك نامربوط مقیاسی است برای سنجش تواناییهای سیستم. امروزه مشخص شده است كه هرچه سیستم كارآمدتر باشد بیشتر استفاده كنندگان را راضی خواهد كرد، همچنین مشخص شده است كه جامغیت و مانعیت برای سنجش كارآمدی یك سیستم كمیتهایی مناسب و در عین حال كافی هستند.

افزایش فزاینده موتورهای كاوش وب، كتابخانه های دیجیتالی و سیستمهای بازیابی اطلاعات و توسعه ابزارهای جدید كاوش وب، نیازمند توسعه مقیاسهای ارزیابی جدیدتر و بیشتر ارزیابی اطلاعات است. در گذشته بحث های بسیاری در مورد اینكه آیا جامعیت و مانعیت كمیتهای مناسبی برای اندازه گیری كارایی هستند یا خیر، وجود داشت. یكی از معیارهای اینچنینی بازیافت و ریزش بود، با وجود این هریك از این معیارها نیز امروزه در برخی از جنبه ها كارایی دارند. مزایای پایه ریزی ارزیابی بر جامعیت و مانعیت عبارتند از:

۱) جفت كلماتی هستند كه بیشترین استفاده را دارند.

۲) كمیتهایی هستند كه معنی آنها به خوبی درك شده است.

سوال آخر (چگونه ارزیابی می كنیم؟) پاسخ های تكنیكی بسیاری دارد، ولی جالب است یادآوری شود كه تكنیكهای سنجش كارایی بازیابی تا حد بسیار تحت تاثیر استراتژی بازیابی اتخاذ شده و شكل برونداد آن قرار دارد.

●معیارهایی برای سنجش ارزیابی بازیابی اطلاعات

پیشنهاد شده است كه سنجش معنادار ارزیابی بازیابی اطلاعات بایستی برای محققان و طراحان سیستمهای بازیابی اطلاعات سودمند باشد. همچنین برای افرادی كه از سیستمهای بازیابی اطلاعات استفاده می كنند معنادار باشد. بعبارتی:

۱) معیارهای ارزیابی بازیابی اطلاعات بایستی برای جویندگان اطلاعات حائز اهمیت و معنادار باشد.

۲) آنچه كه برای جویندگان اطلاعات مهم است در نهایت حل شدن مشكلات اطلاعاتی شان است.

۳) جویندگان اطلاعات برای رفع مشكل اطلاعاتی خود، در میان فرایندهای جستجوی اطلاعات تغییر مكان می دهند.

۴) اگر جویندگان اطلاعات با سیستمهای بازیابی اطلاعات در تعامل باشند سنجش ارزیابی بازیابی اطلاعات بایستی در رابطه با تاثیر سیستم بر كاربران و نیازهای اطلاعاتی آنها باشد.

۵) معیار ارزیابی بازیابی اطلاعات بایستی یك ابزار خودارزیابی باشد.

قبل از پرداختن به بحث در مورد جامعیت و مانعیت لازم است در مورد مفهوم ربط توضیح مختصری داده شود:

●ربط

ربط یك مفهوم فردی است. كاربران مختلف ممكن است در مورد مربوط یا نامربوط بودن یك مدرك خاص به سوالات مطرح شده اختلاف نظر داشته باشند. با این وجود این اختلاف نظر به حدی نیست كه نتایج آزمایشهایی را كه بر روی مجموعه مدارك برای تشخیص ربط با سوالات انجام شده اند را باطل كند. این سوالات معمولا از كاربران واجد شرایط استخراج می شوند كه اینها كاربرانی هستند در موقعیت خاص كه نیاز اطلاعاتی دارند.

ربط یك مفهوم اساسی در اطلاع رسانی است و به عنوان معیار اصلی ارزیابی اثربخشی بازیابی اطلاعات و عامل تاثیر گذار بر طرح عملی و ارزیابی نظامهای بازیابی اطلاعات عمل می كند. ربط مفهومی پیچیده دارد و در اواخر دهه ۱۹۵۰ به وضوح مشخص شد كه انواع مختلف ربط وجود دارد. مفهومی از ربط وجود دارد كه می توان گفت عینی و قابل توجه است. این مفهوم از ربط توسط كوپر مشخص شد و بطرزی شایسته ربط منطقی نام گرفت. استفاده از این مفهوم در سیستمهای بازیابی امروزه محدود است و بیشتر در سوالاتی كه به پاسخ بله یا خیر محدود می شوند كارایی دارد.ربط معنی دار بودن جملات است، گرچه كه ربط منطقی در ابتدا بین جملات مشخص می شد ولی به راحتی می توان آن را در مورد مدارك ذخیره شده گسترش داد. یك مدرك به یك نیاز اطلاعاتی مربوط است اگر و تنها اگر محتویات آن در نهایت یك پاسخ مرتبط با آن نیاز باشد.

نوشته: حمید احمدی

منابع

۱. گزنی، علی. طراحی سیستمهای بازیابی اطلاعات بهینه در نرم افزارهای كتابخانه ای اطلاع رسانی. فصلنامه اطلاع رسانی. دوره ۱۶ شماره ۲۱.

۲. لارج، آندرو. تد، لوسی. هارتلی، ریچارد. جستجوی اطلاعات در عصر اطلاعات: اصول و مهارتها. ترجمه زاهد بیگدلی. تهران: كتابدار، ۱۳۸۲.

۳. یوسفی، احمد. ریزش كاذب در ذخیره و بازیابی اطلاعات. فصلنامه اطلاع رسانی. دوره ۱۳ شماره ۱.

Rijsbergen C.J. Information retrieval. Available on: www.dcs.gla.ac.uk/keith/preface.html

Toward a theorical framework for information retrieval. Available on: http://Ewic.bcs.org/confereces/۱۹۹۹/mira۹۹/papers/paper۹.pdf