دوشنبه, ۲۴ دی, ۱۴۰۳ / 13 January, 2025
مجله ویستا

بازیابی اطلاعات در وب فراتر از موتورهای جستجوی كنونی


بازیابی اطلاعات در وب فراتر از موتورهای جستجوی كنونی

در این مقاله به اختصار چالش های مربوط به گسترش بازیابی اطلاعات در وب, بخصوص دیگر انواع داده ها , وب كاوی و موضوعات مرتبط با كاوش, همچنین روابط اصلی بازیابی اطلاعات و محاسبات تقریبی, و چگونگی رفع این چالش ها با این تكنیك ها را بررسی می كنیم

۱. مقدمه

وب به صورت بزرگ‌ترین منبع داده‌ها در آمده كه به سهولت قابل دسترسی است؛ از این رو طبیعی است كه اطلاعات از آن استخراج شود و موتورهای جستجو ی وب به یكی از پراستفاده‌ترین ابزارها در اینترنت تبدیل شده‌اند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشكل می‌سازد. در واقع، كاوش در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد كه یك فایل فیزیكی یك مدرك منطقی است؛ و این همیشه درست نیست.

تحقیق اخیر دربارهٔ چالش‌های جستجو در وب، شامل مسائل زیر است ]۱۰، ۲۰، ۲۵[ :

• نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و كامل نگه‌داشتن؛

• شناسایی و حذف محتوا و پیوندهای مغرضانه، كه اطلاعات ناخواستهٔ موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض» می‌نامند؛

• مشخص‌كردن محتوای با كیفیت خوب. وب پر از محتویات با كیفیت پایین (از نظر نحوی و معنایی) مشتمل بر داده‌های پارازیتی، نامعتبر و متناقض می‌باشد. بنابراین، ما این مشكل را داریم كه تا چه حد می‌توان به یك وب‌سایت اعتماد كرد. این، شامل ساختار «اچ‌تی‌ام‌ال» (كه در بیشتر موارد مبهم و نامتجانس است) نیز می‌شود.

• بهره‌برداری از بازخورد كاربر، چه از ارزیابی صریح كاربر یا به طور ضمنی از گزارش‌های وب . در این جا می‌توانیم اطلاعات ضمنی را كه توسط نویسندگان صفحات وب و به شكل چندین قاعدهٔ مورد استفاده در طراحی «اچ‌تی‌ام‌ال» ارائه می‌شود نیز اضافه كنیم؛

• كشف نسخه‌های مشابه از میزبان‌ها و محتویات، به منظور اجتناب از كاوش غیرضروری.

• تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی یا اجرایی . برآورد شده است كه كمتر از ۵۰ درصد درخواست‌ها از نوع اول می‌باشد.

• بهبود زبان پرس‌وجو، اضافه‌كردن زمینهٔ اطلاعات مورد درخواست، از قبیل نوع یا زمان؛

• بهبود رتبه‌بندی، بخصوص برای مرتبط‌كردن آن با فردی كه پرسش را مطرح كرده است. اساس ربط، قضاوت‌های شخصی است؛ بنابراین رتبه‌بندی بر اساس پروفایل‌های كاربر یا اطلاعات زمینه‌ای دیگری كه مربوط به كاربر است، می‌تواند مفید باشد. در اینجا می‌توانیم كیفیت، اعتماد و موضوعات بازخورد كاربر را نیز اضافه كنیم.

فهم تمام این مسائل بدون داده‌های واقعی دشوار است، بنابراین نتایج تجربی بیشتری مورد نیاز است. مطالب بیشتر را می‌توان در ]۱۱،۲،۱[ پیدا كردوب چیزی بیش از«اچ‌تی‌ام‌ال» محض و دیگر ساختارهای متنی متداول است و ما می‌خواهیم دیگر انواع داده‌ها را نیز جستجو كنیم، كه در میان آن‌ها صفحات پویا، اشیای چندرسانه‌ای، داده‌های «ایكس‌ام‌ال» و اطلاعات معنایی همراه با آن‌ها را داریم. اگر «وب معنایی» علی‌رغم تمام مسائل اجتماعی كه باید حل شوند صورت واقعی به خود گیرد، یك وب بر پایه‌ی «ایكس‌ام‌ال» با طرح كلی و فراداده‌های معنایی استاندارد خواهیم داشت. در چنان محیط محتملی، بازیابی اطلاعات آسان‌تر می‌گردد و حتی جستجوی چندرسانه‌ای ساده می‌شود. در چنین محیطی اطلاعات ناخواسته باید از بین برود و تشخیص محتوای خوب، راحت‌تر است. ازطرف دیگر، مسائل جدید بازیابی مانند پردازش و بازیابی «ایكس‌ام‌ال» و وب‌كاوی بر روی داده‌های ساختاری پیدا می‌شود.

«لطفی‌زاده» ]۲۸[ مفهوم محاسبات تقریبی را به عنوان همگرایی روش‌ها كه در مجموع، پایه‌ای برای مفهوم‌سازی، طرح، ساخت و به‌كارگیری سیستم‌های هوشمند/ اطلاعاتی فراهم می‌آورند ارائه كرد. برخی از روش‌های اصلی محاسبهٔ تقریبی عبارت‌اند از منطق فازی ، الگوریتم‌های تكاملی ، شبكه‌های عصبی ، مجموعه‌های ناهموار ، شبكه‌های بیزی و دیگر شیوه‌های احتمالاتی. ویژگی اصلی محاسبهٔ تقریبی این است كه نسبت به عدم دقت، ابهام، حقیقت ناقص، و برآورد، مقاوم است. ذهنیت، ابهام و عدم دقت، ویژگی‌های معمول در هر فرآیند بازیابی اطلاعات هستند. استفاده از فنون محاسبهٔ تقریبی برای بهبود فرآیندهای بازیابی اطلاعات، رضایت‌بخش بوده است. بخصوص، فكر می‌كنیم كه كاربرد آن برای حل مسائل مختلف بازیابی اطلاعات كه اخیراً در وب پدیدار شده‌اند، مفید است.

ما بحث را از چالش‌های داده‌ای شروع می‌كنیم و به دنبال آن یك مقدمهٔ كوتاه دربارهٔ وب‌كاوی می‌آوریم. سپس به نظراتی دربارهٔ حل نسبی مسئلهٔ كاوش می‌پردازیم و در پایان، یك توضیح كوتاه دربارهٔ كاربرد محاسبهٔ تقریبی در بازیابی اطلاعات می‌آوریم.

۲. چالش‌های داده‌ای

چندین موضوع داده‌ای وجود دارند كه لازم است بررسی شوند، كه از جمله باید صفحات پویا یا پنهان ، داده‌های چندرسانه‌ای ، داده‌های ساختاریافته و داده‌های معنایی را ذكر كنیم. سپس هر یك از آن‌ها را توضیح می‌دهیم، بجز داده‌های پنهان كه یك مورد خاص از داده‌های عام، با مسئلهٔ دسترسی محدود می‌باشد.

۲-۱. داده‌های پویا

وب ایستا در مقایسه با محتوایی كه بر اساس درخواست، بخصوص بنابر ارائهٔ درخواست در كسب و كار الكترونیكی یا در سایت‌های خدمات اطلاعاتی ایجاد می‌شود، كوچك شده است. نرم‌افزارهای كنونی كاوش می‌توانند پیوندهای پویا را دنبال كنند، اما این كار باید با دقت انجام شود، زیرا ممكن است هیچ محدودیتی وجود نداشته باشد، یا حتی یك صفحهٔ مشابه، دوباره و دوباره تولید شود. دسترسی به صفحاتی غیر از آنچه در فرم‌های پرسش درخواست می‌شود، از این هم دشوارتر است، زیرا كاوشگر شناختی از پایگاه اطلاعاتی ندارد. از طرف دیگر، حتی اگر پایگاه اطلاعاتی شناخته‌شده باشد، درخواست همهٔ سؤالات ممكن، بسیار وقتگیر خواهد بود (وابسته به اندازهٔ پایگاه اطلاعاتی، به طور تصاعدی افزایش می‌یابد) و حتی اگر فقط به درخواست‌های ساده بسنده كنیم، بعضی از این درخواست‌ها ممكن است هرگز توسط اشخاص حقیقی مطرح نشوند. خدمات وب، اگر امكان یادگیری از پایگاه اطلاعاتی و نحوهٔ‌ پرسش افراد از آن را فراهم كنند، ممكن است راه حل نسبی برای این مسئله باشند. مثلاً به‌دست‌آوردن هزار درخواستی كه بیشترین تكرار را دارند،‌ ممكن است كافی باشد. امكان دیگر، تجزیه و تحلیل صفحه است، مانند كاری كه در ]۲۳[ انجام شده.

۲-۲. داده‌های چندرسانه‌ای

داده‌های چندرسانه‌ای شامل تصاویر، تصاویر متحرك، صوت در چندین شكل، و ویدیو است. همهٔ این‌ها قالب استاندارد ندارند. متداول‌ترین آن‌ها JPG وGIF, PNG برای تصاویر، MP۳ برای موسیقی، Real Video یا Quicktimeبرای ویدیو، و ... می‌باشند. راه‌حل ایده‌آل این است كه بر روی هر نوع داده (از جمله متن)، با استفاده از الگوی یكسان و با زبان درخواست واحد، جستجو انجام شود. این هدف بلندپروازانه شاید امكانپذیر نباشد.

برای یك نوع دادهٔ خاص می‌توانیم یك مدل تشابه به وجود آوریم، و براساس نوع‌داده‌ها، زبان درخواست تغییر كند. مثلاً درخواست به وسیلهٔ مثال برای تصاویر، یا درخواست به‌وسیلهٔ زمزمه برای صوت. تمام این زمینه‌ها بیشتر متعلق به پردازش تصاویر و علائم است تا به بازیابی اطلاعات به روش كلاسیك.

۲-۳. داده‌های ساخت‌یافته

اغلب داده‌ها تا حدودی دارای ساختار هستند، و نهایتاً داده‌های نیمه ساخت‌یافته نام دارند. نمونه‌های آن پست الكترونیكی، اخبار ارسالی، و... هستند. اگر «ایكس‌ام‌ال» متداول شود، سطح ساختار باز هم بالاتر می‌رود. اولین چالش، طراحی مدل‌‌های داده‌ای و زبان‌های پرس‌وجوی مربوط به آن‌ها است كه امكان می‌دهد محتوا و ساختار با هم درآمیزند. متن‌های ساخت‌یافته را در مرتبهٔ قبل از «ایكس‌ام‌ال» می‌دانستند و چندین واسطهٔ كارآیی/گویایی، طراحی شد ]۳[. بعد از «ایكس‌ام‌ال»، «كنسرسیوم وب جهانی»، «ایكس كوئری» را به عنوان استاندارد معرفی كرده است ]۲۷[.

در هنگام بازیابی داده‌های «ایكس‌ام‌ال»، چندین چالش وجود دارد:

• پاسخ می‌تواند جزئی از «ایكس‌ام‌ال» باشد و حتماًً لازم نیست یك شیء كامل باشد. با وجود این، پاسخ‌ها نیز باید داده‌های مبتنی بر«ایكس‌ام‌ال» باشند.

• بسیاری از پاسخ‌ها را می‌توان در یك شیء «ایكس‌ام‌ال» واحد آورد و می‌توانند با یكدیگر، همپوشانی داشته باشند.

• چگونه یك پاسخ را رتبه‌بندی كنیم و اگر لازم باشد پاسخ را در قالب انواع ساختارهای خاصی ارائه دهیم، و چگونه رتبه‌بندی را برای آن‌ها اعمال كنیم؟ گاهی اوقات با تركیب درختواره‌های فرعی اگر نزدیك به هم باشند، رتبه‌بندی بهتری خواهیم داشت. اما در موارد دیگر اگر كاملاً دور از هم باشند، بهتر است.تحقیقات اخیر دربارهٔ این موضوعات در ]۶ ، ۷ ، ۱۷ ،۱۸[ آمده است.مسئلهٔ دیگر، پردازش جریانات «ایكس‌ام‌ال»، یعنی غربال‌كردن جریانی از اشیای «ایكس‌ام‌ال» به‌وسیله مجموعهٔ گسترده‌ای از پرسش‌ها می‌باشد. در این جا پرسش‌ها را می‌توان نمایه‌سازی كرد، اما داده‌ها را نمی‌توان. برای مطالعهٔ مقدمه‌ای بر این مسئله،]۲۴[ را ببینید.


شما در حال مطالعه صفحه 1 از یک مقاله 2 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.