جمعه, ۷ اردیبهشت, ۱۴۰۳ / 26 April, 2024
مجله ویستا

بازیابی اطلاعات در وب: فراتر از موتورهای جستجوی کنونی


بازیابی اطلاعات در وب: فراتر از موتورهای جستجوی کنونی
۱. مقدمه
وب به صورت بزرگ‌ترین منبع داده‌ها در آمده كه به سهولت قابل دسترسی است؛ از این رو طبیعی است كه اطلاعات از آن استخراج شود و موتورهای جستجو ی وب به یكی از پراستفاده‌ترین ابزارها در اینترنت تبدیل شده‌اند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشكل می‌سازد. در واقع، كاوش در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد كه یك فایل فیزیكی یك مدرك منطقی است؛ و این همیشه درست نیست.
تحقیق اخیر دربارهٔ چالش‌های جستجو در وب، شامل مسائل زیر است ]۱۰، ۲۰، ۲۵[ :
• نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و كامل نگه‌داشتن؛
• شناسایی و حذف محتوا و پیوندهای مغرضانه، كه اطلاعات ناخواستهٔ موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض» می‌نامند؛
• مشخص‌كردن محتوای با كیفیت خوب. وب پر از محتویات با كیفیت پایین (از نظر نحوی و معنایی) مشتمل بر داده‌های پارازیتی، نامعتبر و متناقض می‌باشد. بنابراین، ما این مشكل را داریم كه تا چه حد می‌توان به یك وب‌سایت اعتماد كرد. این، شامل ساختار «اچ‌تی‌ام‌ال» (كه در بیشتر موارد مبهم و نامتجانس است) نیز می‌شود.
• بهره‌برداری از بازخورد كاربر، چه از ارزیابی صریح كاربر یا به طور ضمنی از گزارش‌های وب . در این جا می‌توانیم اطلاعات ضمنی را كه توسط نویسندگان صفحات وب و به شكل چندین قاعدهٔ مورد استفاده در طراحی «اچ‌تی‌ام‌ال» ارائه می‌شود نیز اضافه كنیم؛
• كشف نسخه‌های مشابه از میزبان‌ها و محتویات، به منظور اجتناب از كاوش غیرضروری.
• تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی یا اجرایی . برآورد شده است كه كمتر از ۵۰ درصد درخواست‌ها از نوع اول می‌باشد.
• بهبود زبان پرس‌وجو، اضافه‌كردن زمینهٔ اطلاعات مورد درخواست، از قبیل نوع یا زمان؛
• بهبود رتبه‌بندی، بخصوص برای مرتبط‌كردن آن با فردی كه پرسش را مطرح كرده است. اساس ربط، قضاوت‌های شخصی است؛ بنابراین رتبه‌بندی بر اساس پروفایل‌های كاربر یا اطلاعات زمینه‌ای دیگری كه مربوط به كاربر است، می‌تواند مفید باشد. در اینجا می‌توانیم كیفیت، اعتماد و موضوعات بازخورد كاربر را نیز اضافه كنیم.
فهم تمام این مسائل بدون داده‌های واقعی دشوار است، بنابراین نتایج تجربی بیشتری مورد نیاز است. مطالب بیشتر را می‌توان در ]۱۱،۲،۱[ پیدا كردوب چیزی بیش از«اچ‌تی‌ام‌ال» محض و دیگر ساختارهای متنی متداول است و ما می‌خواهیم دیگر انواع داده‌ها را نیز جستجو كنیم، كه در میان آن‌ها صفحات پویا، اشیای چندرسانه‌ای، داده‌های «ایكس‌ام‌ال» و اطلاعات معنایی همراه با آن‌ها را داریم. اگر «وب معنایی» علی‌رغم تمام مسائل اجتماعی كه باید حل شوند صورت واقعی به خود گیرد، یك وب بر پایه‌ی «ایكس‌ام‌ال» با طرح كلی و فراداده‌های معنایی استاندارد خواهیم داشت. در چنان محیط محتملی، بازیابی اطلاعات آسان‌تر می‌گردد و حتی جستجوی چندرسانه‌ای ساده می‌شود. در چنین محیطی اطلاعات ناخواسته باید از بین برود و تشخیص محتوای خوب، راحت‌تر است. ازطرف دیگر، مسائل جدید بازیابی مانند پردازش و بازیابی «ایكس‌ام‌ال» و وب‌كاوی بر روی داده‌های ساختاری پیدا می‌شود.
«لطفی‌زاده» ]۲۸[ مفهوم محاسبات تقریبی را به عنوان همگرایی روش‌ها كه در مجموع، پایه‌ای برای مفهوم‌سازی، طرح، ساخت و به‌كارگیری سیستم‌های هوشمند/ اطلاعاتی فراهم می‌آورند ارائه كرد. برخی از روش‌های اصلی محاسبهٔ تقریبی عبارت‌اند از منطق فازی ، الگوریتم‌های تكاملی ، شبكه‌های عصبی ، مجموعه‌های ناهموار ، شبكه‌های بیزی و دیگر شیوه‌های احتمالاتی. ویژگی اصلی محاسبهٔ تقریبی این است كه نسبت به عدم دقت، ابهام، حقیقت ناقص، و برآورد، مقاوم است. ذهنیت، ابهام و عدم دقت، ویژگی‌های معمول در هر فرآیند بازیابی اطلاعات هستند. استفاده از فنون محاسبهٔ تقریبی برای بهبود فرآیندهای بازیابی اطلاعات، رضایت‌بخش بوده است. بخصوص، فكر می‌كنیم كه كاربرد آن برای حل مسائل مختلف بازیابی اطلاعات كه اخیراً در وب پدیدار شده‌اند، مفید است.
ما بحث را از چالش‌های داده‌ای شروع می‌كنیم و به دنبال آن یك مقدمهٔ كوتاه دربارهٔ وب‌كاوی می‌آوریم. سپس به نظراتی دربارهٔ حل نسبی مسئلهٔ كاوش می‌پردازیم و در پایان، یك توضیح كوتاه دربارهٔ كاربرد محاسبهٔ تقریبی در بازیابی اطلاعات می‌آوریم.
۲. چالش‌های داده‌ای
چندین موضوع داده‌ای وجود دارند كه لازم است بررسی شوند، كه از جمله باید صفحات پویا یا پنهان ، داده‌های چندرسانه‌ای ، داده‌های ساختاریافته و داده‌های معنایی را ذكر كنیم. سپس هر یك از آن‌ها را توضیح می‌دهیم، بجز داده‌های پنهان كه یك مورد خاص از داده‌های عام، با مسئلهٔ دسترسی محدود می‌باشد.
۲-۱. داده‌های پویا
وب ایستا در مقایسه با محتوایی كه بر اساس درخواست، بخصوص بنابر ارائهٔ درخواست در كسب و كار الكترونیكی یا در سایت‌های خدمات اطلاعاتی ایجاد می‌شود، كوچك شده است. نرم‌افزارهای كنونی كاوش می‌توانند پیوندهای پویا را دنبال كنند، اما این كار باید با دقت انجام شود، زیرا ممكن است هیچ محدودیتی وجود نداشته باشد، یا حتی یك صفحهٔ مشابه، دوباره و دوباره تولید شود. دسترسی به صفحاتی غیر از آنچه در فرم‌های پرسش درخواست می‌شود، از این هم دشوارتر است، زیرا كاوشگر شناختی از پایگاه اطلاعاتی ندارد. از طرف دیگر، حتی اگر پایگاه اطلاعاتی شناخته‌شده باشد، درخواست همهٔ سؤالات ممكن، بسیار وقتگیر خواهد بود (وابسته به اندازهٔ پایگاه اطلاعاتی، به طور تصاعدی افزایش می‌یابد) و حتی اگر فقط به درخواست‌های ساده بسنده كنیم، بعضی از این درخواست‌ها ممكن است هرگز توسط اشخاص حقیقی مطرح نشوند. خدمات وب، اگر امكان یادگیری از پایگاه اطلاعاتی و نحوهٔ‌ پرسش افراد از آن را فراهم كنند، ممكن است راه حل نسبی برای این مسئله باشند. مثلاً به‌دست‌آوردن هزار درخواستی كه بیشترین تكرار را دارند،‌ ممكن است كافی باشد. امكان دیگر، تجزیه و تحلیل صفحه است، مانند كاری كه در ]۲۳[ انجام شده.
۲-۲. داده‌های چندرسانه‌ای
داده‌های چندرسانه‌ای شامل تصاویر، تصاویر متحرك، صوت در چندین شكل، و ویدیو است. همهٔ این‌ها قالب استاندارد ندارند. متداول‌ترین آن‌ها JPG وGIF, PNG برای تصاویر، MP۳ برای موسیقی، Real Video یا Quicktimeبرای ویدیو، و ... می‌باشند. راه‌حل ایده‌آل این است كه بر روی هر نوع داده (از جمله متن)، با استفاده از الگوی یكسان و با زبان درخواست واحد، جستجو انجام شود. این هدف بلندپروازانه شاید امكانپذیر نباشد.
برای یك نوع دادهٔ خاص می‌توانیم یك مدل تشابه به وجود آوریم، و براساس نوع‌داده‌ها، زبان درخواست تغییر كند. مثلاً درخواست به وسیلهٔ مثال برای تصاویر، یا درخواست به‌وسیلهٔ زمزمه برای صوت. تمام این زمینه‌ها بیشتر متعلق به پردازش تصاویر و علائم است تا به بازیابی اطلاعات به روش كلاسیك.
۲-۳. داده‌های ساخت‌یافته
اغلب داده‌ها تا حدودی دارای ساختار هستند، و نهایتاً داده‌های نیمه ساخت‌یافته نام دارند. نمونه‌های آن پست الكترونیكی، اخبار ارسالی، و... هستند. اگر «ایكس‌ام‌ال» متداول شود، سطح ساختار باز هم بالاتر می‌رود. اولین چالش، طراحی مدل‌‌های داده‌ای و زبان‌های پرس‌وجوی مربوط به آن‌ها است كه امكان می‌دهد محتوا و ساختار با هم درآمیزند. متن‌های ساخت‌یافته را در مرتبهٔ قبل از «ایكس‌ام‌ال» می‌دانستند و چندین واسطهٔ كارآیی/گویایی، طراحی شد ]۳[. بعد از «ایكس‌ام‌ال»، «كنسرسیوم وب جهانی»، «ایكس كوئری» را به عنوان استاندارد معرفی كرده است ]۲۷[.
در هنگام بازیابی داده‌های «ایكس‌ام‌ال»، چندین چالش وجود دارد:
• پاسخ می‌تواند جزئی از «ایكس‌ام‌ال» باشد و حتماًً لازم نیست یك شیء كامل باشد. با وجود این، پاسخ‌ها نیز باید داده‌های مبتنی بر«ایكس‌ام‌ال» باشند.
• بسیاری از پاسخ‌ها را می‌توان در یك شیء «ایكس‌ام‌ال» واحد آورد و می‌توانند با یكدیگر، همپوشانی داشته باشند.
• چگونه یك پاسخ را رتبه‌بندی كنیم و اگر لازم باشد پاسخ را در قالب انواع ساختارهای خاصی ارائه دهیم، و چگونه رتبه‌بندی را برای آن‌ها اعمال كنیم؟ گاهی اوقات با تركیب درختواره‌های فرعی اگر نزدیك به هم باشند، رتبه‌بندی بهتری خواهیم داشت. اما در موارد دیگر اگر كاملاً دور از هم باشند، بهتر است.تحقیقات اخیر دربارهٔ این موضوعات در ]۶ ، ۷ ، ۱۷ ،۱۸[ آمده است.مسئلهٔ دیگر، پردازش جریانات «ایكس‌ام‌ال»، یعنی غربال‌كردن جریانی از اشیای «ایكس‌ام‌ال» به‌وسیله مجموعهٔ گسترده‌ای از پرسش‌ها می‌باشد. در این جا پرسش‌ها را می‌توان نمایه‌سازی كرد، اما داده‌ها را نمی‌توان. برای مطالعهٔ مقدمه‌ای بر این مسئله،]۲۴[ را ببینید.۲-۴. داده‌های معنایی
دو مسئلهٔ اصلی در رابطه با اطلاعات معنایی، استانداردهای مربوط به فراداده‌هایی هستند كه معنا، وكیفیت یا درجهٔ اطمینان‌پذیری یك منبع اطلاعاتی را توصیف می‌كنند. در مورد اولین مسئله [یعنی استانداردهای معنا] «كنسرسیوم وب» اقدام می‌كند، اما برای مسئله دوم [یعنی كیفیت یا درجهٔ اطمینان‌پذیری]، نیاز به «طرح‌های تصدیق» می‌باشد كه باید در آینده ایجاد شوند.مسائل دیگر، موضوعات متداول مانند درجه‌بندی، سرعت تغییر، فقدان انسجام ارجاعی (پیوندها فیزیكی می‌باشند نه منطقی)، اختیارات توزیع‌شده، محتوا و كیفیت نامتجانس، منابع چندگانه، و ... می‌باشند. مقدمه‌ای بر این مسائل و دیگر چالش‌های «وب معنایی» در ] ۸، ۲۱، ۲۶[ ارائه شده است.
۳. وب‌كاوی
ما در بازیابی اطلاعات، معمولاً پرسش را می‌دانیم. داده‌كاوی زمانی انجام می‌شود كه پرسش را نمی‌دانیم. از این رو، سعی می‌كنیم روابطی در داده‌ها پیدا كنیم كه مانند یك پاسخ جالب به نظر برسند، سپس این پاسخ را بررسی می‌كنیم تا پرسش متناظر با آن را پیدا كنیم. در وب، این كار منجر به وب‌كاوی می‌شود، یعنی چالش دیگری فراتر از بازیابی اطلاعات در وب. بعضی نویسندگان بازیابی اطلاعات را نیز جزو وب‌كاوی به شمار می‌آورند، كه به عقیدهٔ ما صحیح نیست. وب‌كاوی شامل استخراج اطلاعات، و به دنبال آن تعمیم و تحلیل این اطلاعات است.
سه نوع دادهٔ و بی‌وجود دارد كه می‌توان آن‌ها را كاوید: محتوا، كاربرد و ساختار. محتوا، شامل كاویدن متن و چندرسانه‌ای‌ها می‌شود. كاربرد، شامل كاویدن گزارش وب (مشتمل بر گزارش جستجوها و دیگر داده‌های كاربردی) است. ساختار به معنای تحلیل ساختار پیوندهای وب می‌باشد (اما این مطلب، با توجه به امكان كاویدن در ساختار«ایكس‌ام‌ال»، مبهم است). بعلاوه برای هر سه مورد، ما یك ب‍‍َُعد موقتی كه مربوط به پویایی چگونگی رشد و تغییرات وب می‌باشد، داریم كه دلالت بر داده‌های موقتی دارد. دو نوع اول در ]۱۴[ بررسی شده‌اند و نوع سوم، موضوع اصلی ]۱۲[ است. نوع سوم كمتر مورد بررسی قرار گرفته و بعضی از نتایج در ارتباط با آن، در]۴[ ارائه شده است.از وب‌كاوی می‌توان علاوه بر یافتن اطلاعات یا دانش جدید، برای مقاصد گوناگون استفاده كرد: برای طراحی انطباقی وب (مثلاً طراحی وب با انگیزش ناشی از كاربر)، سازماندهی دوبارهٔ وب‌سایت، شخصی‌سازی وب‌سایت، و موارد گوناگون بهبود در اجرا.
۴. به سوی موتور كامل جستجوردر وب
یك موتور كامل جستجو، مسائلی را كه قبلاً ذكر شد می‌تواند حل كند، هر نوع داده‌ای را بازیابی نماید و اطلاعات را برای انجام بهتر وب‌كاوی، جمع‌آوری ‌كند. اما مشكل امروزه همچنان باقی خواهد بود: جمع‌آوری داده‌ها. مسئلهٔ كاوش به حجم و رشد داده، همراه با داده‌های متغیر و مشابه، و یك تكنیك بسیار ناكارآمد مربوط می‌شود: بازكشی
موتورهای جستجوی كنونی كارشان را بدون همكاری خدمت‌دهنده‌های وب انجام می‌دهند؛ آن‌ها باید صفحات را با استفاده از پروتكل استاندارد «اچ‌تی‌تی‌پی» از طریق اتصالات «تی‌سی‌پی» اَسكی انتقال دهند، و آن‌ها را بسنجند تا ببینند آیا صفحه‌ای تغییركرده است یا نه، تا بعد از استخراج صفحات جدید یا روزآمد شده، نمایه‌های خود را به روز كنند. از همه بهتر این است كه یك واسطه برای خدمت‌دهنده بفرستیم، یعنی به جایی كه می‌تواند به طور محلی به دنبال صفحات و پیوندهای جدید و صفحات اصلاح‌شده بگردد. همچنین این واسطه می‌تواند همهٔ صفحات روزآمد شده را با هم به صورت یك فایل فشرده جمع‌آوری كند تا به موتور جستجو انتقال یابد. خدمت‌دهندهٔ اصلی جستجو می‌تواند با واسطهٔ دور، در تعامل باشد تا براساس چندین پارامتر مثل تعداد فایل‌ها، اهمیت آن‌ها و ... تصمیم بگیرد آیا ارزش دارد كه گروه موجود، انتقال یابد یا نه. سپس می‌توان اطلاعات كاوشگر را بین موتور جستجوی اصلی و واسطهٔ موجود، توزیع كرد. «براندمن» و دیگران ]۹[ تأثیر باند پهن را، در هنگامی كه خدمت‌دهنده‌های شبكه، فراداده‌های صفحات وب خود (مانند تاریخ‌های انجام، اندازه، و ...) را منتشر می‌كنند بررسی نمایند و نشان می‌دهند كه ذخیره‌سازی‌هایی وجود دارند و جدید بودن صفحات نیز افزایش می‌یابد. مقالهٔ مشابهی بر جدید بودن تأكید می‌كند ]۱۹[. اما می‌توانیم قدمی دیگر به جلو برداریم و به جای بازكشی اطلاعات به تنهایی، اطلاعات را عرضه كنیم.
سپس، تعامل از بازكشی صفحات به عرضه‌كردن تغییرات كشیده می‌شود. طبق معمول، زیاده‌روی مؤثر نیست، و عرضه‌كردن اطلاعات زیادی، بار خدمت‌دهندهٔ مركزی را زیاد می‌كند. از این رو، بهترین راه حل این است كه خدمت‌دهنده، از قبل در این باره كه چه موقع و چگونه پیغامی بفرستد تا اطلاع دهد كه یك گروه از تغییرات آماده است (یا حتی بهتر، این كه تغییرات، نمایه شده است و قسمتی از نمایه در دسترس است) با واسطه مذاكره كند. سپس خدمت‌دهندهٔ اصلی در موقع مقرر، آن تغییرات را بازكشی خواهد كرد. این به معنای یك برنامه‌ریزی بلندمدت است، كه در نتیجه وقتی خدمت‌دهندهٔ وب را، كه یك هشدار عرضه می‌كند واقعاً بازبینی می‌نماید، تغییرات بیشتری را پیدا كند. اما این برنامه‌ریزی ساده‌تر از برنامه‌ریزی‌های كنونی است، زیرا كه ما اطلاعات بیشتری داریم، و نیازی نیست كه نگران رفتار با نزاكت باشیم، چرا كه مطمئن هستیم تمام دسترسی‌ها تكراری نیستند و همیشه با موفقیت همراه‌اند.
عموماً خدمت‌دهنده‌های وب می‌خواهند كه در این چیدمان همكاری داشته باشند، زیرا امروزه نمایه‌شدن در یك موتور جستجوی مشهور، یك ارزش پذیرفته‌شده می‌باشد. از طرف دیگر، حتی اگرچرخه‌های «سی‌پی‌یو» را به نفع موتور جستجو به كار گیرند، كاوشگر آن‌ها را سنجش نمی‌كند؛ بنابراین بار دسترسی به خدمت‌دهندهٔ وب را به طور مؤثری كاهش می‌دهند. همچنین این چرخه‌ها می‌توانند در دوره‌هایی كه بار كمتر است، به كار گرفته شوند.
به عنوان مرحلهٔ اول آزمایش، در هنگامی كه یك خط‌مشی ۱ واسطه كه به صورت جهانی قابل دسترس باشد وجود ندارد، یك مدول ساده، همراه با خدمت‌دهندهٔ وب، می‌توان برای تأمین كارآیی مشابه و برای اندازه‌گیری میزان بهبود عملكرد، ایجاد كرد. همان طور كه قبلاً ذكر كردیم، تغییرات كوچك در خدمت‌دهندهٔ وب، برای ایجاد امكان همكاری با موتورهای جستجو، پیشنهاد شده‌اند ]۹ و ۱۹[. اما این [موتورها] فاقد انعطاف‌پذیری هستند و در خط‌مشی‌های كاوشگر، اختلال ایجاد می‌كنند. واسطه‌ها این رفتار را بسیار بهبود می‌بخشند و به الگوریتم‌های خود این امكان را می‌دهند كه صفحات را برای این كه در كد واسطه‌ها گنجانده شوند، اولویت‌بندی كنند. از این نظر، واسطه جز مهمی از الگوریتم كاوشگر است و منطق آن، از خط مشی‌های یك موتور جستجوی خاص پیروی می‌كند ]۵[.
●محاسبات تقریبی و بازیابی اطلاعات
همان طور كه در مقدمه ذكر كردیم، واژهٔ «محاسبات تقریبی» بوسیلهٔ «لطفی‌زاده» ارائه شد و در همگرایی روش‌هایی كه برای حل مسائلی كه نیاز به نوعی هوش (كه از محاسبات كلاسیك ناشی می‌شود) دارند، مفید است. «محاسبات تقریبی» یك مجموعه از فنون مناسب برای رفع ابهام، ذهن‌گرایی، و كلیت موجود در برخی مسائل می‌باشد. هدف بازیابی اطلاعات مدلسازی، طراحی، و اجرای سیستم‌هایی است كه قادر باشند دسترسی سریع و كارآمد بر پایهٔ محتوا را به مقادیر عظیم اطلاعات، تأمین كنند. هدف یك سیستم بازیابی اطلاعات، برآورد ربط اقلام اطلاعاتی با نیازهای اطلاعاتی یك كاربر (كه در قالب یك سؤال بیان شده) می‌باشد. این، كار مشكل و پیچیده‌ای است؛ زیرا با ذهنیت، ابهام و عدم دقت آكنده است.محاسبات تقریبی روش‌های متفاوتی از قبیل منطق فازی، الگوریتم‌های ژنتیكی، شبكه‌های عصبی، مجموعه‌های نادقیق، و شبكه‌های بیزی را شامل می‌شود. مسئله بازیابی اطلاعات، یك حوزهٔ كاربردی معمول برای محاسبات تقریبی است. بعضی از رویكردهای اصلی محاسبات تقریبی در بازیابی اطلاعات از این قرارند:
منطق و مجموعه‌های فازی: تركیب اطلاعات، استخراج متن، مدل‌های زبان پرس‌وجو، و خوشه‌بندی مدارك؛
شبكه‌های عصبی: رده‌بندی و خوشه‌بندی اسناد و اصطلاحات، و بازیابی چندرسانه‌ای‌ها؛
الگوریتم‌های ژنتیكی: رده‌بندی مدارك، بازیابی تصویر، بازخورد ربط، و یادگیری پرس‌وجو؛
تكنیك‌های احتمالاتی: رتبه‌بندی، وب‌كاوی.
مجموعه‌های نادقیق و منطق‌های چند ارزشی: خوشه‌بندی مدارك؛
شبكه‌های بیزی: مدل‌های بازیابی، رتبه‌بندی، ساخت اصطلاحنامه، و بازخورد ربط.حداقل صد مقاله به این مسائلی كه ذكر شد، اختصاص یافته و برشمردن همهٔ آن‌ها نیاز به یك بررسی كامل دارد. ولی ما خواننده را به كتاب «میاموتو» ]۲۲[، و نیز به یك كتاب عالی با ویراستاری «كرستانی» و «پاسی»]۱۶[، شمارهٔ ویژه‌ای از IP&M ]۱۵[، و یك مقالهٔ پیمایشی از «چن»، و شمارهٔ حاضر از این مجله ارجاع می‌دهیم. حداقل نیمی از مسائلی را كه در مقدمه و بخش‌های بعدی ذكر كردیم، می‌توان با شیوه‌های بالا از میان برداشت. از این رو، تحقیقات بیشتری در پیش روی ما قرار می‌گیرد. اصلی‌ترین مسائل شاید موضوعات عملكردی (مثلاً این كه آیا می‌توان با زمان پاسخ محدود، در موقعیت‌های عملی استفاده كرد؟) و توضیح پاسخ (مثلاً این كه چرا یك مدرك در یك طبقهٔ معین رده‌بندی می‌شود؟) باشند. جدیدترین كاربردهای محاسبات تقریبی در بازیابی اطلاعات در وب، شامل واسطه‌های سازگار، پروفایل‌های كاربر، طبقه‌بندی صفحات وب، سنجش كیفیت، و ... می‌باشند. بنابراین، این نشان می‌دهد كه پیشرفت در زمینهٔ بازیابی اطلاعات در وب، با استفاده از شیوه‌های محاسبات تقریبی، امكانپذیر است.
بیزا یاتاز
ترجمه: لیلا دهقانی
دانشجوی كارشناسی ارشد كتابداری و اطلاع‌رسانی
Email: Leiladehghani@yahoo.com
پی‌نوشت
۱ . Baeza-Yates, Ricardo (۲۰۰۳). "Information retrieval in the web: Beyond current search engines” International Journal of Appoximate Reasoning. ۳۴: ۹۷-۱۰۴.
۲. web
۳. search engines
۴. Crawling
۵. spam
۶. adversarial IR
۷. HTML (HyperText Markup Language) زبان نشانه‌گذاری فرامتن
۸. web logs
۹. navigational
۱۰. transactional
۱۱. XML (Xtended Markup Language) زبان نشانه‌گذاری توسعه‌پذیر
۱۲. semantic web
۱۳. metadata
۱۴. web mining
۱۵. Soft Computing ( SC )
۱۶. fuzzy logic
۱۷. genetic algoritm
۱۸. neural network
۱۹.rough sets
۲۰. Bayesian network
۲۱. dynamic pages
۲۲. hidden
۲۳. Multimedia data
۲۴. Structures data
۲۵. semantic data
۲۶. signal
۲۷.X Query
۲۸. اگرچه Xpath و XSLT را نیز می‌توان زبان پرس‌و‌جو دانست، اما برای مقاصد دیگری طراحی می‌شوند.
۲۹. certification schemes
۳۰.log
۳۱. pulling
۳۲. Web server
۳۴. agent
۳۵. pushing
۳۶. CPU (Central Processor Unit)
۳۷. Platform
۳۸. module
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران


همچنین مشاهده کنید