دوشنبه, ۲۴ دی, ۱۴۰۳ / 13 January, 2025
بازیابی اطلاعات در وب فراتر از موتورهای جستجوی كنونی
۱. مقدمه
وب به صورت بزرگترین منبع دادهها در آمده كه به سهولت قابل دسترسی است؛ از این رو طبیعی است كه اطلاعات از آن استخراج شود و موتورهای جستجو ی وب به یكی از پراستفادهترین ابزارها در اینترنت تبدیل شدهاند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشكل میسازد. در واقع، كاوش در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد كه یك فایل فیزیكی یك مدرك منطقی است؛ و این همیشه درست نیست.
تحقیق اخیر دربارهٔ چالشهای جستجو در وب، شامل مسائل زیر است ]۱۰، ۲۰، ۲۵[ :
نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و كامل نگهداشتن؛
شناسایی و حذف محتوا و پیوندهای مغرضانه، كه اطلاعات ناخواستهٔ موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض» مینامند؛
مشخصكردن محتوای با كیفیت خوب. وب پر از محتویات با كیفیت پایین (از نظر نحوی و معنایی) مشتمل بر دادههای پارازیتی، نامعتبر و متناقض میباشد. بنابراین، ما این مشكل را داریم كه تا چه حد میتوان به یك وبسایت اعتماد كرد. این، شامل ساختار «اچتیامال» (كه در بیشتر موارد مبهم و نامتجانس است) نیز میشود.
بهرهبرداری از بازخورد كاربر، چه از ارزیابی صریح كاربر یا به طور ضمنی از گزارشهای وب . در این جا میتوانیم اطلاعات ضمنی را كه توسط نویسندگان صفحات وب و به شكل چندین قاعدهٔ مورد استفاده در طراحی «اچتیامال» ارائه میشود نیز اضافه كنیم؛
كشف نسخههای مشابه از میزبانها و محتویات، به منظور اجتناب از كاوش غیرضروری.
تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی یا اجرایی . برآورد شده است كه كمتر از ۵۰ درصد درخواستها از نوع اول میباشد.
بهبود زبان پرسوجو، اضافهكردن زمینهٔ اطلاعات مورد درخواست، از قبیل نوع یا زمان؛
بهبود رتبهبندی، بخصوص برای مرتبطكردن آن با فردی كه پرسش را مطرح كرده است. اساس ربط، قضاوتهای شخصی است؛ بنابراین رتبهبندی بر اساس پروفایلهای كاربر یا اطلاعات زمینهای دیگری كه مربوط به كاربر است، میتواند مفید باشد. در اینجا میتوانیم كیفیت، اعتماد و موضوعات بازخورد كاربر را نیز اضافه كنیم.
فهم تمام این مسائل بدون دادههای واقعی دشوار است، بنابراین نتایج تجربی بیشتری مورد نیاز است. مطالب بیشتر را میتوان در ]۱۱،۲،۱[ پیدا كردوب چیزی بیش از«اچتیامال» محض و دیگر ساختارهای متنی متداول است و ما میخواهیم دیگر انواع دادهها را نیز جستجو كنیم، كه در میان آنها صفحات پویا، اشیای چندرسانهای، دادههای «ایكسامال» و اطلاعات معنایی همراه با آنها را داریم. اگر «وب معنایی» علیرغم تمام مسائل اجتماعی كه باید حل شوند صورت واقعی به خود گیرد، یك وب بر پایهی «ایكسامال» با طرح كلی و فرادادههای معنایی استاندارد خواهیم داشت. در چنان محیط محتملی، بازیابی اطلاعات آسانتر میگردد و حتی جستجوی چندرسانهای ساده میشود. در چنین محیطی اطلاعات ناخواسته باید از بین برود و تشخیص محتوای خوب، راحتتر است. ازطرف دیگر، مسائل جدید بازیابی مانند پردازش و بازیابی «ایكسامال» و وبكاوی بر روی دادههای ساختاری پیدا میشود.
«لطفیزاده» ]۲۸[ مفهوم محاسبات تقریبی را به عنوان همگرایی روشها كه در مجموع، پایهای برای مفهومسازی، طرح، ساخت و بهكارگیری سیستمهای هوشمند/ اطلاعاتی فراهم میآورند ارائه كرد. برخی از روشهای اصلی محاسبهٔ تقریبی عبارتاند از منطق فازی ، الگوریتمهای تكاملی ، شبكههای عصبی ، مجموعههای ناهموار ، شبكههای بیزی و دیگر شیوههای احتمالاتی. ویژگی اصلی محاسبهٔ تقریبی این است كه نسبت به عدم دقت، ابهام، حقیقت ناقص، و برآورد، مقاوم است. ذهنیت، ابهام و عدم دقت، ویژگیهای معمول در هر فرآیند بازیابی اطلاعات هستند. استفاده از فنون محاسبهٔ تقریبی برای بهبود فرآیندهای بازیابی اطلاعات، رضایتبخش بوده است. بخصوص، فكر میكنیم كه كاربرد آن برای حل مسائل مختلف بازیابی اطلاعات كه اخیراً در وب پدیدار شدهاند، مفید است.
ما بحث را از چالشهای دادهای شروع میكنیم و به دنبال آن یك مقدمهٔ كوتاه دربارهٔ وبكاوی میآوریم. سپس به نظراتی دربارهٔ حل نسبی مسئلهٔ كاوش میپردازیم و در پایان، یك توضیح كوتاه دربارهٔ كاربرد محاسبهٔ تقریبی در بازیابی اطلاعات میآوریم.
۲. چالشهای دادهای
چندین موضوع دادهای وجود دارند كه لازم است بررسی شوند، كه از جمله باید صفحات پویا یا پنهان ، دادههای چندرسانهای ، دادههای ساختاریافته و دادههای معنایی را ذكر كنیم. سپس هر یك از آنها را توضیح میدهیم، بجز دادههای پنهان كه یك مورد خاص از دادههای عام، با مسئلهٔ دسترسی محدود میباشد.
۲-۱. دادههای پویا
وب ایستا در مقایسه با محتوایی كه بر اساس درخواست، بخصوص بنابر ارائهٔ درخواست در كسب و كار الكترونیكی یا در سایتهای خدمات اطلاعاتی ایجاد میشود، كوچك شده است. نرمافزارهای كنونی كاوش میتوانند پیوندهای پویا را دنبال كنند، اما این كار باید با دقت انجام شود، زیرا ممكن است هیچ محدودیتی وجود نداشته باشد، یا حتی یك صفحهٔ مشابه، دوباره و دوباره تولید شود. دسترسی به صفحاتی غیر از آنچه در فرمهای پرسش درخواست میشود، از این هم دشوارتر است، زیرا كاوشگر شناختی از پایگاه اطلاعاتی ندارد. از طرف دیگر، حتی اگر پایگاه اطلاعاتی شناختهشده باشد، درخواست همهٔ سؤالات ممكن، بسیار وقتگیر خواهد بود (وابسته به اندازهٔ پایگاه اطلاعاتی، به طور تصاعدی افزایش مییابد) و حتی اگر فقط به درخواستهای ساده بسنده كنیم، بعضی از این درخواستها ممكن است هرگز توسط اشخاص حقیقی مطرح نشوند. خدمات وب، اگر امكان یادگیری از پایگاه اطلاعاتی و نحوهٔ پرسش افراد از آن را فراهم كنند، ممكن است راه حل نسبی برای این مسئله باشند. مثلاً بهدستآوردن هزار درخواستی كه بیشترین تكرار را دارند، ممكن است كافی باشد. امكان دیگر، تجزیه و تحلیل صفحه است، مانند كاری كه در ]۲۳[ انجام شده.
۲-۲. دادههای چندرسانهای
دادههای چندرسانهای شامل تصاویر، تصاویر متحرك، صوت در چندین شكل، و ویدیو است. همهٔ اینها قالب استاندارد ندارند. متداولترین آنها JPG وGIF, PNG برای تصاویر، MP۳ برای موسیقی، Real Video یا Quicktimeبرای ویدیو، و ... میباشند. راهحل ایدهآل این است كه بر روی هر نوع داده (از جمله متن)، با استفاده از الگوی یكسان و با زبان درخواست واحد، جستجو انجام شود. این هدف بلندپروازانه شاید امكانپذیر نباشد.
برای یك نوع دادهٔ خاص میتوانیم یك مدل تشابه به وجود آوریم، و براساس نوعدادهها، زبان درخواست تغییر كند. مثلاً درخواست به وسیلهٔ مثال برای تصاویر، یا درخواست بهوسیلهٔ زمزمه برای صوت. تمام این زمینهها بیشتر متعلق به پردازش تصاویر و علائم است تا به بازیابی اطلاعات به روش كلاسیك.
۲-۳. دادههای ساختیافته
اغلب دادهها تا حدودی دارای ساختار هستند، و نهایتاً دادههای نیمه ساختیافته نام دارند. نمونههای آن پست الكترونیكی، اخبار ارسالی، و... هستند. اگر «ایكسامال» متداول شود، سطح ساختار باز هم بالاتر میرود. اولین چالش، طراحی مدلهای دادهای و زبانهای پرسوجوی مربوط به آنها است كه امكان میدهد محتوا و ساختار با هم درآمیزند. متنهای ساختیافته را در مرتبهٔ قبل از «ایكسامال» میدانستند و چندین واسطهٔ كارآیی/گویایی، طراحی شد ]۳[. بعد از «ایكسامال»، «كنسرسیوم وب جهانی»، «ایكس كوئری» را به عنوان استاندارد معرفی كرده است ]۲۷[.
در هنگام بازیابی دادههای «ایكسامال»، چندین چالش وجود دارد:
پاسخ میتواند جزئی از «ایكسامال» باشد و حتماًً لازم نیست یك شیء كامل باشد. با وجود این، پاسخها نیز باید دادههای مبتنی بر«ایكسامال» باشند.
بسیاری از پاسخها را میتوان در یك شیء «ایكسامال» واحد آورد و میتوانند با یكدیگر، همپوشانی داشته باشند.
چگونه یك پاسخ را رتبهبندی كنیم و اگر لازم باشد پاسخ را در قالب انواع ساختارهای خاصی ارائه دهیم، و چگونه رتبهبندی را برای آنها اعمال كنیم؟ گاهی اوقات با تركیب درختوارههای فرعی اگر نزدیك به هم باشند، رتبهبندی بهتری خواهیم داشت. اما در موارد دیگر اگر كاملاً دور از هم باشند، بهتر است.تحقیقات اخیر دربارهٔ این موضوعات در ]۶ ، ۷ ، ۱۷ ،۱۸[ آمده است.مسئلهٔ دیگر، پردازش جریانات «ایكسامال»، یعنی غربالكردن جریانی از اشیای «ایكسامال» بهوسیله مجموعهٔ گستردهای از پرسشها میباشد. در این جا پرسشها را میتوان نمایهسازی كرد، اما دادهها را نمیتوان. برای مطالعهٔ مقدمهای بر این مسئله،]۲۴[ را ببینید.
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست