دوشنبه, ۲۴ دی, ۱۴۰۳ / 13 January, 2025

مجله ویستا

بازیابی اطلاعات در وب فراتر از موتورهای جستجوی كنونی

۱. مقدمه

وب به صورت بزرگ‌ترین منبع داده‌ها در آمده كه به سهولت قابل دسترسی است؛ از این رو طبیعی است كه اطلاعات از آن استخراج شود و موتورهای جستجو ی وب به یكی از پراستفاده‌ترین ابزارها در اینترنت تبدیل شده‌اند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشكل می‌سازد. در واقع، كاوش در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد كه یك فایل فیزیكی یك مدرك منطقی است؛ و این همیشه درست نیست.

تحقیق اخیر دربارهٔ چالش‌های جستجو در وب، شامل مسائل زیر است ]۱۰، ۲۰، ۲۵[ :

نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و كامل نگه‌داشتن؛

شناسایی و حذف محتوا و پیوندهای مغرضانه، كه اطلاعات ناخواستهٔ موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض» می‌نامند؛

مشخص‌كردن محتوای با كیفیت خوب. وب پر از محتویات با كیفیت پایین (از نظر نحوی و معنایی) مشتمل بر داده‌های پارازیتی، نامعتبر و متناقض می‌باشد. بنابراین، ما این مشكل را داریم كه تا چه حد می‌توان به یك وب‌سایت اعتماد كرد. این، شامل ساختار «اچ‌تی‌ام‌ال» (كه در بیشتر موارد مبهم و نامتجانس است) نیز می‌شود.

بهره‌برداری از بازخورد كاربر، چه از ارزیابی صریح كاربر یا به طور ضمنی از گزارش‌های وب . در این جا می‌توانیم اطلاعات ضمنی را كه توسط نویسندگان صفحات وب و به شكل چندین قاعدهٔ مورد استفاده در طراحی «اچ‌تی‌ام‌ال» ارائه می‌شود نیز اضافه كنیم؛

كشف نسخه‌های مشابه از میزبان‌ها و محتویات، به منظور اجتناب از كاوش غیرضروری.

تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی یا اجرایی . برآورد شده است كه كمتر از ۵۰ درصد درخواست‌ها از نوع اول می‌باشد.

بهبود زبان پرس‌وجو، اضافه‌كردن زمینهٔ اطلاعات مورد درخواست، از قبیل نوع یا زمان؛

بهبود رتبه‌بندی، بخصوص برای مرتبط‌كردن آن با فردی كه پرسش را مطرح كرده است. اساس ربط، قضاوت‌های شخصی است؛ بنابراین رتبه‌بندی بر اساس پروفایل‌های كاربر یا اطلاعات زمینه‌ای دیگری كه مربوط به كاربر است، می‌تواند مفید باشد. در اینجا می‌توانیم كیفیت، اعتماد و موضوعات بازخورد كاربر را نیز اضافه كنیم.

فهم تمام این مسائل بدون داده‌های واقعی دشوار است، بنابراین نتایج تجربی بیشتری مورد نیاز است. مطالب بیشتر را می‌توان در ]۱۱،۲،۱[ پیدا كردوب چیزی بیش از«اچ‌تی‌ام‌ال» محض و دیگر ساختارهای متنی متداول است و ما می‌خواهیم دیگر انواع داده‌ها را نیز جستجو كنیم، كه در میان آن‌ها صفحات پویا، اشیای چندرسانه‌ای، داده‌های «ایكس‌ام‌ال» و اطلاعات معنایی همراه با آن‌ها را داریم. اگر «وب معنایی» علی‌رغم تمام مسائل اجتماعی كه باید حل شوند صورت واقعی به خود گیرد، یك وب بر پایه‌ی «ایكس‌ام‌ال» با طرح كلی و فراداده‌های معنایی استاندارد خواهیم داشت. در چنان محیط محتملی، بازیابی اطلاعات آسان‌تر می‌گردد و حتی جستجوی چندرسانه‌ای ساده می‌شود. در چنین محیطی اطلاعات ناخواسته باید از بین برود و تشخیص محتوای خوب، راحت‌تر است. ازطرف دیگر، مسائل جدید بازیابی مانند پردازش و بازیابی «ایكس‌ام‌ال» و وب‌كاوی بر روی داده‌های ساختاری پیدا می‌شود.

«لطفی‌زاده» ]۲۸[ مفهوم محاسبات تقریبی را به عنوان همگرایی روش‌ها كه در مجموع، پایه‌ای برای مفهوم‌سازی، طرح، ساخت و به‌كارگیری سیستم‌های هوشمند/ اطلاعاتی فراهم می‌آورند ارائه كرد. برخی از روش‌های اصلی محاسبهٔ تقریبی عبارت‌اند از منطق فازی ، الگوریتم‌های تكاملی ، شبكه‌های عصبی ، مجموعه‌های ناهموار ، شبكه‌های بیزی و دیگر شیوه‌های احتمالاتی. ویژگی اصلی محاسبهٔ تقریبی این است كه نسبت به عدم دقت، ابهام، حقیقت ناقص، و برآورد، مقاوم است. ذهنیت، ابهام و عدم دقت، ویژگی‌های معمول در هر فرآیند بازیابی اطلاعات هستند. استفاده از فنون محاسبهٔ تقریبی برای بهبود فرآیندهای بازیابی اطلاعات، رضایت‌بخش بوده است. بخصوص، فكر می‌كنیم كه كاربرد آن برای حل مسائل مختلف بازیابی اطلاعات كه اخیراً در وب پدیدار شده‌اند، مفید است.

ما بحث را از چالش‌های داده‌ای شروع می‌كنیم و به دنبال آن یك مقدمهٔ كوتاه دربارهٔ وب‌كاوی می‌آوریم. سپس به نظراتی دربارهٔ حل نسبی مسئلهٔ كاوش می‌پردازیم و در پایان، یك توضیح كوتاه دربارهٔ كاربرد محاسبهٔ تقریبی در بازیابی اطلاعات می‌آوریم.

۲. چالش‌های داده‌ای

چندین موضوع داده‌ای وجود دارند كه لازم است بررسی شوند، كه از جمله باید صفحات پویا یا پنهان ، داده‌های چندرسانه‌ای ، داده‌های ساختاریافته و داده‌های معنایی را ذكر كنیم. سپس هر یك از آن‌ها را توضیح می‌دهیم، بجز داده‌های پنهان كه یك مورد خاص از داده‌های عام، با مسئلهٔ دسترسی محدود می‌باشد.

۲-۱. داده‌های پویا

وب ایستا در مقایسه با محتوایی كه بر اساس درخواست، بخصوص بنابر ارائهٔ درخواست در كسب و كار الكترونیكی یا در سایت‌های خدمات اطلاعاتی ایجاد می‌شود، كوچك شده است. نرم‌افزارهای كنونی كاوش می‌توانند پیوندهای پویا را دنبال كنند، اما این كار باید با دقت انجام شود، زیرا ممكن است هیچ محدودیتی وجود نداشته باشد، یا حتی یك صفحهٔ مشابه، دوباره و دوباره تولید شود. دسترسی به صفحاتی غیر از آنچه در فرم‌های پرسش درخواست می‌شود، از این هم دشوارتر است، زیرا كاوشگر شناختی از پایگاه اطلاعاتی ندارد. از طرف دیگر، حتی اگر پایگاه اطلاعاتی شناخته‌شده باشد، درخواست همهٔ سؤالات ممكن، بسیار وقتگیر خواهد بود (وابسته به اندازهٔ پایگاه اطلاعاتی، به طور تصاعدی افزایش می‌یابد) و حتی اگر فقط به درخواست‌های ساده بسنده كنیم، بعضی از این درخواست‌ها ممكن است هرگز توسط اشخاص حقیقی مطرح نشوند. خدمات وب، اگر امكان یادگیری از پایگاه اطلاعاتی و نحوهٔ‌ پرسش افراد از آن را فراهم كنند، ممكن است راه حل نسبی برای این مسئله باشند. مثلاً به‌دست‌آوردن هزار درخواستی كه بیشترین تكرار را دارند،‌ ممكن است كافی باشد. امكان دیگر، تجزیه و تحلیل صفحه است، مانند كاری كه در ]۲۳[ انجام شده.

۲-۲. داده‌های چندرسانه‌ای

داده‌های چندرسانه‌ای شامل تصاویر، تصاویر متحرك، صوت در چندین شكل، و ویدیو است. همهٔ این‌ها قالب استاندارد ندارند. متداول‌ترین آن‌ها JPG وGIF, PNG برای تصاویر، MP۳ برای موسیقی، Real Video یا Quicktimeبرای ویدیو، و ... می‌باشند. راه‌حل ایده‌آل این است كه بر روی هر نوع داده (از جمله متن)، با استفاده از الگوی یكسان و با زبان درخواست واحد، جستجو انجام شود. این هدف بلندپروازانه شاید امكانپذیر نباشد.

برای یك نوع دادهٔ خاص می‌توانیم یك مدل تشابه به وجود آوریم، و براساس نوع‌داده‌ها، زبان درخواست تغییر كند. مثلاً درخواست به وسیلهٔ مثال برای تصاویر، یا درخواست به‌وسیلهٔ زمزمه برای صوت. تمام این زمینه‌ها بیشتر متعلق به پردازش تصاویر و علائم است تا به بازیابی اطلاعات به روش كلاسیك.

۲-۳. داده‌های ساخت‌یافته

اغلب داده‌ها تا حدودی دارای ساختار هستند، و نهایتاً داده‌های نیمه ساخت‌یافته نام دارند. نمونه‌های آن پست الكترونیكی، اخبار ارسالی، و... هستند. اگر «ایكس‌ام‌ال» متداول شود، سطح ساختار باز هم بالاتر می‌رود. اولین چالش، طراحی مدل‌‌های داده‌ای و زبان‌های پرس‌وجوی مربوط به آن‌ها است كه امكان می‌دهد محتوا و ساختار با هم درآمیزند. متن‌های ساخت‌یافته را در مرتبهٔ قبل از «ایكس‌ام‌ال» می‌دانستند و چندین واسطهٔ كارآیی/گویایی، طراحی شد ]۳[. بعد از «ایكس‌ام‌ال»، «كنسرسیوم وب جهانی»، «ایكس كوئری» را به عنوان استاندارد معرفی كرده است ]۲۷[.

در هنگام بازیابی داده‌های «ایكس‌ام‌ال»، چندین چالش وجود دارد:

پاسخ می‌تواند جزئی از «ایكس‌ام‌ال» باشد و حتماًً لازم نیست یك شیء كامل باشد. با وجود این، پاسخ‌ها نیز باید داده‌های مبتنی بر«ایكس‌ام‌ال» باشند.

بسیاری از پاسخ‌ها را می‌توان در یك شیء «ایكس‌ام‌ال» واحد آورد و می‌توانند با یكدیگر، همپوشانی داشته باشند.

چگونه یك پاسخ را رتبه‌بندی كنیم و اگر لازم باشد پاسخ را در قالب انواع ساختارهای خاصی ارائه دهیم، و چگونه رتبه‌بندی را برای آن‌ها اعمال كنیم؟ گاهی اوقات با تركیب درختواره‌های فرعی اگر نزدیك به هم باشند، رتبه‌بندی بهتری خواهیم داشت. اما در موارد دیگر اگر كاملاً دور از هم باشند، بهتر است.تحقیقات اخیر دربارهٔ این موضوعات در ]۶ ، ۷ ، ۱۷ ،۱۸[ آمده است.مسئلهٔ دیگر، پردازش جریانات «ایكس‌ام‌ال»، یعنی غربال‌كردن جریانی از اشیای «ایكس‌ام‌ال» به‌وسیله مجموعهٔ گسترده‌ای از پرسش‌ها می‌باشد. در این جا پرسش‌ها را می‌توان نمایه‌سازی كرد، اما داده‌ها را نمی‌توان. برای مطالعهٔ مقدمه‌ای بر این مسئله،]۲۴[ را ببینید.

شما در حال مطالعه صفحه 1 از یک مقاله 2 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.

دوشنبه, ۲۴ دی, ۱۴۰۳ / 13 January, 2025

بازیابی اطلاعات در وب فراتر از موتورهای جستجوی كنونی

۳ خرداد ـ ۲۴ می ـ زندگی بهتر مقدم بر ایدئولوژی!

پرورش بچه های نابغه، چگونه؟

بله درست متوجه شدید، یک نابغه! مسوولیت های والدین تمامی ندارد. باید به بچه ها غذا داد، حمامشان کرد و بارها و بارها قصه بزبزقندی را برایشان تعریف کرد.

طالع‌بینی ۱۳ تیر ماه ۹۰

۲۲ژوئن ۲۰۰۵ ـ دو گزارش تامل برانگیز تلویزیونی: بازار آمریکا و پوشاک دوخت بنگلادش و ساعت ساخت چین

بهرام عظیمی, «تهران ۱۵۰۰» و ببعی فوق العاده

از رکود بزرگ چه درسی می توان گرفت

از رکود بزرگ چه درسی می توان گرفت

۱۰ روش طلایی برای تسکین زانو درد

عشق‌ات وجودم را چون فرا گیرد

استان چهار محال و بختیاری

نانوسرامیکها و کاربردهای تجاری فعلی آنها در دنیا

کامپیوترهای ژنتیکی آینده

کامپیوترهای ژنتیکی آینده

مشخص شدن روز تخمک گذاری، با کیت

روز تخمک گذاری من کی میشه؟

شکست آتاتورک از روسری

شکست آتاتورک از روسری

گفتگو با ابراهیم فیوضات: اندیشه میان‌رشته‌ای در علوم انسانی، تلاشی برای دستیابی به یک هدف مشترک

گفتگو با ابراهیم فیوضات: اندیشه میان‌رشته‌ای در علوم انسانی، تلاشی برای دستیابی به یک هدف مشترک

کابوس پدرانه

آیا میدانید که با نگاه کردن به گوش جانوران می‌توانیم پی به تخمگذار بودن و یا بچه‌زا بودن آنها ببریم

آخرین نمازِ اولین نمازگزار

آخرین نمازِ اولین نمازگزار

میرزا محمدتقی سپهر کاشانی

جنسیت مرد نام پدر ملا محمدعلی تخلص سپهر تولد و وفات ۱۲۰۷ ۱۲۹۷ قمری محل تولد ایران اصفهان کاشان شهرت علمی و فرهنگی ادیب و دانشمند ، مورخ و شاعر ملقب به لسان‌الملک …

اعتلای فرهنگ گردشگری، ضرورتی چهارفصل

انواع و اقسام دوربین‌های عکاسی، بی‌وقفه کار می‌کنند و با خنک‌تر شدن هوا، لحظه به لحظه بر تعداد گردشگران افزوده می‌شود

پلاکت پایین خون، دوران شیردهی

می گویند پلاکت خونت رو چهاره و بدنت خون تولید نمی کند من چیکار کنم الان که به بچه شیر می دهم.

معرفی ماهی Brochis multiradiatus / بروچیس باله بلند

ضرورت پژوهش‌های کاربردی

شهادت در نظرگاه عرفان

شهید راه حق, غل و زنجیر تن و عالم ماده را از خود جدا کرده و در مسیر ابدیت پرواز می کند مسیری که همه عارفان در مشاهده آن انگشت حیرت و حسرت بر دهان می گزند

از چهره نگاری تا پرورش ماهی

سوسک پخته داخل نان باگت! + عکس

نان و سوسک داخل نان و نان باگت و حیوان داخل نان را در نمناک ببینید.

۲۸ مرداد ۱۳۳۲ ـ زادروز محمد عطریانفر که به روزنامه نگاری عشق می ورزد

فروتن – یوسف

جوانمردی مجمع خصایل نیک

نگاهی به نقش زنان در سینمای ایران

نگاهی به نقش زنان در سینمای ایران

حکیم میر عبدالرزاق مشرب اصفهانی

سبز ماندن سبزیجات

۱۳ فوریه ۲۰۰۶ ـ کشف گور ۴ هزار ساله در مصر

مراقبت از پوست دست

دخترم کولیک خیلی شدید داشت، الان یبوست گرفته

دختر کوچولوی من سه ماه و هفت روزشه. از روز چهارم تولدش مبتلا به یه کولیک خیلی خیلی شدید شد.

روی تیغ

روی تیغ

زیباترین جاذبه های گردشگری نروژ

تورم منفی, تهدید بزرگ اقتصاد امریکا

تورم منفی, تهدید بزرگ اقتصاد امریکا

ملامعزی لنگ معزی خراسانی

روزهای کم رمق بازار لوازم خانگی زمستانی

سرمای هوا نیز نتوانست، قفل رکود را در بازار لوازم خانگی بشکند تا جایی که حتی بازار لوازم خانگی مخصوص زمستان مانند بخاری گازی نیز کساد است

باید عبور کرد

فوائد تربیتی فوتبال

استفاده از رنگ سفید در دکوراسیون

ورزش کنید ؛ اما مراقب از دست دادن آب بدنتان باشید

سال طلایی انقلاب

سال ۱۳۸۸ را باید سال انقلاب نامید این عبارت مبهم را باید با تحولات مهمی که امسال رقم خورد, شرح داد

هتک حرمت در رسانه ها

هتک حرمت اشخاص و لطمه زدن به آبرو و اعتبار افراد از جرائم با اهمیت به شمار میرود

حوله حمام و دستشویی را چند وقت یه بار بشوییم؟

حوله حمام دستشویی یکی از آلوده ترین وسایل خانه است که باید مرتب شسته شود. سطح حوله حمام و توالت به دلیل رطوبتی که دارند محلی برای رشد و تحمع باکتری ها و قارچ ها است.

آسیب شناسی تاریخ جنبش دانشجویی مسلمان

شاید بتوان پیشینه جنبش دانشجویی در ایران را به روزگار مشروطه و فعالیت دانشجویان که برای تحصیل در زمان قاجار به خارج کشور رفته بودند, در نهضت مشروطه بازگرداند

خوراک بامیه و باد‌مجان

ذائقه کودکان چگونه شکل می گیرد

پرسشی از دکتر ناصر کلانتری متخصص تغذیه کودکان

گرانترین جوایز جشنواره های جهانی

گرانترین جوایز جشنواره ها ی جهانی وگرانقیمت ترین جوایز جهان وکدام مسابقات گرانقیمت ترین جوایز در جهان را دارند وگرانقیمت ترین جوایز جهان کدامند را در نمناک بخوانید

آیا انتخاب شهرداران در ایران بازیچه سیاست شده است؟

آلودگی هوا 30 هزارنفر را کشت/در سال 1402 و با اعلام وزارت بهداشت

جای خالی ایران در ریاض

یک خانواده‌ ۶۰ نفره اقتصاد ایران را نابود کرده‌اند

سهم خودروسازان در تصادفات چقدر است؟ | نبود استراتژی برای ارتقا ایمنی …