یکشنبه, ۱۸ شهریور, ۱۴۰۳ / 8 September, 2024
مجله ویستا
بازیابی اطلاعات در وب
در این مقاله به اختصار چالشهای مربوط به گسترش بازیابی اطلاعات در وب، بخصوص دیگر انواع دادهها ، وبکاوی و موضوعات مرتبط با کاوش، همچنین روابط اصلی بازیابی اطلاعات و محاسبات تقریبی، و چگونگی رفع این چالشها با این تکنیکها را بررسی میکنیم.
● مقدمه
وب به صورت بزرگترین منبع دادهها در آمده که به سهولت قابل دسترسی است؛ از این رو طبیعی است که اطلاعات از آن استخراج شود و موتورهای جستجو ی وب به یکی از پراستفادهترین ابزارها در اینترنت تبدیل شدهاند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشکل میسازد. در واقع، کاوش در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد که یک فایل فیزیکی یک مدرک منطقی است؛ و این همیشه درست نیست.
تحقیق اخیر دربارة چالشهای جستجو در وب، شامل مسائل زیر است ]۱۰، ۲۰، ۲۵[ :
ـ نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و کامل نگهداشتن؛
ـ شناسایی و حذف محتوا و پیوندهای مغرضانه، که اطلاعات ناخواستة موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض» مینامند؛
ـ مشخصکردن محتوای با کیفیت خوب. وب پر از محتویات با کیفیت پایین (از نظر نحوی و معنایی) مشتمل بر دادههای پارازیتی، نامعتبر و متناقض میباشد. بنابراین، ما این مشکل را داریم که تا چه حد میتوان به یک وبسایت اعتماد کرد. این، شامل ساختار «اچتیامال» (که در بیشتر موارد مبهم و نامتجانس است) نیز میشود.
ـ بهرهبرداری از بازخورد کاربر، چه از ارزیابی صریح کاربر یا به طور ضمنی از گزارشهای وب . در این جا میتوانیم اطلاعات ضمنی را که توسط نویسندگان صفحات وب و به شکل چندین قاعدة مورد استفاده در طراحی «اچتیامال» ارائه میشود نیز اضافه کنیم؛
ـ کشف نسخههای مشابه از میزبانها و محتویات، به منظور اجتناب از کاوش غیرضروری.
ـ تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی یا اجرایی . برآورد شده است که کمتر از ۵۰ درصد درخواستها از نوع اول میباشد.
ـ بهبود زبان پرسوجو، اضافهکردن زمینة اطلاعات مورد درخواست، از قبیل نوع یا زمان؛
ـ بهبود رتبهبندی، بخصوص برای مرتبطکردن آن با فردی که پرسش را مطرح کرده است. اساس ربط، قضاوتهای شخصی است؛ بنابراین رتبهبندی بر اساس پروفایلهای کاربر یا اطلاعات زمینهای دیگری که مربوط به کاربر است، میتواند مفید باشد. در اینجا میتوانیم کیفیت، اعتماد و موضوعات بازخورد کاربر را نیز اضافه کنیم.
فهم تمام این مسائل بدون دادههای واقعی دشوار است، بنابراین نتایج تجربی بیشتری مورد نیاز است. مطالب بیشتر را میتوان در ]۱۱،۲،۱[ پیدا کرد.
وب چیزی بیش از«اچتیامال» محض و دیگر ساختارهای متنی متداول است و ما میخواهیم دیگر انواع دادهها را نیز جستجو کنیم، که در میان آنها صفحات پویا، اشیای چندرسانهای، دادههای «ایکسامال» و اطلاعات معنایی همراه با آنها را داریم. اگر «وب معنایی» علیرغم تمام مسائل اجتماعی که باید حل شوند صورت واقعی به خود گیرد، یک وب بر پایهی «ایکسامال» با طرح کلی و فرادادههای معنایی استاندارد خواهیم داشت. در چنان محیط محتملی، بازیابی اطلاعات آسانتر میگردد و حتی جستجوی چندرسانهای ساده میشود. در چنین محیطی اطلاعات ناخواسته باید از بین برود و تشخیص محتوای خوب، راحتتر است. ازطرف دیگر، مسائل جدید بازیابی مانند پردازش و بازیابی «ایکسامال» و وبکاوی بر روی دادههای ساختاری پیدا میشود.
«لطفیزاده» ]۲۸[ مفهوم محاسبات تقریبی را به عنوان همگرایی روشها که در مجموع، پایهای برای مفهومسازی، طرح، ساخت و بهکارگیری سیستمهای هوشمند/ اطلاعاتی فراهم میآورند ارائه کرد. برخی از روشهای اصلی محاسبة تقریبی عبارتاند از منطق فازی ، الگوریتمهای تکاملی ، شبکههای عصبی ، مجموعههای ناهموار ، شبکههای بیزی و دیگر شیوههای احتمالاتی. ویژگی اصلی محاسبة تقریبی این است که نسبت به عدم دقت، ابهام، حقیقت ناقص، و برآورد، مقاوم است. ذهنیت، ابهام و عدم دقت، ویژگیهای معمول در هر فرآیند بازیابی اطلاعات هستند. استفاده از فنون محاسبة تقریبی برای بهبود فرآیندهای بازیابی اطلاعات، رضایتبخش بوده است. بخصوص، فکر میکنیم که کاربرد آن برای حل مسائل مختلف بازیابی اطلاعات که اخیراً در وب پدیدار شدهاند، مفید است.
ما بحث را از چالشهای دادهای شروع میکنیم و به دنبال آن یک مقدمة کوتاه دربارة وبکاوی میآوریم. سپس به نظراتی دربارة حل نسبی مسئلة کاوش میپردازیم و در پایان، یک توضیح کوتاه دربارة کاربرد محاسبة تقریبی در بازیابی اطلاعات میآوریم.
۲) چالشهای دادهای
چندین موضوع دادهای وجود دارند که لازم است بررسی شوند، که از جمله باید صفحات پویا یا پنهان ، دادههای چندرسانهای ، دادههای ساختاریافته و دادههای معنایی را ذکر کنیم. سپس هر یک از آنها را توضیح میدهیم، بجز دادههای پنهان که یک مورد خاص از دادههای عام، با مسئلة دسترسی محدود میباشد.
▪ دادههای پویا
وب ایستا در مقایسه با محتوایی که بر اساس درخواست، بخصوص بنابر ارائة درخواست در کسب و کار الکترونیکی یا در سایتهای خدمات اطلاعاتی ایجاد میشود، کوچک شده است. نرمافزارهای کنونی کاوش میتوانند پیوندهای پویا را دنبال کنند، اما این کار باید با دقت انجام شود، زیرا ممکن است هیچ محدودیتی وجود نداشته باشد، یا حتی یک صفحة مشابه، دوباره و دوباره تولید شود. دسترسی به صفحاتی غیر از آنچه در فرمهای پرسش درخواست میشود، از این هم دشوارتر است، زیرا کاوشگر شناختی از پایگاه اطلاعاتی ندارد. از طرف دیگر، حتی اگر پایگاه اطلاعاتی شناختهشده باشد، درخواست همة سؤالات ممکن، بسیار وقتگیر خواهد بود (وابسته به اندازة پایگاه اطلاعاتی، به طور تصاعدی افزایش مییابد) و حتی اگر فقط به درخواستهای ساده بسنده کنیم، بعضی از این درخواستها ممکن است هرگز توسط اشخاص حقیقی مطرح نشوند. خدمات وب، اگر امکان یادگیری از پایگاه اطلاعاتی و نحوة پرسش افراد از آن را فراهم کنند، ممکن است راه حل نسبی برای این مسئله باشند. مثلاً بهدستآوردن هزار درخواستی که بیشترین تکرار را دارند، ممکن است کافی باشد. امکان دیگر، تجزیه و تحلیل صفحه است، مانند کاری که در ]۲۳[ انجام شده.
▪ دادههای چندرسانهای
دادههای چندرسانهای شامل تصاویر، تصاویر متحرک، صوت در چندین شکل، و ویدیو است. همة اینها قالب استاندارد ندارند. متداولترین آنها JPG وGIF, PNG برای تصاویر، MP۳ برای موسیقی، Real Video یا Quicktimeبرای ویدیو، و ... میباشند. راهحل ایدهآل این است که بر روی هر نوع داده (از جمله متن)، با استفاده از الگوی یکسان و با زبان درخواست واحد، جستجو انجام شود. این هدف بلندپروازانه شاید امکانپذیر نباشد.
برای یک نوع دادة خاص میتوانیم یک مدل تشابه به وجود آوریم، و براساس نوعدادهها، زبان درخواست تغییر کند. مثلاً درخواست به وسیلة مثال برای تصاویر، یا درخواست بهوسیلة زمزمه برای صوت. تمام این زمینهها بیشتر متعلق به پردازش تصاویر و علائم است تا به بازیابی اطلاعات به روش کلاسیک.
▪ دادههای ساختیافته
اغلب دادهها تا حدودی دارای ساختار هستند، و نهایتاً دادههای نیمه ساختیافته نام دارند. نمونههای آن پست الکترونیکی، اخبار ارسالی، و... هستند. اگر «ایکسامال» متداول شود، سطح ساختار باز هم بالاتر میرود. اولین چالش، طراحی مدلهای دادهای و زبانهای پرسوجوی مربوط به آنها است که امکان میدهد محتوا و ساختار با هم درآمیزند. متنهای ساختیافته را در مرتبة قبل از «ایکسامال» میدانستند و چندین واسطة کارآیی/گویایی، طراحی شد ]۳[. بعد از «ایکسامال»، «کنسرسیوم وب جهانی»، «ایکس کوئری» را به عنوان استاندارد معرفی کرده است ]۲۷[.
در هنگام بازیابی دادههای «ایکسامال»، چندین چالش وجود دارد:
ـ پاسخ میتواند جزئی از «ایکسامال» باشد و حتماًً لازم نیست یک شیء کامل باشد. با وجود این، پاسخها نیز باید دادههای مبتنی بر«ایکسامال» باشند.
ـ بسیاری از پاسخها را میتوان در یک شیء «ایکسامال» واحد آورد و میتوانند با یکدیگر، همپوشانی داشته باشند.
ـ چگونه یک پاسخ را رتبهبندی کنیم و اگر لازم باشد پاسخ را در قالب انواع ساختارهای خاصی ارائه دهیم، و چگونه رتبهبندی را برای آنها اعمال کنیم؟ گاهی اوقات با ترکیب درختوارههای فرعی اگر نزدیک به هم باشند، رتبهبندی بهتری خواهیم داشت. اما در موارد دیگر اگر کاملاً دور از هم باشند، بهتر است.
تحقیقات اخیر دربارة این موضوعات در ]۶ ، ۷ ، ۱۷ ،۱۸[ آمده است.
مسئلة دیگر، پردازش جریانات «ایکسامال»، یعنی غربالکردن جریانی از اشیای «ایکسامال» بهوسیله مجموعة گستردهای از پرسشها میباشد. در این جا پرسشها را میتوان نمایهسازی کرد، اما دادهها را نمیتوان. برای مطالعة مقدمهای بر این مسئله،]۲۴[ را ببینید.
▪ دادههای معنایی
دو مسئلة اصلی در رابطه با اطلاعات معنایی، استانداردهای مربوط به فرادادههایی هستند که معنا، وکیفیت یا درجة اطمینانپذیری یک منبع اطلاعاتی را توصیف میکنند. در مورد اولین مسئله [یعنی استانداردهای معنا] «کنسرسیوم وب» اقدام میکند، اما برای مسئله دوم [یعنی کیفیت یا درجة اطمینانپذیری]، نیاز به «طرحهای تصدیق» میباشد که باید در آینده ایجاد شوند.
مسائل دیگر، موضوعات متداول مانند درجهبندی، سرعت تغییر، فقدان انسجام ارجاعی (پیوندها فیزیکی میباشند نه منطقی)، اختیارات توزیعشده، محتوا و کیفیت نامتجانس، منابع چندگانه، و ... میباشند. مقدمهای بر این مسائل و دیگر چالشهای «وب معنایی» در ] ۸، ۲۱، ۲۶[ ارائه شده است.
۳) وبکاوی
ما در بازیابی اطلاعات، معمولاً پرسش را میدانیم. دادهکاوی زمانی انجام میشود که پرسش را نمیدانیم. از این رو، سعی میکنیم روابطی در دادهها پیدا کنیم که مانند یک پاسخ جالب به نظر برسند، سپس این پاسخ را بررسی میکنیم تا پرسش متناظر با آن را پیدا کنیم. در وب، این کار منجر به وبکاوی میشود، یعنی چالش دیگری فراتر از بازیابی اطلاعات در وب. بعضی نویسندگان بازیابی اطلاعات را نیز جزو وبکاوی به شمار میآورند، که به عقیدة ما صحیح نیست. وبکاوی شامل استخراج اطلاعات، و به دنبال آن تعمیم و تحلیل این اطلاعات است.
سه نوع دادة و بیوجود دارد که میتوان آنها را کاوید: محتوا، کاربرد و ساختار. محتوا، شامل کاویدن متن و چندرسانهایها میشود. کاربرد، شامل کاویدن گزارش وب (مشتمل بر گزارش جستجوها و دیگر دادههای کاربردی) است. ساختار به معنای تحلیل ساختار پیوندهای وب میباشد (اما این مطلب، با توجه به امکان کاویدن در ساختار«ایکسامال»، مبهم است). بعلاوه برای هر سه مورد، ما یک بَُعد موقتی که مربوط به پویایی چگونگی رشد و تغییرات وب میباشد، داریم که دلالت بر دادههای موقتی دارد. دو نوع اول در ]۱۴[ بررسی شدهاند و نوع سوم، موضوع اصلی ]۱۲[ است. نوع سوم کمتر مورد بررسی قرار گرفته و بعضی از نتایج در ارتباط با آن، در]۴[ ارائه شده است.
از وبکاوی میتوان علاوه بر یافتن اطلاعات یا دانش جدید، برای مقاصد گوناگون استفاده کرد: برای طراحی انطباقی وب (مثلاً طراحی وب با انگیزش ناشی از کاربر)، سازماندهی دوبارة وبسایت، شخصیسازی وبسایت، و موارد گوناگون بهبود در اجرا.
۴) به سوی موتور کامل جستجوردر وب
یک موتور کامل جستجو، مسائلی را که قبلاً ذکر شد میتواند حل کند، هر نوع دادهای را بازیابی نماید و اطلاعات را برای انجام بهتر وبکاوی، جمعآوری کند. اما مشکل امروزه همچنان باقی خواهد بود: جمعآوری دادهها. مسئلة کاوش به حجم و رشد داده، همراه با دادههای متغیر و مشابه، و یک تکنیک بسیار ناکارآمد مربوط میشود: بازکشی
موتورهای جستجوی کنونی کارشان را بدون همکاری خدمتدهندههای وب انجام میدهند؛ آنها باید صفحات را با استفاده از پروتکل استاندارد «اچتیتیپی» از طریق اتصالات «تیسیپی» اَسکی انتقال دهند، و آنها را بسنجند تا ببینند آیا صفحهای تغییرکرده است یا نه، تا بعد از استخراج صفحات جدید یا روزآمد شده، نمایههای خود را به روز کنند.
از همه بهتر این است که یک واسطه برای خدمتدهنده بفرستیم، یعنی به جایی که میتواند به طور محلی به دنبال صفحات و پیوندهای جدید و صفحات اصلاحشده بگردد. همچنین این واسطه میتواند همة صفحات روزآمد شده را با هم به صورت یک فایل فشرده جمعآوری کند تا به موتور جستجو انتقال یابد. خدمتدهندة اصلی جستجو میتواند با واسطة دور، در تعامل باشد تا براساس چندین پارامتر مثل تعداد فایلها، اهمیت آنها و ... تصمیم بگیرد آیا ارزش دارد که گروه موجود، انتقال یابد یا نه. سپس میتوان اطلاعات کاوشگر را بین موتور جستجوی اصلی و واسطة موجود، توزیع کرد. «براندمن» و دیگران ]۹[ تأثیر باند پهن را، در هنگامی که خدمتدهندههای شبکه، فرادادههای صفحات وب خود (مانند تاریخهای انجام، اندازه، و ...) را منتشر میکنند بررسی نمایند و نشان میدهند که ذخیرهسازیهایی وجود دارند و جدید بودن صفحات نیز افزایش مییابد. مقالة مشابهی بر جدید بودن تأکید میکند ]۱۹[. اما میتوانیم قدمی دیگر به جلو برداریم و به جای بازکشی اطلاعات به تنهایی، اطلاعات را عرضه کنیم.
سپس، تعامل از بازکشی صفحات به عرضهکردن تغییرات کشیده میشود. طبق معمول، زیادهروی مؤثر نیست، و عرضهکردن اطلاعات زیادی، بار خدمتدهندة مرکزی را زیاد میکند. از این رو، بهترین راه حل این است که خدمتدهنده، از قبل در این باره که چه موقع و چگونه پیغامی بفرستد تا اطلاع دهد که یک گروه از تغییرات آماده است (یا حتی بهتر، این که تغییرات، نمایه شده است و قسمتی از نمایه در دسترس است) با واسطه مذاکره کند. سپس خدمتدهندة اصلی در موقع مقرر، آن تغییرات را بازکشی خواهد کرد. این به معنای یک برنامهریزی بلندمدت است، که در نتیجه وقتی خدمتدهندة وب را، که یک هشدار عرضه میکند واقعاً بازبینی مینماید، تغییرات بیشتری را پیدا کند. اما این برنامهریزی سادهتر از برنامهریزیهای کنونی است، زیرا که ما اطلاعات بیشتری داریم، و نیازی نیست که نگران رفتار با نزاکت باشیم، چرا که مطمئن هستیم تمام دسترسیها تکراری نیستند و همیشه با موفقیت همراهاند.
عموماً خدمتدهندههای وب میخواهند که در این چیدمان همکاری داشته باشند، زیرا امروزه نمایهشدن در یک موتور جستجوی مشهور، یک ارزش پذیرفتهشده میباشد. از طرف دیگر، حتی اگر چرخههای «سیپییو» را به نفع موتور جستجو به کار گیرند، کاوشگر آنها را سنجش نمیکند؛ بنابراین بار دسترسی به خدمتدهندة وب را به طور مؤثری کاهش میدهند. همچنین این چرخهها میتوانند در دورههایی که بار کمتر است، به کار گرفته شوند.
به عنوان مرحلة اول آزمایش، در هنگامی که یک خطمشی ۱ واسطه که به صورت جهانی قابل دسترس باشد وجود ندارد، یک مدول ساده، همراه با خدمتدهندة وب، میتوان برای تأمین کارآیی مشابه و برای اندازهگیری میزان بهبود عملکرد، ایجاد کرد. همان طور که قبلاً ذکر کردیم، تغییرات کوچک در خدمتدهندة وب، برای ایجاد امکان همکاری با موتورهای جستجو، پیشنهاد شدهاند ]۹ و ۱۹[. اما این [موتورها] فاقد انعطافپذیری هستند و در خطمشیهای کاوشگر، اختلال ایجاد میکنند. واسطهها این رفتار را بسیار بهبود میبخشند و به الگوریتمهای خود این امکان را میدهند که صفحات را برای این که در کد واسطهها گنجانده شوند، اولویتبندی کنند. از این نظر، واسطه جز مهمی از الگوریتم کاوشگر است و منطق آن، از خط مشیهای یک موتور جستجوی خاص پیروی میکند ]۵[.
● محاسبات تقریبی و بازیابی اطلاعات
همان طور که در مقدمه ذکر کردیم، واژة «محاسبات تقریبی» بوسیلة «لطفیزاده» ارائه شد و در همگرایی روشهایی که برای حل مسائلی که نیاز به نوعی هوش (که از محاسبات کلاسیک ناشی میشود) دارند، مفید است. «محاسبات تقریبی» یک مجموعه از فنون مناسب برای رفع ابهام، ذهنگرایی، و کلیت موجود در برخی مسائل میباشد.
هدف بازیابی اطلاعات مدلسازی، طراحی، و اجرای سیستمهایی است که قادر باشند دسترسی سریع و کارآمد بر پایة محتوا را به مقادیر عظیم اطلاعات، تأمین کنند. هدف یک سیستم بازیابی اطلاعات، برآورد ربط اقلام اطلاعاتی با نیازهای اطلاعاتی یک کاربر (که در قالب یک سؤال بیان شده) میباشد. این، کار مشکل و پیچیدهای است؛ زیرا با ذهنیت، ابهام و عدم دقت آکنده است.
محاسبات تقریبی روشهای متفاوتی از قبیل منطق فازی، الگوریتمهای ژنتیکی، شبکههای عصبی، مجموعههای نادقیق، و شبکههای بیزی را شامل میشود. مسئله بازیابی اطلاعات، یک حوزة کاربردی معمول برای محاسبات تقریبی است. بعضی از رویکردهای اصلی محاسبات تقریبی در بازیابی اطلاعات از این قرارند:
منطق و مجموعههای فازی: ترکیب اطلاعات، استخراج متن، مدلهای زبان پرسوجو، و خوشهبندی مدارک؛
▪ شبکههای عصبی: ردهبندی و خوشهبندی اسناد و اصطلاحات، و بازیابی چندرسانهایها؛
▪ الگوریتمهای ژنتیکی: ردهبندی مدارک، بازیابی تصویر، بازخورد ربط، و یادگیری پرسوجو؛
▪ تکنیکهای احتمالاتی: رتبهبندی، وبکاوی.
مجموعههای نادقیق و منطقهای چند ارزشی: خوشهبندی مدارک؛
▪ شبکههای بیزی: مدلهای بازیابی، رتبهبندی، ساخت اصطلاحنامه، و بازخورد ربط.
حداقل صد مقاله به این مسائلی که ذکر شد، اختصاص یافته و برشمردن همة آنها نیاز به یک بررسی کامل دارد. ولی ما خواننده را به کتاب «میاموتو» ]۲۲[، و نیز به یک کتاب عالی با ویراستاری «کرستانی» و «پاسی»]۱۶[، شمارة ویژهای از IP&M ]۱۵[، و یک مقالة پیمایشی از «چن»، و شمارة حاضر از این مجله ارجاع میدهیم.
حداقل نیمی از مسائلی را که در مقدمه و بخشهای بعدی ذکر کردیم، میتوان با شیوههای بالا از میان برداشت. از این رو، تحقیقات بیشتری در پیش روی ما قرار میگیرد. اصلیترین مسائل شاید موضوعات عملکردی (مثلاً این که آیا میتوان با زمان پاسخ محدود، در موقعیتهای عملی استفاده کرد؟) و توضیح پاسخ (مثلاً این که چرا یک مدرک در یک طبقة معین ردهبندی میشود؟) باشند. جدیدترین کاربردهای محاسبات تقریبی در بازیابی اطلاعات در وب، شامل واسطههای سازگار، پروفایلهای کاربر، طبقهبندی صفحات وب، سنجش کیفیت، و ... میباشند. بنابراین، این نشان میدهد که پیشرفت در زمینة بازیابی اطلاعات در وب، با استفاده از شیوههای محاسبات تقریبی، امکانپذیر است.
پینوشت
۱ . Baeza-Yates, Ricardo (۲۰۰۳). "Information retrieval in the web: Beyond current search engines” International Journal of Appoximate Reasoning. ۳۴: ۹۷-۱۰۴.
۲. web
۳. search engines
۴. Crawling
۵. spam
۶. adversarial IR
۷. HTML (HyperText Markup Language) زبان نشانهگذاری فرامتن
۸. web logs
۹. navigational
۱۰. transactional
۱۱. XML (Xtended Markup Language) زبان نشانهگذاری توسعهپذیر
۱۲. semantic web
۱۳. metadata
۱۴. web mining
۱۵. Soft Computing ( SC )
۱۶. fuzzy logic
۱۷. genetic algoritm
۱۸. neural network
۱۹.rough sets
۲۰. Bayesian network
۲۱. dynamic pages
۲۲. hidden
۲۳. Multimedia data
۲۴. Structures data
۲۵. semantic data
۲۶. signal
۲۷.X Query
۲۹. اگرچه Xpath و XSLT را نیز میتوان زبان پرسوجو دانست، اما برای مقاصد دیگری طراحی میشوند.
۲۹. certification schemes
۳۰.log
۳۱. pulling
۳۲. Web server
۳۴. agent
۳۵. pushing
۳۶. CPU (Central Processor Unit)
۳۷. Platform
۳۸. module
۱ . Baeza-Yates, Ricardo (۲۰۰۳). "Information retrieval in the web: Beyond current search engines” International Journal of Appoximate Reasoning. ۳۴: ۹۷-۱۰۴.
۲. web
۳. search engines
۴. Crawling
۵. spam
۶. adversarial IR
۷. HTML (HyperText Markup Language) زبان نشانهگذاری فرامتن
۸. web logs
۹. navigational
۱۰. transactional
۱۱. XML (Xtended Markup Language) زبان نشانهگذاری توسعهپذیر
۱۲. semantic web
۱۳. metadata
۱۴. web mining
۱۵. Soft Computing ( SC )
۱۶. fuzzy logic
۱۷. genetic algoritm
۱۸. neural network
۱۹.rough sets
۲۰. Bayesian network
۲۱. dynamic pages
۲۲. hidden
۲۳. Multimedia data
۲۴. Structures data
۲۵. semantic data
۲۶. signal
۲۷.X Query
۲۹. اگرچه Xpath و XSLT را نیز میتوان زبان پرسوجو دانست، اما برای مقاصد دیگری طراحی میشوند.
۲۹. certification schemes
۳۰.log
۳۱. pulling
۳۲. Web server
۳۴. agent
۳۵. pushing
۳۶. CPU (Central Processor Unit)
۳۷. Platform
۳۸. module
منبع : فصلنامه علوم اطلاع رسانی
وایرال شده در شبکههای اجتماعی
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست