پنجشنبه, ۱۱ بهمن, ۱۴۰۳ / 30 January, 2025

مجله ویستا

ساختار نمایه سازی در موتورهای كاوش وب

حجم وسیع اطلاعات بر روی شبكه وب باعث می‌گردد تا پاسخ‌دهی به كاوش‌های ارسالی از سوی كاربرن، بدون دسترسی به تمام متون و فقط با استفاده از فایل‌های نمایه صورت گیرد. بدین منظور، در سطح شبكه از روش‌های مختلف نمایه‌سازی استفاده می‌گردد. روش نمایهء انتهای كتاب، استفاده از ابرداده‌ها، شاخه‌های موضوعی و ساختار متمركز و پراكنده در فن‌آوری موتورهای كاوش از روش‌های دیگر می‌باشد.بسیاری از موتورهای كاوش از یك ساختار متمركز خزنده-نمایه‌ساز، سود می‌جونید. خزنده‌ها برنامه‌های نرم‌افزاری هستند كه عمل پیمایش وب را انجام داده و صفحات جدید و یا به روز در آمده را به سرویس‌دهنده‌ای كه قرار است این صفحات در آنجا نمایه شوند، می‌فرستند.در ساختار پراكنده كه بسیار موءثرتر از نوع متمركز است، مشكلات ناشی از استفاده از ساختار متمركز چون:

۱) دریافت درخواست صفحات، توسط خزنده‌های متفاوت موتورهای كاوش، از سرویس‌دهندگان وب؛

۲) افزایش ترافیك در وب به علت استخراج تمام اشیا و اجزا صفحات وب و نادیده گرفتن اكثر آن‌ها هنگام نمایه‌سازی؛

۳) جمع‌آوری اطلاعات بدون همكاری و آگاهی سایر خزنده‌ها و موتورهای كاوش، مورد توجه قرار گرفته و مرتفع شده است.

مقدمه

از زمان پایه‌گذاری وب جهانی در اواخردههء ۱۹۸۰، هیچ كس نمی‌توانست پیش‌بینی وضعیت و تأثیرات فعلی آن را بكند. رونق وب و رشد فزاینده آن بر كسی پوشیده نیست، به نحوی كه فقط میزان اطلاعات متنی قابل دسترس آن در حدود ۱ ترابایت تخمین زده می‌شود (Baeza-Yates, ۱۹۹۹).اندازه‌گیری حجم اطلاعات بر روی شبكه اینترنت به ویژه وب كار بسیار دشواری است. بر طبق آمارهایی كه گروه Cyveillance عرضه كرده است، بیش از ۱/۲ میلیارد صفحه اطلاعات، بدون تكرار و قابل دسترس تا نیمه دوم سال ۲۰۰۰ بر روی وب موجود بوده و برساس همین مطالعات نرخ رشد انفجاری صفحات وب ۷ میلیون در روز بوده است. (Pasore, ۲۰۰۰)این بدان معناست كه در حال حاضر تعداد صفحات وب، به میزان سه برابر آن افزایش یافته است و این اطلاعات، براساس آمار NetCraft (۲۰۰۲) به وسیله بیش از ۲۷ میلیون سرویس‌دهنده وب در اختیار مشتریان قرار می‌گیرد.

حجم وسیع اطلاعات بر روی شبكه وب باعث می‌گردد تا پاسخ‌دهی به كاوش‌های ارسالی را بدون دسترسی به تمام متون و فقط با استفاده از فایل‌های نمایه صورت دهیم زیرا در غیر این صورت یا بایستی نسخه‌ای از اطلاعات درخواستی به صورت محلی ذخیره گردد و یا تمام صفحات از راه دور و از طریق شبكه، در هنگام جستجو دسترس‌پذیر باشد كه این روش‌ها بسیار گران و كند است. تمام این‌ها تأثیر و اهمیت، تلاش برای بهبود روش‌های نمایه‌سازی و الگوریتم‌های جستجو را مشخص می‌سازد.براساس استاندارد نمایه‌سازی بریتانیا نمایه، ترتیب اصولی از مداخل است كه به منظور قادر ساختن استفاده‌كنندگان برای یافتن اطلاعات خود در یك مدرك ایجاد می‌شود. نمایه‌سازی وب كار ساده‌ای نیست و لذا برای كمك به درخواست‌كنندگان اطلاعات در رسیدن به آن در سطح شبكه از روش‌های مختلف نمایه‌سازی استفاده می‌گردد.

روش نمایه انتهای كتاب در وب

بسیاری از سایت‌های وب، برنامه‌ای برای جستجوی سایت خود طراحی كرده‌اند. این برنامه‌ها همچون جستجو در فایل‌های تمام متن می‌تواند در نتایج جستجوی خود دارای مدارك نامرتبط و در اصطلاح همراه با ریزش كاذب باشد.اگر در چنین سایت‌هایی نمایه‌ای شبیه آنچه در انتهای كتاب‌ها دیده می‌شود به وجود آید، مراجعه‌كننده می‌تواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان كمتری به مدارك مورد نیاز خود وحتی به مدارك مرتبط با آن نیز دسترسی یابد.سایت وب شركت نرم‌افزاری Adobe با داشتن نمایه‌ای از نوع كواك(۱) و نیز موتور كاوش ویژه سایت، سعی در بالا بردن دسترس‌پذیری موءثر اطلاعات سایت خود نموده است.سایت دانشگاهی جورج تاون نیز نمایه موضوعی A-Z را در قسمت ابزارهای دسترسی به اطلاعات در صفحه خانگی خود قرار داده است.

ابرداده(۲) و وب

ابرداده به طور مكرر، داده‌ای برای داده تعریف شده است. این تعریف در عین ضروری بودن ناكافی است. ابرداده، داده‌ای است دربارهء داده، كه برای شرح منابع یا شیء اطلاعاتی پایه‌ریزی شده است و داده‌های منابع و روابط بین آن‌ها را تشریح می‌كند. پدیدآورندگان منابع، ناشران، كتابداران و سایر متخصصان اطلاع‌رسانی می‌توانند ابرداده را تولید كنند. ابرداده می‌تواند در درون منابع اطلاعاتی جاسازی(۳) و یا در كنار منبع اطلاعاتی و به طور مجزا حفظ شود. (Cleveland, ۲۰۰۱,P.۲۲۳)

قالب ابرداده‌ای دوبلین كور نمونه‌ای پیشنهادی از ابرداده است كه دستاورد نشست متخصصان اطلاع‌رسانی در دوبلین اوهایو به منظور حل مشكلات موجود در توصیف منابع اطلاعاتی موجود بر روی شبكه‌های كامپیوتری است. این نمونه‌ای از مفهوم پیوند بین ابرداده و وب است.شاخص‌های عنوان، پدیدآور، موضوع، ناشر، توصیف (همچون چكیده)، تاریخ ارائه، نوع مدرك، قالب(۴) (نیازهای سخت‌افزاری و نرم‌افزاری جهت ارائه مدرك)، برچسب منحصر به فرد شناسایی(۵)، محل تولید مدرك، زبان اصلی مدرك، چگونگی و محل ارتباط مدرك با سایر منابع، پوشش (بیانگر دامنه، محدوده و عمق مدرك) و مدیری حق موءلف، در قالب دوبلین كور پیشنهاد گردیده است. (Cleveland, ۲۰۰۱,P.۲۲۴)

شاخه‌های موضوعی

بعضی از ابزارهای جستجوی وب سعی در مرور سایت‌ها توسط افراد متخصص كرده و پس از تحلیل محتوی سایت، كلیدواژه مناسب را انتخاب و آن را در محل موضوعی، براساس لیست موضوعی ویژه خود قرار می‌دهند و در واقع یك راهنمای موضوعی را برای استفاده‌كننده فراهم می‌آورند. این در واقع به آن معناست است كه در زمانی كه موتور كاوش به طور معمول برای هدایت فرد به سایت، تمام صفحات آن سایت را نمایه كرده است، ولی از سوی دیگر یك راهنمای موضوعی بسیار شبیه یك پیوند به صفحه خانگی آن سایت تلقی می‌گردد. (Tyner, ۲۰۰۱).

سایت Open Directory و Looksmart دو نمونه بارز از این نوع سایت‌ها می‌باشند.

فن‌آوری موتورهای كاوش

ساختار متمركز

بسیاری از موتورهای كاوش از یك ساختار متمركز خزنده-نمایه‌ساز(۶) سود می‌جویند. خزنده‌ها برنامه‌های نرم‌افزاری هستند كه عمل پیمایش وب را انجام داده و صفحات جدید و یا به روز درآمده را به سرویس‌دهنده‌ای كه قرار است این صفحات در آنجا نمایه شوند، می‌فرستند. یك خزنده به عنوان نقطه شروع یك URL را دریافت كرده و انتقال صفحات وب را-همچون ایستگاه كاری كه صفحات را مرور می‌كند-به سرویس‌دهنده آغاز می‌نماید. پس از انتقال یك مدرك، سازه‌یاب(۷) شروع به استخراج واژه‌های مرتبط با متن كرده و آن‌ها را به پایگاه داده می‌افزاید. هر ركورد اطلاعاتی در این پایگاه شامل واژه استخراج شده و URL مربوط به آن می‌باشد. قابل ذكر است، تعدادی از خزنده‌ها واژه‌های موجود در بین برچسب‌هایی خاص نظیر، <TITLE>,<H۱>... و یا واژه‌های با بسامد بالا می‌نمایند.JumpstationII از این نوع است كه علاوه بر آن واژه‌های موجود در عناصر <HEADER> (<Hi>,۱<=I<=۶) و واژه‌های با بسامد بالا در برچسب <BODY> را استخراج می‌كند.خزنده WWWW واژه‌های موجود در عنصر URL, <TITLE> و <A> (ابر پیوندهای موجود در مدرك) را نمایه می‌كند.

شما در حال مطالعه صفحه 1 از یک مقاله 2 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.

پنجشنبه, ۱۱ بهمن, ۱۴۰۳ / 30 January, 2025

ساختار نمایه سازی در موتورهای كاوش وب

اسیدفولیک برای تامین آهن کافی است؟

عدد وزن (به کیلوگرم) را تقسیم بر مجذور عدد قد (به سانتیمتر) کنید. عدد حاصل اگر از ۲۴-۱۹ باشد، وزن ایده آل و مناسب برای اقدام به بارداری را نشان می دهد.

۲۴ اسفند ـ ۱۵ مارس ـ درگذشت مرد بزرگی كه ۷۰ داستان تاریخی نوشت

۹ کاری که بیشتر زنان موفق قبل از خوردن صبحانه انجام می‌دهند | چطور

در اینجا می‌خواهیم درباره‌ کارهایی که زنان موفقِ پزشک، ورزشکاران، کارآفرینان و نویسندگان موضوعات موفقیت، قبل از خوردن صبحانه انجام می‌دهند، صحبت کنیم.

همه کنایه های کریس رونالدو به مسی

نوزادم شربت اشتها نمی خورد

در صورتی که واقعا فرزندتان 9-8 هست جای نگرانی نیست چون وزن تقریبا نرمال به نظر می رسد. اما اگر بزرگتر است براساس سنش یک مقدار کم وزنی دارد.

Samsung P۷۰۵

فهرست نام های اصیل ایرانی با معنی (اسم پسر)

فهرستی از نام های اصیل ایرانی با معنی و به ترتیب حروف الفبا برای شما گردآوردی کرده‌ایم. این نام‌ها شامل اسامی پسرانه ایرانی اصیل می‌باشد.

همه چیز درباره MP۳ و MP۳ Player

همه چیز درباره MP۳ و MP۳ Player

تاریخچه بازی های دیجیتالی

تاریخچه بازی های دیجیتالی

اوتیسمی‌های کتابخوان

تکنیک‌های خانگی برای درمان تب

خوردن سوسیس و کالباس ممنوع!

سوسیس و سوسیس کالباس و ضرر های سوسیس کالباس و انواع سوسیس و خوردن سوسیس و مصرف سوسیس را در نمناک ببینید.

پاسخ به پرسش های جنسی کودکان

نگاهی به گروه های موسیقی ایران

پول ملی زیمبابوه چگونه نابود شد

پول ملی زیمبابوه چگونه نابود شد

برقراری صلح با والدین همسر

چهارشنبه سوری در خانه کودک ابوعلی سينا

مجتمع آموزشی ابوعلی‌سينا برنامه‌ای را با عنوان «جشن چهارشنبه سوری» در روز 13 اسفند برگزار می‌کند.

چند توصیه برای انتخاب سحری در ماه رمضان

یبوست کودک، علل و روش درمان

یبوست در کودکان معمولاً دلایل زیادی دارد. مهمترین این دلایل را برای شما بازگو می کنیم.

بهائیت فاشیسم جدید

بهائیت فاشیسم جدید

راز فیلم های پرفروش

سیداحمد حسینی صفایی اعراجی خوانساری

فریز زخم دهانه رحم، نکات مهم

زخم دهانه رحم را سوزانده و فریز کردم، استفاده از کرم را ادامه بدم یا فقط قرص بزنم؟

ابرها هیچ گاه فراموش نمی کنند

چگونه نحوه برقراری ارتباط کودکمان را تقویت کنیم؟

پسر بچه ی 4ساله ی دارم که ارتباط برقرار کردنش ضعیف است البته من هم خیلی بهش گیر میدم راهنمایی کنید؟

کنکوری ها بخوانند

۸ شهریور: در شهر چه گذشت؟

خطر فکر کردن به عشق های گذشته

عشق های گذشته و خطر عشق های گذشته و یادآوری عشق های گذشته و خاطرات عشق های گذشته را در نمناک ببینید.

۱۱ آبان: در شهر چه گذشت؟

خانه دار شدن, چه آسان

نکاتی که باید در هنگام اتو کشیدن مو بدانیم

وزنه های آزاد در مقابل دستگاه های بدنسازی

وزنه های آزاد در مقابل دستگاه های بدنسازی

فواید و مضرات چای شیرین صبحانه

شکر با چای مخلوط شود میزان نفخ را کاهش می دهد و درجه حرارت بدن را تنظیم می کند

رایج ترین اشتباهات مالی در زندگی زوجهای جوان

رایج ترین اشتباهات مالی و اشتباهات مالی و اشتباهات مالی در زندگی زوج ها و مشکلات اقتصادی خانواده را در نمناک ببینید.

احساس تنهایی

فتحلی شاه و زنان شاعرش

جنایت در روزهای آخر تابستان

درد زیر بغل، چرا؟

25 سالمه و کودک 1 ساله دارم. زیر بغلم برجستگی در آمده که درد داره و موقع شیر دادن هم درد می گیرد. چکار کنم؟

همه چیز درباره ی سیستم های GPS

همه چیز درباره ی سیستم های GPS

میراث مطهر افکار و آرای شهید مطهری

تونی بلر خداحافظی كرد

تونی بلر خداحافظی كرد

طالع‌بینی ۱۶ اردیبهشت ماه ۹۰

اجازه دهید الگویم را خودم انتخاب کنم

اجازه دهید الگویم را خودم انتخاب کنم

خوابیدن به پشت برای جنین ضرر دارد؟

شبها با استرس از خواب بیدار می شم و متوجه می شم که به پشت خوابیدم و دوباره به سمت پهلو بر می گردم. برای جنینم ضرر ندارد؟

به خاطر تو که تمام عشقی

لازانیای نخود سبز | طرز تهیه لازانیای نخود سبز

لازانیای نخود سبز و طرز تهیه لازانیای نخود سبز و انواع غذاهای خارجی و طرز تهیه غذاهای جدید را در آشپزخانه نمناک ببینید.

فیبروم رحمی چیست؟

فیبروم یکی از بیماری های شایع در بین زنان است...

ارتباط موی زیربغل با رابطه جنسی

آیا وسط روز از خودتان عکس سلفی می‌گیرید و برای همسرتان می‌فرستید؟ خبر خوب اینکه افرادی که زندگی جنسی خوبی دارند، خودشان و بدن‌شان را دوست دارند.

اشیا هم می خندند

اشیا هم می خندند

عباس كیارستمی

جنسیت مرد تولد و وفات 1319 محل تولد ایران تهران تهران شهرت علمی و فرهنگی کارگردان لیسانس نقاشی از دانشكده هنرهای زیبا با طراحی پوستر و ساخت تیتراژ برای چند فیلم مهم …

زخم کاری دیگر اثری از «مهدویان» ندارد!