چهارشنبه, ۲۶ دی, ۱۴۰۳ / 15 January, 2025

مجله ویستا

وب نامرئی و وب فارسی

افزایش کاربران فارسی زبان اینترنت از یک سو و گسترش روز افزون صفحات اینترنتی به زبان فارسی از سوی دیگر ضرورت بررسی وب نامرئی به زبان فارسی با توجه به محدودیت ها و قابلیت های خط فارسی را بیان می کند. در این مقاله ابتدا وب نامرئی و جنبه های مختلف آن معرفی می گردد و سپس زبان و خط فارسی و تأثیر آن در ناپیدائی صفحات وب مورد تحلیل و بررسی قرار می گیرد.

● مقدمه

صرفه جویی در زمان، عدم محدودیت مکانی، عدم محدودیت زمانی در کاربری، سهولت دسترسی و روزآمدی از جمله دلایلی است که شبکه جهان گستر وب را به فراگیرترین محمل اطلاعاتی مبدل کرده است. و در این حین موتورهای کاوش عمده ترین و مرسوم ترین ابزار برای بازیابی اطلاعات هستند. جامعیت موتورهای کاوش اعتماد و اطمینان کاربران را به این ابزار افزایش داده و در بسیاری موارد آنها را از جستجوی بیشتر منابع اطلاعاتی باز می دارد حال آنکه، وجود پدیده ای به عنوان «وب نامرئی» گویای این مهم است که حجم وسیعی از اطلاعات موجود در وب با جستجو از طریق موتورهای کاوش قابل بازیابی نیست و آگاهی کاربران از این امر ضروری به نظر می رسد.

با افزایش پدیده وبلاگ نویسی و اپیدمی شدن آن در ایران و افزایش نشریات الکترونیکی فارسی، حجم صفحات وب فارسی وسعت یافت. وسعت حجم وب فارسی و دسترسی به منابع ارزشمند ادبیات فارسی، عرق زبانی و ملی و نیز عدم تسلط به زبان انگلیسی که زبان عمومی وب است ضرورت بازیابی اطلاعات از وب فارسی را تبیین می کند تفاوت های اساسی زبان انگلیسی و فارسی، حاکی از وجود تفاوت هایی در قسمت هایی از وب نامرئی این دو زبان است که در مقاله به بررسی این تفاوت ها و میزان وب نامرئی در وب فارسی و مشکلات مختص این زبان می پردازیم.

● اجزای تشکیل دهندۀ موتور های کاوش و نحوۀ عملکرد آنها

ساختار اصلی موتور کاوش معمولاً از سه بخش اصلی تشکیل شده است، این بخش ها عبارتند از :

۱) نرم افزار خزنده یا روبات جستجوگر[۲]

این قسمت ازموتورجستجو در واقع نرم افزاری است که با دنبال کردن پیوندهای موجود در صفحات وب، صفحات جدید را شناسایی می کند واین فرایند، پیوسته تکرارمی شود.انتخاب نام«خزنده» برای این نوع ازنرم افزارها به دلیل نوع کاری است که انجام می دهند.عملکرد آنها در یافتن صفحات وب مثل خزیدن در فضای وب است. هر موتور جستجو، نرم افزارخزندۀ مخصوص به خود را دارد وتوانایی بازیابی اطلاعات در هر موتور، کاملاً وابسته به قدرت «خزندۀ» آن است. منظور از قدرت خزنده، سرعت عمل ودامنۀ فعالیت آن در دنبال کردن پیوندهای موجود می باشد. گستردگی وعمق دسترسی اطلاعات در هر موتور جستجو بیش از هر چیز به ویژگی های خزندۀ آن بستگی دارد و نمایۀ موتور جستجو، حاصل کار خزنده است. البته علاوه بر خزنده ها در هر موتور جستجو، بخشی برای معرفی سایت های جدید نیز وجود دارد که کاربران می توانند با ارسال نشانی سایت[۳] مورد نظر خود، آن را به موتور جستجو تحویل دهند.

۲) نمایه[۴]

یك پایگاه اطلاعاتی است كه اطلاعات نمایه‌سازی‌شده و‌ مرتبط با صفحات یا سایت‌های وب درآنجا نگهداری می‌شود و قابل بازیابی است. ساختار نمایه، ‌اندازه و حجم آن در موتورهای جستجو متفاوت است؛ به همین دلیل جستجو با كلیدواژه‌های یكسان در موتورهای گوناگون، نتایج نسبتاً متفاوتی را در پی خواهد داشت‌. (خسروی،۱۳۸۳، ۵۲)

۳) نرم افزار جستو در نمایه[۵]

سومین جزء یک موتور جستجو، نرم افزار بازیابی است که به جستجو و بازیابی اطلاعات موجود درفایل نمایه براساس کلید واژه های دریافتی ازطرف کاربران می پردازد. و نتایج بازیابی را نمایش می دهد .به بیان دیگر، هنگامی که کاربران کلید واژه های مورد نظر خود را

دربخش جستجوی موتور کاوش وارد می کنند، آنچه اتفاق می افتد جستجوی نمایۀ موتور بر اساس کلید واژه های مذکور است نه جستجوی فضای اینترنت. آنچه که کاربران مشاهده می کنند بیرونی ترین لایۀ موتورهای جستجو است. وقتی آنها به کمک کلید واژه های انتخابی خود به جستجو در اینترنت می پردازند، در واقع آنچه را جستجومی کنند پایگاه اطلاعاتی (نمایۀ) موتورجستجواست که پیوند آنها را با سایر سایت های اینترنتی -سایتها و صفحات وب که قبلاً توسط خزنده شناسایی شده اند- برقرار می کنند.

از انواع موتورهای کاوش می توان موارد زیر را ذکر کرد: Google, WiseNut, MSN, AlltheWeb, AltaVista, Teoma .

● تعریف وب نامرئی

به رغم آنکه تا کنون مقالات متعددی به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است. مرور نوشتارها نشان می دهد که به احتمال زیاد واژه وب نامرئی برای نخستین بار در سال ۱۹۹۴ توسط محققی به نام دکتر ژیل السورث[۶] ابداع شده است . البته معدودی از منابع موجود در این زمینه نیز شخص دیگری به نام ماتیوکل[۷] را به عنوان اولین مبدع این اصطلاح معرفی می کنند. با این حال نام کریس شرمن و گری پرایس به عنوان دو نفر از صاحب نظران اصلی در این موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال ۲۰۰۱ از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. به نقل از شرمن و پرایس وب نامرئی را می توان به طور خلاصه چنین تعریف نمود:

وب نامرئی بخشی از شبکه جهان گستر وب است که عمدتآ شامل منابع اطلاعاتی غیرمتنی و پویاست که به هر دلیل به طور موقت یا دائم خارج از حوزه جستجو و بازیابی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نمی باشد. امکان بازیابی منابع پنهان در وب نامرئی یا برای موتورهای کاوش از نظر فنی میسر نیست و یا محدودیت های مالی مانع از نمایه سازی این منابع شده است.

[...انتخاب] این واژه به این معنا نیست که اطلاعات موجود در این بخش از وب غیر قابل رویت هستند. [بلکه] انتخاب این واژه ناشی از این واقعیت است که به دلیل محبوبیت و عمومیت استفاده از موتورهای کاوش این ابزار بازیابی اطلاعات در وب بیشترین استفاده را برای کاربران داشته و کم و بیش این تصور عمومی وجود دارد که موتورهای کاوش به تمام بخشهای شبکه وب دسترسی دارند... (منصوریان، ۱۳۸۲).

اینترنت پنهان آن بخش از فضای اینترنت است که به هر دلیل، خارج از حوزۀ جستجوی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نیست .افزودن قید «به هر دلیل» در این تعریف حاکی از آن است که ایجاد اینترنت پنهان ناشی از وجود فقط یک عامل نیست و به عوامل متعددی مربوط می شود.

● وب مرئی یا وب سطحی[۸]

زمانی که سخن از قسمت های نامرئی وب به میان می آیید، احتمالاً به همان اندازه باید به بخش های مرئی رجوع شود. وب مرئی، وب آشکاراً قابل نمایه یا وب سطحی است، در واقع آن وب سایت هایی است که توسط موتورهای کاوش برداشته و نمایه سازی شده اند. . بنابر این، هنگامی که افراد یک بررسی جستجوی وب مبتنی بر وب در موتورهای کاوش را هدایت می کنند در حقیقت عمل، آنها مطالعه شان را بر وب نامرئی محدود می کنند و اساساً، بخش نامرئی وب را در نظر نمی گیرند.

● بخش های تشکیل دهنده وب نامرئی

بر اساس تعریف شرمن و پرایس می توان طیفی از ناپیدایی اطلاعات در شبکه وب تصور نمود که بسته به میزان ناپیدایی اطلاعات در بخشهای مختلف وب از وب نسبتآ نامرئی تا وب حقیقتآ نامرئی قابل ترسیم است. آنها بخشهای مختلف وب نامرئی رابه شرح ذیل تقسیم بندی می کنند

۱) وب مات[۹]

این بخش از وب نامرئی دچار نوعی ناپیدایی موقتی است و امکان پیوستن آن به بخش آشکار یا مرئی وب محتمل تر از بخشهای دیگر است. [] عوامل ایجاد کننده وب مات عبارتند از:

▪ عمق نمایه سازی[۱۰]

توان مالی و فناوری فعلی موتورهای جستجو هنوز به مراتب محدودتر از آن است که بتوانند به نمایه سازی تمام صفحات و لایه های موجود در وب سایت ها بپردازند، چرا که این کار فرایندی پر خرج بوده و مستلزم فراهم آوری امکانات سخت افزاری قابل توجهی است.

▪ تناوب روزآمد سازی نمایه موتورهای جستجو[۱۱]

نرم افزارهای خزنده[۱۲] با دنبال کردن پیوندهای موجود در صفحات وب مسئولیت شناسایی صفحات جدید و افزودن آنها به نمایه موتورهای جستجو را بر عهده دارند. قدرت و سرعت این نرم افزارها محدودتر از آن است که بتوانند تمام محیط وب را پوشش دهند و تناوب روزآمد سازی آنها به مراتب کندتر از سرعت افزودن اطلاعات جدید به محیط وب است.

[...] همواره فاصله زمانی قابل توجهی از چند روز تا چند هفته بین اطلاعات واقعی موجود در وب و آنچه که موتورهای کاوش، جستجو می کند وجود خواهد داشت.

▪ وب مرده[۱۳] یا نشانی های قطع شده[۱۴]

هر روز یا به بیان دقیقتر هر لحظه صفحات و منابع مختلفی به مجموع منابع شبکه وب افزوده می شود و منابع دیگری از آن حذف می گردد. [...] از سویی دیگر، صفحاتی در وب وجود دارند که هیچ پیوندی با منابع دیگر بر قرار نکرده اند و به همین دلیل خزنده های موتوزهای جستجو قادر به یافتن آنها نیستند.

▪ حداکثر صفحات قابل مرور در نتایج بازیابی[۱۵]

معمولآ جستجوهای انجام شده در موتورهای کاوش با نتایج بازیابی فراوان همراه می باشد بویژه وقتی که کلیدواژه های مورد استفاده تخصصی نبوده و جنبه عمومی داشته باشند. موتورهای جستجو، اطلاعات بازیابی شده را در صفحات متعدد نمایش می دهند و هر صفحه بین ۱۰، ۲۰ یا ۳۰ مورد را در بر می گیرد. اکثر کاربران معمولآ صفحات اول یا دوم نتایج بازیابی موتورهای جستجو را مرور کرده و به ندرت به صفحات بعدی مراجعه می کنند. حتی در بهترین شرایط بخشی از اطلاعات بازیابی شده که ممکن است مرتبط با نیاز کاربر نیز باشد در لایه های زیرین صفحات بازیابی شده توسط موتورهای جستجو مدفون می ماند و به این ترتیب جزء وب مات محسوب می شود.

۲) وب عمیق[۱۶]

اهمیت وب عمیق عمدتاً از آنجا ناشی می شود که از نظر حجم اطلاعات مخفی در آن، این بخش از قلمرو وب نامرئی بزرگترین قسمت آن را به خود اختصاص می دهد به طوری که حجم اطلاعات موجود در آن چندین برابر وب آشکار یا وب سطحی تخمین زده می شود. فهرست پیوسته عمومی[۱۷] بسیاری از کتابخانه های دنیا که از طریق شبکه وب دسترس پذیر هستند و همچنین بسیاری پایگاههای دیگر از جمله وب عمیق هستند. بعضی از این پایگاهها و فهرست های پیوسته، خدمات خود را رایگان عرضه نموده و برخی دیگر در ازاء ارائه خدمات، هزینه اشتراک دریافت می کنند. بدون در نظر گرفتن رایگان بودن یا نبودن خدمات این پایگاهها، همه آنها در یک موضوع مشترک هستند و آن خارج بودن مندرجات آنها از حوزه جستجوی موتورهای کاوش است.

از جمله دیگرموارد وب عمیق، صفحات وبی است که تنها در پاسخ یک پرسش[۱۸] از نظام بازیابی اطلاعات تولید می شود.

یلدا کنتراتچی

دانشجوی کارشناسی ارشد کتابداری و اطلاع رسانی دانشگاه تهران

زیر نظر مهندس نادر نقشینه

عضو هیئت علمی دانشگاه تهران

یادداشتها:

[۱]. Invisible Web

[۲] . Crawler or Spider

[۳] .URL(Universal Resource Locator)

[۴]. Index.

[۵] .Query Processor

[۶] .Dr. Jill Ellsworth

[۷] . Matthew Koll

[۸] .Visible Web or Surface Web

[۹] .Opaque Web

[۱۰] .Indexing Depth

[۱۱] .Frequency of Crawling

[۱۲] .Spiders or Crawlers or Robots

[۱۳] .Dead Web

[۱۴] .Disconnected URLs

[۱۵]. Maximum Number of Viewable Results

[۱۶] .Deep Web

[۱۷] .OPACs

[۱۸] .Query

[۱۹] .Proprietary

[۲۰] .Web-Based Databanks

[۲۱] .Private Web

[۲۲] .User name and Password

[۲۳] .Truly Invisible Web

[۲۴] .Technical Factors

[۲۵] .HTML

[۲۶] .Google

[۲۷] . واو معدوله واوی است كه در این زمان عموماً نوشته می‌شود ولی خوانده نمی‌شود، مانند خواهش. اما در زمان قدیم آن را با كیفیت خاصی تلفظ می‌كرده‌اند و چون در هنگام تلفظ ضمه به فتحه عدول می‌كرده‌اند، آن را واو معدوله نامیده‌اند. هنوز در برخی از لهجه‌ها تلفظ آن به صورت قدیم مانده است. پیش از واو معدوله همیشه حرف «خ» و پس از آن یكی از حروف «د.ر.ز.س.ش.ن.و.هـ.ی» آمده است.

[۲۸] .Unicode

[۲۹] .Query Processing

منابع

بازاک، دانیل. «جستجوی وب بطور کارآمدتر: رهنمودها، فنون و راهبردها». مترجمین مریم اسدی و اکرم اسدی.نما. دورۀ ۲. شمارۀ ۴. (۷ تیر ۱۳۸۳). ۲۰ آبان ۱۳۸۵.

<http://www.irandoc.ac.ir/data/E_J/vol۲/Search_Web.htm>

خسروی، عبدالرسول (۱۳۸۳). «وب نامرئی». علوم اطلاع رسانی. دورۀ ۲۰. شمارۀ ۱و ۲(پاییز و زمستان ۱۳۸۳). ۵۱-۵۸.

راثی ساربانقلی، محمد صابر (۱۳۸۴). «مهارت در جستجوی اطلاعات فارسی از اینترنت». نما. دورۀ ۵. شمارۀ ۱. (۵ شهریور ۱۳۸۴). ۲۲ آبان ۱۳۸۵.

< http://www.irandoc.ac.ir/data/E_J/vol۵/rasi.htm>

صدیقی، محسن؛ زمانی فر، کامران(۱۳۸۳). «روشی برای رفع چالش های محتوا کاوی وب های فارسی زبان». نما. دورۀ ۴. شمارۀ ۲. (۲۲ اسفند ۱۳۸۳). ۲۲ آبان ۱۳۸۵.

<http://www.irandoc.ac.ir/data/E_J/vol۴/shahidi.htm>

کوشا، کیوان (۱۳۸۲). « معیارهای‌ ارزیابی‌ ابزارهای‌ كاوش‌ اینترنت‌: مطالعه‌ مقایسه‌ای‌بر روی‌ ابزارهای‌ كاوش وب با واسط جستجوی فارسی».کتابدار.دورۀ دوم.۱۳۸۲شمارۀ ۲.

<http://www.ketabdar.org/magazine/detailarticle.asp?number=۲۵>

منصوریان، یزدان (۱۳۸۲). «وب پنهان چیست و چه اهمیتی دارد؟». نما. دورۀ ۲. شمارۀ ۱. (۱۶ اسفند ۱۳۸۲). ۶ آبان ۱۳۸۵.

<http://www.irandoc.ac.ir/e-journal.htm>

منصوریان، یزدان (۱۳۸۲). «نگاهی به جنبه های مختلف وب نامرئی، مرور پژوهش ها». ارائه شده در همایش وب سایت کتابخانه ها. تهران. ۲۴ دیماه ۱۳۸۲.

منصوریان، یزدان (۱۳۸۲). «اینترنت پنهان و منابع اطلاعاتی نهفته دراعماق نامرئی شبکه جهان گستر وب». کتابداری و اطلاع رسانی. ج ۷. شما رۀ ۱. ۲۵-۴۲.

Mansourian, Yazdan (۲۰۰۴). “ Technical and Non-technical Aspects of the invisible web”. Informology. Vol۱. No۲. ۲۲۱-۲۳۷.