شنبه, ۱۳ بهمن, ۱۴۰۳ / 1 February, 2025
مجله ویستا
وب نامرئی و وب فارسی
افزایش کاربران فارسی زبان اینترنت از یک سو و گسترش روز افزون صفحات اینترنتی به زبان فارسی از سوی دیگر ضرورت بررسی وب نامرئی به زبان فارسی با توجه به محدودیت ها و قابلیت های خط فارسی را بیان می کند. در این مقاله ابتدا وب نامرئی و جنبه های مختلف آن معرفی می گردد و سپس زبان و خط فارسی و تأثیر آن در ناپیدائی صفحات وب مورد تحلیل و بررسی قرار می گیرد.
● مقدمه
صرفه جویی در زمان، عدم محدودیت مکانی، عدم محدودیت زمانی در کاربری، سهولت دسترسی و روزآمدی از جمله دلایلی است که شبکه جهان گستر وب را به فراگیرترین محمل اطلاعاتی مبدل کرده است. و در این حین موتورهای کاوش عمده ترین و مرسوم ترین ابزار برای بازیابی اطلاعات هستند. جامعیت موتورهای کاوش اعتماد و اطمینان کاربران را به این ابزار افزایش داده و در بسیاری موارد آنها را از جستجوی بیشتر منابع اطلاعاتی باز می دارد حال آنکه، وجود پدیده ای به عنوان «وب نامرئی» گویای این مهم است که حجم وسیعی از اطلاعات موجود در وب با جستجو از طریق موتورهای کاوش قابل بازیابی نیست و آگاهی کاربران از این امر ضروری به نظر می رسد.
با افزایش پدیده وبلاگ نویسی و اپیدمی شدن آن در ایران و افزایش نشریات الکترونیکی فارسی، حجم صفحات وب فارسی وسعت یافت. وسعت حجم وب فارسی و دسترسی به منابع ارزشمند ادبیات فارسی، عرق زبانی و ملی و نیز عدم تسلط به زبان انگلیسی که زبان عمومی وب است ضرورت بازیابی اطلاعات از وب فارسی را تبیین می کند تفاوت های اساسی زبان انگلیسی و فارسی، حاکی از وجود تفاوت هایی در قسمت هایی از وب نامرئی این دو زبان است که در مقاله به بررسی این تفاوت ها و میزان وب نامرئی در وب فارسی و مشکلات مختص این زبان می پردازیم.
● اجزای تشکیل دهندۀ موتور های کاوش و نحوۀ عملکرد آنها
ساختار اصلی موتور کاوش معمولاً از سه بخش اصلی تشکیل شده است، این بخش ها عبارتند از :
۱) نرم افزار خزنده یا روبات جستجوگر[۲]
این قسمت ازموتورجستجو در واقع نرم افزاری است که با دنبال کردن پیوندهای موجود در صفحات وب، صفحات جدید را شناسایی می کند واین فرایند، پیوسته تکرارمی شود.انتخاب نام«خزنده» برای این نوع ازنرم افزارها به دلیل نوع کاری است که انجام می دهند.عملکرد آنها در یافتن صفحات وب مثل خزیدن در فضای وب است. هر موتور جستجو، نرم افزارخزندۀ مخصوص به خود را دارد وتوانایی بازیابی اطلاعات در هر موتور، کاملاً وابسته به قدرت «خزندۀ» آن است. منظور از قدرت خزنده، سرعت عمل ودامنۀ فعالیت آن در دنبال کردن پیوندهای موجود می باشد. گستردگی وعمق دسترسی اطلاعات در هر موتور جستجو بیش از هر چیز به ویژگی های خزندۀ آن بستگی دارد و نمایۀ موتور جستجو، حاصل کار خزنده است. البته علاوه بر خزنده ها در هر موتور جستجو، بخشی برای معرفی سایت های جدید نیز وجود دارد که کاربران می توانند با ارسال نشانی سایت[۳] مورد نظر خود، آن را به موتور جستجو تحویل دهند.
۲) نمایه[۴]
یك پایگاه اطلاعاتی است كه اطلاعات نمایهسازیشده و مرتبط با صفحات یا سایتهای وب درآنجا نگهداری میشود و قابل بازیابی است. ساختار نمایه، اندازه و حجم آن در موتورهای جستجو متفاوت است؛ به همین دلیل جستجو با كلیدواژههای یكسان در موتورهای گوناگون، نتایج نسبتاً متفاوتی را در پی خواهد داشت. (خسروی،۱۳۸۳، ۵۲)
۳) نرم افزار جستو در نمایه[۵]
سومین جزء یک موتور جستجو، نرم افزار بازیابی است که به جستجو و بازیابی اطلاعات موجود درفایل نمایه براساس کلید واژه های دریافتی ازطرف کاربران می پردازد. و نتایج بازیابی را نمایش می دهد .به بیان دیگر، هنگامی که کاربران کلید واژه های مورد نظر خود را
دربخش جستجوی موتور کاوش وارد می کنند، آنچه اتفاق می افتد جستجوی نمایۀ موتور بر اساس کلید واژه های مذکور است نه جستجوی فضای اینترنت. آنچه که کاربران مشاهده می کنند بیرونی ترین لایۀ موتورهای جستجو است. وقتی آنها به کمک کلید واژه های انتخابی خود به جستجو در اینترنت می پردازند، در واقع آنچه را جستجومی کنند پایگاه اطلاعاتی (نمایۀ) موتورجستجواست که پیوند آنها را با سایر سایت های اینترنتی -سایتها و صفحات وب که قبلاً توسط خزنده شناسایی شده اند- برقرار می کنند.
از انواع موتورهای کاوش می توان موارد زیر را ذکر کرد: Google, WiseNut, MSN, AlltheWeb, AltaVista, Teoma .
● تعریف وب نامرئی
به رغم آنکه تا کنون مقالات متعددی به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است. مرور نوشتارها نشان می دهد که به احتمال زیاد واژه وب نامرئی برای نخستین بار در سال ۱۹۹۴ توسط محققی به نام دکتر ژیل السورث[۶] ابداع شده است . البته معدودی از منابع موجود در این زمینه نیز شخص دیگری به نام ماتیوکل[۷] را به عنوان اولین مبدع این اصطلاح معرفی می کنند. با این حال نام کریس شرمن و گری پرایس به عنوان دو نفر از صاحب نظران اصلی در این موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال ۲۰۰۱ از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. به نقل از شرمن و پرایس وب نامرئی را می توان به طور خلاصه چنین تعریف نمود:
وب نامرئی بخشی از شبکه جهان گستر وب است که عمدتآ شامل منابع اطلاعاتی غیرمتنی و پویاست که به هر دلیل به طور موقت یا دائم خارج از حوزه جستجو و بازیابی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نمی باشد. امکان بازیابی منابع پنهان در وب نامرئی یا برای موتورهای کاوش از نظر فنی میسر نیست و یا محدودیت های مالی مانع از نمایه سازی این منابع شده است.
[...انتخاب] این واژه به این معنا نیست که اطلاعات موجود در این بخش از وب غیر قابل رویت هستند. [بلکه] انتخاب این واژه ناشی از این واقعیت است که به دلیل محبوبیت و عمومیت استفاده از موتورهای کاوش این ابزار بازیابی اطلاعات در وب بیشترین استفاده را برای کاربران داشته و کم و بیش این تصور عمومی وجود دارد که موتورهای کاوش به تمام بخشهای شبکه وب دسترسی دارند... (منصوریان، ۱۳۸۲).
اینترنت پنهان آن بخش از فضای اینترنت است که به هر دلیل، خارج از حوزۀ جستجوی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نیست .افزودن قید «به هر دلیل» در این تعریف حاکی از آن است که ایجاد اینترنت پنهان ناشی از وجود فقط یک عامل نیست و به عوامل متعددی مربوط می شود.
● وب مرئی یا وب سطحی[۸]
زمانی که سخن از قسمت های نامرئی وب به میان می آیید، احتمالاً به همان اندازه باید به بخش های مرئی رجوع شود. وب مرئی، وب آشکاراً قابل نمایه یا وب سطحی است، در واقع آن وب سایت هایی است که توسط موتورهای کاوش برداشته و نمایه سازی شده اند. . بنابر این، هنگامی که افراد یک بررسی جستجوی وب مبتنی بر وب در موتورهای کاوش را هدایت می کنند در حقیقت عمل، آنها مطالعه شان را بر وب نامرئی محدود می کنند و اساساً، بخش نامرئی وب را در نظر نمی گیرند.
● بخش های تشکیل دهنده وب نامرئی
بر اساس تعریف شرمن و پرایس می توان طیفی از ناپیدایی اطلاعات در شبکه وب تصور نمود که بسته به میزان ناپیدایی اطلاعات در بخشهای مختلف وب از وب نسبتآ نامرئی تا وب حقیقتآ نامرئی قابل ترسیم است. آنها بخشهای مختلف وب نامرئی رابه شرح ذیل تقسیم بندی می کنند
۱) وب مات[۹]
این بخش از وب نامرئی دچار نوعی ناپیدایی موقتی است و امکان پیوستن آن به بخش آشکار یا مرئی وب محتمل تر از بخشهای دیگر است. […] عوامل ایجاد کننده وب مات عبارتند از:
▪ عمق نمایه سازی[۱۰]
توان مالی و فناوری فعلی موتورهای جستجو هنوز به مراتب محدودتر از آن است که بتوانند به نمایه سازی تمام صفحات و لایه های موجود در وب سایت ها بپردازند، چرا که این کار فرایندی پر خرج بوده و مستلزم فراهم آوری امکانات سخت افزاری قابل توجهی است.
▪ تناوب روزآمد سازی نمایه موتورهای جستجو[۱۱]
نرم افزارهای خزنده[۱۲] با دنبال کردن پیوندهای موجود در صفحات وب مسئولیت شناسایی صفحات جدید و افزودن آنها به نمایه موتورهای جستجو را بر عهده دارند. قدرت و سرعت این نرم افزارها محدودتر از آن است که بتوانند تمام محیط وب را پوشش دهند و تناوب روزآمد سازی آنها به مراتب کندتر از سرعت افزودن اطلاعات جدید به محیط وب است.
[...] همواره فاصله زمانی قابل توجهی از چند روز تا چند هفته بین اطلاعات واقعی موجود در وب و آنچه که موتورهای کاوش، جستجو می کند وجود خواهد داشت.
▪ وب مرده[۱۳] یا نشانی های قطع شده[۱۴]
هر روز یا به بیان دقیقتر هر لحظه صفحات و منابع مختلفی به مجموع منابع شبکه وب افزوده می شود و منابع دیگری از آن حذف می گردد. [...] از سویی دیگر، صفحاتی در وب وجود دارند که هیچ پیوندی با منابع دیگر بر قرار نکرده اند و به همین دلیل خزنده های موتوزهای جستجو قادر به یافتن آنها نیستند.
▪ حداکثر صفحات قابل مرور در نتایج بازیابی[۱۵]
معمولآ جستجوهای انجام شده در موتورهای کاوش با نتایج بازیابی فراوان همراه می باشد بویژه وقتی که کلیدواژه های مورد استفاده تخصصی نبوده و جنبه عمومی داشته باشند. موتورهای جستجو، اطلاعات بازیابی شده را در صفحات متعدد نمایش می دهند و هر صفحه بین ۱۰، ۲۰ یا ۳۰ مورد را در بر می گیرد. اکثر کاربران معمولآ صفحات اول یا دوم نتایج بازیابی موتورهای جستجو را مرور کرده و به ندرت به صفحات بعدی مراجعه می کنند. حتی در بهترین شرایط بخشی از اطلاعات بازیابی شده که ممکن است مرتبط با نیاز کاربر نیز باشد در لایه های زیرین صفحات بازیابی شده توسط موتورهای جستجو مدفون می ماند و به این ترتیب جزء وب مات محسوب می شود.
۲) وب عمیق[۱۶]
اهمیت وب عمیق عمدتاً از آنجا ناشی می شود که از نظر حجم اطلاعات مخفی در آن، این بخش از قلمرو وب نامرئی بزرگترین قسمت آن را به خود اختصاص می دهد به طوری که حجم اطلاعات موجود در آن چندین برابر وب آشکار یا وب سطحی تخمین زده می شود. فهرست پیوسته عمومی[۱۷] بسیاری از کتابخانه های دنیا که از طریق شبکه وب دسترس پذیر هستند و همچنین بسیاری پایگاههای دیگر از جمله وب عمیق هستند. بعضی از این پایگاهها و فهرست های پیوسته، خدمات خود را رایگان عرضه نموده و برخی دیگر در ازاء ارائه خدمات، هزینه اشتراک دریافت می کنند. بدون در نظر گرفتن رایگان بودن یا نبودن خدمات این پایگاهها، همه آنها در یک موضوع مشترک هستند و آن خارج بودن مندرجات آنها از حوزه جستجوی موتورهای کاوش است.
از جمله دیگرموارد وب عمیق، صفحات وبی است که تنها در پاسخ یک پرسش[۱۸] از نظام بازیابی اطلاعات تولید می شود.) وب ملکی[۱۹]
بعضی از منابع اطلاعاتی مثل انواع نشریه های الکترونیکی و پایگاههای اطلاعاتی مبتنی بر وب[۲۰] که دسترسی به آنها مستلزم پرداخت حق اشتراک اشت و جزء محصولات شرکت های مختلف می باشد را وب ملکی می نامند. از نظر فنی معمولاً بین منابع وب ملکی و وب عمیق مشابهت وجود دارد اما از آنجا که در این بخش از وب نامرئی منافع مالی تولیدکنندگان اطلاعات منجر به خارج نمودن این منابع از حوزه دسترسی موتورهای جستجو شده این
گروه در دسته ای جداگانه طبقه بندی می شوند.
۴) وب خصوصی[۲۱]
این بخش از وب نامرئی تفاوت اساسی بابخشهای دیگر آن دارد، […] این تفاوت اساسی از آنجا ناشی می شود که مخفی بودن اطلاعات در این بخش کاملاً تعمدی می باشد و اطلاعات مذکور جزء دارایی های شخصی و خصوصی افراد یا سازمانها محسوب می شوند.
به کار بردن سه روش ذیل سبب به وجود آمدن وب خصوصی می شود:
▪ استفاده از اسم کاربر و گذر واژه[۲۲] : معمولترین روش برای جدا کردن این نوع منابع از محیط عمومی وب محسوب می شود.
▪ استفاده از فایل Robots.txt : وجود این فایل، خزنده های موتورهای جستجو را از نمایه سازی وب سایت مذکور باز می دارد.
▪ استفاده از کد noindex : افزودن کد noindex به مجموع کدهای یک صفحه وب، پیامی برای خزنده موتور جستجو به شمار می رود که آن را از نمایه سازی صفحه مذکور منع می کند [...]. (منصوریان، ۱۳۸۲، ۳۵ )
۵) وب واقعاً نامرئی[۲۳]
بخش های دیگری نیز در قلمرو تاریک وب وجود دارد که در اثر مسائل فنی[۲۴] از دسترس کاربران دور مانده است و چه بسا در آینده با پیشرفت ابزارهای کاوش به محیط وب مرئی منتقل شوند. موتورهای جستجو اغلب قادر به یافتن اطلاعات متنی « اچ تی ام ال»[۲۵] هستند و توانایی بازیابی فایلهایی از انواع دیگر نظیر pdf, ppp, swf را یا ندارند یا به دلیل کمبود منابع مالی و فنی از جستجوی فایلهای غیر متنی صرف نظر کرده اند. مثلاً در حال حاضر موتور جستجوی معروف گوگل[۲۶] قادر به بازیابی فایلهایی با پسوند pdf, ptt می باشد، اما این امکان در بسیاری دیگر از موتورهای جستجو هنوز وجود ندارد و چند سال گذشته نیز گوگل به این امکان مجهز نبود. (منصوریان، ۱۳۸۲، ۳۶)
● زبان و خط فارسی
تمایزات اساسی زبان و خط فارسی با زبان و خط انگلیسی که زبان غالب وب است، سبب شده است که جستجو به زبان فارسی در وب نامرئی مطرح شود.
زبان و خط فارسی مشكلات خاصی را دارا میباشد و نظام نوشتاری فارسی برای ثبت دقیق گفتار، نارسائی دارد و قواعد نگارش آن مدون نیست، از این رو فاصله میان گفتار و نوشتار در فارسی قابل توجه است. بیشترین مشكلات نیز به جهت نبود یك رسم الخط واحد كه عموم اساتید و اهل فن روی آن اجماع كرده باشند به وجود آمده است. به طوری كه در حال حاضر جدای از چندین شیوهنامه رسمی همچون" شیوهنامه سمت، نشر دانشگاهی، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شیوه نگارش زبان وجود دارد، هر ناشری برای خود به قاعدهای دلخواه عمل میكندكه این تعددها موجب پریشانی و پراكندگی شده و با یکدیگر تفاوتهایی دارند. همچنین میتوان به عاریتی بودن خط فارسی و چاره اندیشی برای حركات و عدم تطابق واجها با حروف اشاره كرد. متصل و منفصلنویسی نیز یكی دیگر از حوزههای مورد اختلاف است از دیگر مشكلات: گوناگونی معادلهای علمی، انواع مختلف ضبط اسامی خارجی، سرهمنویسی، جدانویسی، بیفاصلهنویسی، انواع جمعها، صورتهای مختلف نوشتاری، آوانویسی اسامی عناصر و تركیبات شیمیایی، سرواژهها و كوتهنوشتها میباشد.
نبود استاندارد ثابت رسم الخط فارسی موجب این شده است كه به تعداد صفحات وب فارسی سبك و سیاق نگارش به كار رفته باشد لكن میتوان چنین ارزیابی نمود كه اكثر وبهای فارسی در برخی خصوصیات مشترك میباشند از جمله این كه نگارش برخی از آنها زبان غیر رسمی و محاورهای میباشد و به خصوص در متون علمی اغلب واژههای بیگانه به دفعات استفاده میشود. رسمالخط مورد استفاده نیز متفاوت و سلیقهای است و برخی از آنها غلطهای تایپی و نگارشی فراوانی دارند و این خصوصیات، اغلب به جهت محدودیتهای محیط الكترونیكی و عدم تطابق رسم الخط فارسی با آن میباشد كه نمایهسازی و سپس جستجو به این زبان را با دشواریهایی رو به رو میسازد.
● مشکلات خط فارسی
نقصهایی اساسی كه برای زبان فارسی شمردهاند به شرح زیراست (راثی ساربانقلی، ۱۳۸۴):
▪ عدم اعراب گذاری: به عنوان مثال کلمات (مَلَک، مِلک، مَلِک، مُلک) همه به یک شکل نوشته می شوند.
▪ وجود چند علامت برای یک حرف: مانند (ز، ذ، ظ، ض)
▪ استفاده از یک علامت برای چند حرف: مانند "و" که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات "خوش" و "تو". دیگر بیان مصوت ممدود یا "واو ماقبل مضموم" مانند "شور" و "او". سوم بیان حرف صامت "واو" در كلماتی چون "آواز" و "والی" و "عفو" . چهارم بیان حرف مصوت مركبی كه در كلمات "نو" و "جوشن" و مانند آنهاست. پنجم حرفی كه در زبان كنونی خوانده نمیشود مانند "واو معدوله" در كلمات "خواهر" و "خواستن" و "واو" در كلمه "عمرو"[۲۷]
▪ حرفهایی که در نوشتار حذف می شوند: مانند "الف" در کلمات "اسمعیل" و "الله"
▪ نقطه گذاری: نقطههایی متعدد در بالا و پائین حرف كه هم سبب دشواری و هم موجب اشتباه در خواندن میشود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوری كاراكترها تولید اشكال اساسی میكند. به عنوان مثال كلمات زیر را در نظر بگیرید كه با یك یا چند نقطه عوض میشوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز). - از راست به چپ نوشته شدن: برای این مورد دلایل مختلفی ذکر شده است از جمله عدم هماهنگی و ایجاد مشكل در نوشتن متون ریاضی و شیمی و نتهای موسیقی و دستورات شطرنج و این كه خط تصویری یعنی علائم گرافیكی كه در كل جهان استفاده میشود مانند علائم راهنمائی و رانندگی تماماً از چپ خوانده میشوند.
▪ پیوسته نویسی و جدا نویسی: مانند تنوع استفاده از ‹می› چسبان و غیر چسبان و یا تنوع نحوه به كار بردن «علامتهای جمع ‹ها، ان، جات› ، هم، هیچ، كه، (ضمایر شخصی متصل مان، تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آن و این» در كلمات به صورت پیوسته و یا جدا گانه: (آنچه ، آن چه)؛ (همچنانكه، همچنانكه) ؛ (جنابعالی، جنابعالی)؛ (هیچكس، هیچكس)؛ (میتواند، میتواند)؛ (آن ها، آنها) در این مورد كلماتی كه پیشوند و یا پسوند دارند نیز در شكلهای مختلف نوشته میشوند. برخی از كلمات در دو شكل متصلنویسی و منفصلنویسی به دو شكل مختلف ظاهر میشوند، مانند «علاقمند و علاقهمند؛ اندیشمند و اندیشهمند». مصدرها و فعلهای مركب و اسمهای مشتق از آنها نیز به دو صورت متصل و منفصل نوشته میشوند مانند «نگهداشتن و نگهداشتن». در جستجوی مطالب از اینترنت این مورد تولید اشكال میكند چنانكه جستجوی «هیچكس» نتایج متفاوتی را با جستجوی «هیچكس» میآورد و یا جستجوی «كتابشناسی» و «كتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائه میكند. این گونه كلمات با این كه در خواندن متن اشكال كمی به وجود میآورند و هر آشنای به زبان فارسی به راحتی میتواند آن را بخواند اما در فنآوری امروزه و تجزیه و تحلیل كلمات به كمك رایانه اشكال اساسی تولید میكند و شاید اگر قاعدهای جامع و مانع برای آن وضع گردد، بتوان گفت بزرگترین مشكل خط فارسی حل شده است. منظور این كه، برای مثال خواندن سه كلمه «بیحوصلگی، بیحوصلگی، بیحوصلهگی» مشكلی ایجاد نمیكند. اما در محیط الكترونیكی و شبكه اینترنت برای بازیابی این كلمه بایستی برای تمام اشكال این كلمه، جستجو را انجام دهیم، البته اگر آگاهی از تمام اشكال نوشتاری آن داشته باشیم.
▪ نوشته شدن حروف به اشکال متعدد: مثلاً نوشتن ك و گ (كـ گـ ك گ) در اشكال مختلف نیز باعث سردرگمی و عدم جستجوی صحیح میشود.
▪ بوجود آمدن معنای متفاوت با اضافه کردن یک فاصله: مثل مادر ، ما در
▪ تعداد سطرها در هر صفحه: سه كرسی مختلف برای حرفهای مختلف الفبا باعث می شود كه در مقایسه با اكثر زبانها تعداد سطرهای هر صفحه به مراتب بیشتر گردد چون برخی حروف روی خط كرسی قرار میگیرند و برخی پائین خط كرسی و برخی بالای خط كرسی مثل (ا ب م )
▪ پیوسته نویسی حروف: از آنجائیكه حروف در نوشتن غالباً به صورت چسبیده و پیوسته نوشته میشوند و این امر تشخیص حرف به حرف نوشته به وسیله رایانه را، دچار مشكل میكند.
▪ عدد صفر در فارسی: در او. سی. آر. فارسی هم چنین اعداد نیز مشكل ساز هستند چنانچه صفر در فارسی یك نقطه كوچك است كه میتواند رایانه را به اشتباه بیاندازد و نیز اعداد ۱ و ۲ و ۳ بسیار شبیه هم هستند و تفاوتشان در یك دندانه كوچك است.
▪ تنوع در رسم الخط: مانند ( اتاق و اطاق) و یا (امپراتور و امپراطور). و كلماتی كه فقط یك شكل آنها صحیح میباشد ولی شكل ناصحیح آن نیز زیاد استفاده میشود مانند «ذغال و زغال؛ خوشنود و خشنود». البته این جدای از تنوع در مفهوم كلمات است كه در دیگر زبانها نیز وجود دارد، یعنی برای بعضی از مفاهیم ممكن است كلمات متنوعی استفاده بشود. مانند كامپیوتر و رایانه.
▪ شکل های مختلف ضبط نام های بیگانه: واژههای بیگانه اغلب برای پر كردن خلاء واژههای علمی و یا ارتباطی سودمند هستند، اما وجود آنها مسائلی از قبیل چگونگی ضبط آنها در زبان قرضگیرنده را به وجود میآورد. برای ضبط واژههای قرضی به سبب اختلاف فاحش نشانههای الفبای فارسی با نشانههای الفبای خارجی مشكلات جدی وجود دارد. از جمله این كه الفبای فارسی آوانگار نیست و به همین جهت در ضبط دقیق تلفظ واژههای زبان فارسی نیز ناتوان است و این ناتوانی در ضبط واژههای بیگانه به مراتب بیشتر است و این كه در مورد برگردان اسامی خارجی به خط فارسی قاعده خاصی وجود ندارد و هر كس بنا بر سلیقه و ذوق خود این كار را انجام میدهد كه در نتیجه یك كلمه واحد به صورتهای مختلف نوشته میشود. برای مثال (كلسیم، كلسیوم، كالسیوم) و یا اسم Franklin به صورت (فرانكلین، فرانكلن، فرنكلین، فرنكلن) ضبط شده است.
خانم صدیق بهزادی این مشكلات را به سه دسته تقسیم كرده است:
” ۱) نامهایی كه در برگردان آنها همخوانها ایجاد مشكل میكنند.
۲ ) نامهایی كه در برگردان آنها واكههای ساده مشكلاتی را به وجود میآورند .
۳ ) و سوم نامهایی كه در برگردان آنها مشكل اصلی مربوط به واژههای مركب است. (نقل در راثی ساربانقلی، ۱۳۸۴)
▪ انواع مختلف جمع بستن: به عنوان مثال جمع بستن یك واژه با علایم جمع فارسی وعلایم جمع عربی و نیز جمع بستن بی قاعده (جمع مكسر)، استفاده ازجمع جمع، مانند (معلم، معلمین، معلمان، معلمها).
▪ تنوین های زبان عربی: از جمله دشواریهای رعایت اصل همخوانی نوشتاری و گفتاری هستند.
▪ وجود دندانه های متعدد: به خصوص در او.سی.آر. فارسی ایجاد اشكال میكند مانند كلمات: نشستن و استشهاد.
● ابزارهای كاوش با واسط فارسی
برخی از ابزارهای كاوش با امكانات جستجوی فارسی عبارتند از:
ایران کلیکIranclick، Open Directory، ایرانهوIranhoo ، ایرانمهرIranMehre ، پارسیك Parseek ، گوگل Google. تنها موتور كاوش Google دارای برنامه روبات می باشد و قادر است صفحات فارسی را در قالب یونی كد[۲۸] شناسایی و در پایگاه خود نمایه كند. Parseek نیز از آنجایی كه از پایگاهGoogle استفاده می كند، یك موتور كاوش وابسته به پایگاه دیگر ابزارهای كاوش به حساب می آید.۴ ابزاركاوش دیگرراهنمای موضوعی به شمارمی آیند و انسان فرایند شناسایی،بررسی و نمایه سازی سایتها یا صفحات وب رابرعهده دارد.
اضافه کردن یك واسط هوشمند به موتورهای كاوش یا خزنده ها، كیفیت نتایج كاوش در وب های فارسی زبان را ارتقاء می دهد. این واسط در واقع نقش یك پردازشگر پرس وجو[۲۹] را ایفاء می كند.
● نتیجه گیری
نقایص ومشکلات خط فارسی که اجمالاً ذکر شد، بازیابی اطلاعات توسط موتورهای جستجو را که در حال حاضر تنها موتور جستجوی Google امکان جستجو به زبان فارسی را دارد و سایر موتورهای کاوش مانند Parseek هم موتور کاوش Google را برای جستجوی اطلاعات فارسی به کار می برند، دشوار می کند و همین نقایص، باعث عدم دسترسی کاربران به همۀ صفحات وب موجود به زبان فارسی می شود که این همان وب نامرئی است (صفحاتی در وب وجود دارد اما با موتور کاوش نمی توان آن را بازیابی کرد).طبق مطالعات انجام شده در این زمینه، به نظر می رسد که حجم وب نامرئی در زبان فارسی نسبت به حجم کل وب فارسی بیشتر از حجم کل وب نامرئی نسبت به حجم کل وب است. چرا که از میان صفحات وب فارسی، صفحات وب بسیاری وجود دارد که به دلایلی که قبلاً اشاره شد از جمله عدم وجود رسم الخط ثابت و نیز عدم رعایت آن توسط تولیدکننگان صفحات وب از دید کاربران پنهان می ماند.
در این راستا آگاهی از وجود وب نامرئی توسط کتابداران، اولین و مهمترین گام است.
● پیشنهادات
۱) ایجاد یک رسم الخط ثابت برای خط فارسی و نظارت سازمانهای مربوطه همچون مرکز اسناد و کتابخانۀ ملی و یا فرهنگستان زبان و ادب فارسی، بر رعایت آن توسط ناشران و مؤلفان.
۲) اعمال یک واسط هوشمند فارسی بر روی موتورهای کاوش.
یلدا کنتراتچی
دانشجوی کارشناسی ارشد کتابداری و اطلاع رسانی دانشگاه تهران
زیر نظر مهندس نادر نقشینه
عضو هیئت علمی دانشگاه تهران
یادداشتها:
[۱]. Invisible Web
[۲] . Crawler or Spider
[۳] .URL(Universal Resource Locator)
[۴]. Index.
[۵] .Query Processor
[۶] .Dr. Jill Ellsworth
[۷] . Matthew Koll
[۸] .Visible Web or Surface Web
[۹] .Opaque Web
[۱۰] .Indexing Depth
[۱۱] .Frequency of Crawling
[۱۲] .Spiders or Crawlers or Robots
[۱۳] .Dead Web
[۱۴] .Disconnected URLs
[۱۵]. Maximum Number of Viewable Results
[۱۶] .Deep Web
[۱۷] .OPACs
[۱۸] .Query
[۱۹] .Proprietary
[۲۰] .Web-Based Databanks
[۲۱] .Private Web
[۲۲] .User name and Password
[۲۳] .Truly Invisible Web
[۲۴] .Technical Factors
[۲۵] .HTML
[۲۶] .Google
[۲۷] . واو معدوله واوی است كه در این زمان عموماً نوشته میشود ولی خوانده نمیشود، مانند خواهش. اما در زمان قدیم آن را با كیفیت خاصی تلفظ میكردهاند و چون در هنگام تلفظ ضمه به فتحه عدول میكردهاند، آن را واو معدوله نامیدهاند. هنوز در برخی از لهجهها تلفظ آن به صورت قدیم مانده است. پیش از واو معدوله همیشه حرف «خ» و پس از آن یكی از حروف «د.ر.ز.س.ش.ن.و.هـ.ی» آمده است.
[۲۸] .Unicode
[۲۹] .Query Processing
منابع
بازاک، دانیل. «جستجوی وب بطور کارآمدتر: رهنمودها، فنون و راهبردها». مترجمین مریم اسدی و اکرم اسدی.نما. دورۀ ۲. شمارۀ ۴. (۷ تیر ۱۳۸۳). ۲۰ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/data/E_J/vol۲/Search_Web.htm>
خسروی، عبدالرسول (۱۳۸۳). «وب نامرئی». علوم اطلاع رسانی. دورۀ ۲۰. شمارۀ ۱و ۲(پاییز و زمستان ۱۳۸۳). ۵۱-۵۸.
راثی ساربانقلی، محمد صابر (۱۳۸۴). «مهارت در جستجوی اطلاعات فارسی از اینترنت». نما. دورۀ ۵. شمارۀ ۱. (۵ شهریور ۱۳۸۴). ۲۲ آبان ۱۳۸۵.
< http://www.irandoc.ac.ir/data/E_J/vol۵/rasi.htm>
صدیقی، محسن؛ زمانی فر، کامران(۱۳۸۳). «روشی برای رفع چالش های محتوا کاوی وب های فارسی زبان». نما. دورۀ ۴. شمارۀ ۲. (۲۲ اسفند ۱۳۸۳). ۲۲ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/data/E_J/vol۴/shahidi.htm>
کوشا، کیوان (۱۳۸۲). « معیارهای ارزیابی ابزارهای كاوش اینترنت: مطالعه مقایسهایبر روی ابزارهای كاوش وب با واسط جستجوی فارسی».کتابدار.دورۀ دوم.۱۳۸۲شمارۀ ۲.
<http://www.ketabdar.org/magazine/detailarticle.asp?number=۲۵>
منصوریان، یزدان (۱۳۸۲). «وب پنهان چیست و چه اهمیتی دارد؟». نما. دورۀ ۲. شمارۀ ۱. (۱۶ اسفند ۱۳۸۲). ۶ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/e-journal.htm>
منصوریان، یزدان (۱۳۸۲). «نگاهی به جنبه های مختلف وب نامرئی، مرور پژوهش ها». ارائه شده در همایش وب سایت کتابخانه ها. تهران. ۲۴ دیماه ۱۳۸۲.
منصوریان، یزدان (۱۳۸۲). «اینترنت پنهان و منابع اطلاعاتی نهفته دراعماق نامرئی شبکه جهان گستر وب». کتابداری و اطلاع رسانی. ج ۷. شما رۀ ۱. ۲۵-۴۲.
Mansourian, Yazdan (۲۰۰۴). “ Technical and Non-technical Aspects of the invisible web”. Informology. Vol۱. No۲. ۲۲۱-۲۳۷.
دانشجوی کارشناسی ارشد کتابداری و اطلاع رسانی دانشگاه تهران
زیر نظر مهندس نادر نقشینه
عضو هیئت علمی دانشگاه تهران
یادداشتها:
[۱]. Invisible Web
[۲] . Crawler or Spider
[۳] .URL(Universal Resource Locator)
[۴]. Index.
[۵] .Query Processor
[۶] .Dr. Jill Ellsworth
[۷] . Matthew Koll
[۸] .Visible Web or Surface Web
[۹] .Opaque Web
[۱۰] .Indexing Depth
[۱۱] .Frequency of Crawling
[۱۲] .Spiders or Crawlers or Robots
[۱۳] .Dead Web
[۱۴] .Disconnected URLs
[۱۵]. Maximum Number of Viewable Results
[۱۶] .Deep Web
[۱۷] .OPACs
[۱۸] .Query
[۱۹] .Proprietary
[۲۰] .Web-Based Databanks
[۲۱] .Private Web
[۲۲] .User name and Password
[۲۳] .Truly Invisible Web
[۲۴] .Technical Factors
[۲۵] .HTML
[۲۶] .Google
[۲۷] . واو معدوله واوی است كه در این زمان عموماً نوشته میشود ولی خوانده نمیشود، مانند خواهش. اما در زمان قدیم آن را با كیفیت خاصی تلفظ میكردهاند و چون در هنگام تلفظ ضمه به فتحه عدول میكردهاند، آن را واو معدوله نامیدهاند. هنوز در برخی از لهجهها تلفظ آن به صورت قدیم مانده است. پیش از واو معدوله همیشه حرف «خ» و پس از آن یكی از حروف «د.ر.ز.س.ش.ن.و.هـ.ی» آمده است.
[۲۸] .Unicode
[۲۹] .Query Processing
منابع
بازاک، دانیل. «جستجوی وب بطور کارآمدتر: رهنمودها، فنون و راهبردها». مترجمین مریم اسدی و اکرم اسدی.نما. دورۀ ۲. شمارۀ ۴. (۷ تیر ۱۳۸۳). ۲۰ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/data/E_J/vol۲/Search_Web.htm>
خسروی، عبدالرسول (۱۳۸۳). «وب نامرئی». علوم اطلاع رسانی. دورۀ ۲۰. شمارۀ ۱و ۲(پاییز و زمستان ۱۳۸۳). ۵۱-۵۸.
راثی ساربانقلی، محمد صابر (۱۳۸۴). «مهارت در جستجوی اطلاعات فارسی از اینترنت». نما. دورۀ ۵. شمارۀ ۱. (۵ شهریور ۱۳۸۴). ۲۲ آبان ۱۳۸۵.
< http://www.irandoc.ac.ir/data/E_J/vol۵/rasi.htm>
صدیقی، محسن؛ زمانی فر، کامران(۱۳۸۳). «روشی برای رفع چالش های محتوا کاوی وب های فارسی زبان». نما. دورۀ ۴. شمارۀ ۲. (۲۲ اسفند ۱۳۸۳). ۲۲ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/data/E_J/vol۴/shahidi.htm>
کوشا، کیوان (۱۳۸۲). « معیارهای ارزیابی ابزارهای كاوش اینترنت: مطالعه مقایسهایبر روی ابزارهای كاوش وب با واسط جستجوی فارسی».کتابدار.دورۀ دوم.۱۳۸۲شمارۀ ۲.
<http://www.ketabdar.org/magazine/detailarticle.asp?number=۲۵>
منصوریان، یزدان (۱۳۸۲). «وب پنهان چیست و چه اهمیتی دارد؟». نما. دورۀ ۲. شمارۀ ۱. (۱۶ اسفند ۱۳۸۲). ۶ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/e-journal.htm>
منصوریان، یزدان (۱۳۸۲). «نگاهی به جنبه های مختلف وب نامرئی، مرور پژوهش ها». ارائه شده در همایش وب سایت کتابخانه ها. تهران. ۲۴ دیماه ۱۳۸۲.
منصوریان، یزدان (۱۳۸۲). «اینترنت پنهان و منابع اطلاعاتی نهفته دراعماق نامرئی شبکه جهان گستر وب». کتابداری و اطلاع رسانی. ج ۷. شما رۀ ۱. ۲۵-۴۲.
Mansourian, Yazdan (۲۰۰۴). “ Technical and Non-technical Aspects of the invisible web”. Informology. Vol۱. No۲. ۲۲۱-۲۳۷.
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست