سه شنبه, ۲۶ تیر, ۱۴۰۳ / 16 July, 2024
مجله ویستا

روشی برای رفع چالش های محتواكاوی وب های فارسی زبان


روشی برای رفع چالش های محتواكاوی وب های فارسی زبان

زبان فارسی از دو منظر برای ما ایرانیان حائز اهمیت است اول آنكه این زبان , با تاریخ و فرهنگ و تمدن ما پیوندی دیرینه و ناگسستنی دارد و دوم آنكه زبان فارسی , زبان رسمی كشور و ابزار مبادله اندیشه ها وایده ها در عرصه علمی و فرهنگی این مرز و بوم محسوب می گردد

رشد علمی و فنی و فرهنگی ما در گرو برقراری ارتباط زبانی و كلامی با دنیای الكترونیكی عرضه دانش و فرهنگ است كه وب نام دارد و این میسر نیست جز با تقویت كیفی زبان فارسی مورد استفاده در این دهكده جهانی ، وب.لیكن زبان فارسی ، در تلاقی با جهان الكترونیكی ، بخصوص از بعد رسم الخط ، دارای مصائبی است كه كاوش در محتویات آن را دچار كم كیفیتی می نماید. این مقوله مستلزم تمهیداتی چند است تا زبان فارسی را از یك زبان شعر وعرفان به زبانی مناسب با پهنه الكترونیكی دادوستد دانش ، وب ، تبدیل نمایند. مقاله حاضر ، تلاشی است درجهت مرتفع سازی چالش های كاوش در وب های فارسی زبان كه از دو دیدگاه رسم الخط ، با استفاده از نمایه سازی فارسی و مفهومی ، با استفاده از آنتولوژی قابل بحث هستند.

واژه های كلیدی : آنتولوژی ، نمایه سازی فارسی ، كاوش وب های فارسی ، وب كاوی

مقدمه

اهمیتی كه پدیده وب فارسی بعنوان رسانه‌ای مستقل و مؤثر در دنیای ارتباطات ایرانیان پیدا كرده است ، غیرقابل‌انكار است. به‌نظر می‌رسد كه اكنون روآوردن برخی از روزنامه‌نگاران ، پژوهشگران ، دانشجویان ،... به وب فارسی و استفاده منابع خبری ، علمی ،... از مطالب آنها نیز، موجب تقویت نقش رسانه‌ای وب فارسی شده‌است.

لیكن با توجه به ماهیت خاص رسم الخط فارسی كه آن را برای سیستم های رایانه ای نامناسب نموده است ، امروزه مشكلات بسیاری برای دانش پژوهشان و بطور كلی استفاده كنندگان از وب های فارسی زبان نموده است. عدم وجود حروف صدادار در فارسی بصورت یك موجودیت مجزا از یك طرف و وجود حروف یكسان با اشكال متعدد از طرف دیگر ، باعث بروز چالش های جدی در امر نمایه سازی این زبان شده است. بنظر می رسد تلاشهایی لازم است تا زبان زیبای فارسی را با وجود ماهیت عرفانی و شاعرانه آن ، جهت حضور در عرصه الكترونیكی دانش ، آماده نماید.

پیشینه تحقیق و تعارف ابتدایی

محتواكاوی وب(Web Content Mining) ، یكی از سه شاخه وب كاوی است كه در واقع ، كشف اطلاعات مفید از مستندات و داده های ساختیافته و نیمه ساختیافته و غیر ساختیافته وب می باشد. یك شاخه دیگر این مقوله ، ساختاركاوی وب(Web Structure Mining) است كه به كشف مدل پشت زمینه حاكم بر ساختار فرا پیوند های وب می پردازد و هدف آن ، ایجاد اطلاعاتی همچون تشابه یا ارتباط بین سایت های مختلف وب است. شاخه دیگر آن كاربرد كاوی وب می باشد كه سعی می كند از تعاملات كاربربا وب ، اطلاعاتی كسب كند و از آن ها بصورت سابقه ای در مراجعات بعدی كاربر سود ببرد.در زمینه محتواكاوی وب نرم افزارهای خزنده(Crawler) ، به گشت و گذار در اقیانوس وب پرداخته ، اقدام به نمایه سازی واژگان در پایگاه داده خود می نمایند كه مورد استفاده موتورهای كاوش ، در زمان جستجوهای كاربر قرار می گیرد. نمونه بارز این روش ، موتور كاوشگر Google است. .[Chakrabarti,۱۹۹۹]در همین راستا ابزارهایی همچون FASTUS:Finite-State Automaton Text Understanding System ، در خلال این ماموریت به تجزیه و تحلیل متون ، با هدف كشف گروه های مختلف واژگان مانند اسامی ، افعال ، تركیبات وصفی و اضافی ،... می پردازند كه به كشف دانش از محتویات وب كمك می كند. این روش هم اكنون برای زبان های انگلیسی و ژاپنی پیاده سازی شده است وبصورت بالقوه برای دیگر زبان ها قابل استفاده است. [Feiyu,۲۰۰۱]

از طرف دیگر استفاده از آنتولوژی(Ontology) در وب در بهینه سازی كاوش در وب پیشنهاد می گردد. آنتولوژی ، یك فرهنگ واژگان مشترك بر اساس موضوع سایت برای استاندارد سازی ارائه مفاهیم آن جهت قابل تفسیر شدن توسط ماشین ، تعریف می كند. آنتولوژی ، یك جزء كلیدی وب مفهومی(Semantic Web) است. [Heflin,۲۰۰۰]

شخصی كردن وب(Personalization) ، از دیگر روش هاست كه در امر كاوش وب مثمر ثمر است. نمونه این روش در My Yahoo قابل مشاهده است.یكی دیگر از راه های كاوش در مقدار زیاد و غیر ساختیافته اطلاعات وب ، استفاده از پایگاه داده چند لایه ای (MLDB) است. هر لایه از این پایگاه داده ، تعمیم بیشتری از لایه قبلی است. همه لایه ها بجز پایین ترین لایه (كه خود وب است) ، قابل كاوش توسط یك زبان پرس وجو مثل SQL است. [Osmar,۲۰۰۲]

در پیاده سازی روش های ساختاركاوی وب ، از تئوری گراف وب بهره مند خواهیم شد كه به ایجاد دید ارزشمند در الگوریتم های جستجو ، كشف ارتباطات ،... موثر است.در خصوص روش های كاربرد كاوی وب ، ناوبری كاربر در وب توسط مدل های ریاضی ماركو(Markov) ، براساس میزان تجربه كاربر و دارا بودن یا عدم داشتن راهنمای سایت ، تجزیه و تحلیل می گردد. [Velasquez,۲۰۰۳]خصوصیات وب های فارسی از نظر زبان

عدم وجود یك استاندارد و شناور بودن ویژگیهای رسم الخط و مفاهیم در زبان فارسی ، موجب گردیده است تا تقریبا بتعداد صفحات وب فارسی ، سبك و سیاق نگارش این زبان بكار رفته باشد. لیكن خصوصیات مشترك اكثر وب‌های فارسی زبان را می توان چنین ارزیابی نمود :

الف) نگارش برخی از وب های فارسی ، زبان غیررسمی یا محاوره‌ای است.

ب) در وب‌های فارسی ، بخصوص در متون علمی ، اغلب واژه‌های بیگانه ، بكرات استفاده می‌شود كه بعضی از آنها بارسم الخط زبان اصلی نوشته می‌شوند.

ج) رسم‌الخط وب های فارسی ، اصولا غیراستاندارد و متغیر است و اغلب در معرض نوآوری‌ است.

ه) نوشته‌های وب‌های فارسی ، حاوی غلط‌های تایپی و نگارشی نسبتاً زیادی است، هرچند كه اغلب وب‌های فارسی مهم و پرخواننده، نگارش قابل‌قبولی دارند.

و) رسم‌الخط وب‌های فارسی، تابع محدودیت‌های محیط الكترونیكی و عدم تطبیق آن با الزامات خط فارسی است.]اشرف زاده،۱۳۸۳[ابزارهای جستجو در وب های فارسی


شما در حال مطالعه صفحه 1 از یک مقاله 6 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.