جمعه, ۲۱ دی, ۱۴۰۳ / 10 January, 2025

مجله ویستا

روشی برای رفع چالش های محتواكاوی وب های فارسی زبان

رشد علمی و فنی و فرهنگی ما در گرو برقراری ارتباط زبانی و كلامی با دنیای الكترونیكی عرضه دانش و فرهنگ است كه وب نام دارد و این میسر نیست جز با تقویت كیفی زبان فارسی مورد استفاده در این دهكده جهانی ، وب.لیكن زبان فارسی ، در تلاقی با جهان الكترونیكی ، بخصوص از بعد رسم الخط ، دارای مصائبی است كه كاوش در محتویات آن را دچار كم كیفیتی می نماید. این مقوله مستلزم تمهیداتی چند است تا زبان فارسی را از یك زبان شعر وعرفان به زبانی مناسب با پهنه الكترونیكی دادوستد دانش ، وب ، تبدیل نمایند. مقاله حاضر ، تلاشی است درجهت مرتفع سازی چالش های كاوش در وب های فارسی زبان كه از دو دیدگاه رسم الخط ، با استفاده از نمایه سازی فارسی و مفهومی ، با استفاده از آنتولوژی قابل بحث هستند.

واژه های كلیدی : آنتولوژی ، نمایه سازی فارسی ، كاوش وب های فارسی ، وب كاوی

مقدمه

اهمیتی كه پدیده وب فارسی بعنوان رسانه‌ای مستقل و مؤثر در دنیای ارتباطات ایرانیان پیدا كرده است ، غیرقابل‌انكار است. به‌نظر می‌رسد كه اكنون روآوردن برخی از روزنامه‌نگاران ، پژوهشگران ، دانشجویان ،... به وب فارسی و استفاده منابع خبری ، علمی ،... از مطالب آنها نیز، موجب تقویت نقش رسانه‌ای وب فارسی شده‌است.

لیكن با توجه به ماهیت خاص رسم الخط فارسی كه آن را برای سیستم های رایانه ای نامناسب نموده است ، امروزه مشكلات بسیاری برای دانش پژوهشان و بطور كلی استفاده كنندگان از وب های فارسی زبان نموده است. عدم وجود حروف صدادار در فارسی بصورت یك موجودیت مجزا از یك طرف و وجود حروف یكسان با اشكال متعدد از طرف دیگر ، باعث بروز چالش های جدی در امر نمایه سازی این زبان شده است. بنظر می رسد تلاشهایی لازم است تا زبان زیبای فارسی را با وجود ماهیت عرفانی و شاعرانه آن ، جهت حضور در عرصه الكترونیكی دانش ، آماده نماید.

پیشینه تحقیق و تعارف ابتدایی

محتواكاوی وب(Web Content Mining) ، یكی از سه شاخه وب كاوی است كه در واقع ، كشف اطلاعات مفید از مستندات و داده های ساختیافته و نیمه ساختیافته و غیر ساختیافته وب می باشد. یك شاخه دیگر این مقوله ، ساختاركاوی وب(Web Structure Mining) است كه به كشف مدل پشت زمینه حاكم بر ساختار فرا پیوند های وب می پردازد و هدف آن ، ایجاد اطلاعاتی همچون تشابه یا ارتباط بین سایت های مختلف وب است. شاخه دیگر آن كاربرد كاوی وب می باشد كه سعی می كند از تعاملات كاربربا وب ، اطلاعاتی كسب كند و از آن ها بصورت سابقه ای در مراجعات بعدی كاربر سود ببرد.در زمینه محتواكاوی وب نرم افزارهای خزنده(Crawler) ، به گشت و گذار در اقیانوس وب پرداخته ، اقدام به نمایه سازی واژگان در پایگاه داده خود می نمایند كه مورد استفاده موتورهای كاوش ، در زمان جستجوهای كاربر قرار می گیرد. نمونه بارز این روش ، موتور كاوشگر Google است. .[Chakrabarti,۱۹۹۹]در همین راستا ابزارهایی همچون FASTUS:Finite-State Automaton Text Understanding System ، در خلال این ماموریت به تجزیه و تحلیل متون ، با هدف كشف گروه های مختلف واژگان مانند اسامی ، افعال ، تركیبات وصفی و اضافی ،... می پردازند كه به كشف دانش از محتویات وب كمك می كند. این روش هم اكنون برای زبان های انگلیسی و ژاپنی پیاده سازی شده است وبصورت بالقوه برای دیگر زبان ها قابل استفاده است. [Feiyu,۲۰۰۱]

از طرف دیگر استفاده از آنتولوژی(Ontology) در وب در بهینه سازی كاوش در وب پیشنهاد می گردد. آنتولوژی ، یك فرهنگ واژگان مشترك بر اساس موضوع سایت برای استاندارد سازی ارائه مفاهیم آن جهت قابل تفسیر شدن توسط ماشین ، تعریف می كند. آنتولوژی ، یك جزء كلیدی وب مفهومی(Semantic Web) است. [Heflin,۲۰۰۰]

شخصی كردن وب(Personalization) ، از دیگر روش هاست كه در امر كاوش وب مثمر ثمر است. نمونه این روش در My Yahoo قابل مشاهده است.یكی دیگر از راه های كاوش در مقدار زیاد و غیر ساختیافته اطلاعات وب ، استفاده از پایگاه داده چند لایه ای (MLDB) است. هر لایه از این پایگاه داده ، تعمیم بیشتری از لایه قبلی است. همه لایه ها بجز پایین ترین لایه (كه خود وب است) ، قابل كاوش توسط یك زبان پرس وجو مثل SQL است. [Osmar,۲۰۰۲]

در پیاده سازی روش های ساختاركاوی وب ، از تئوری گراف وب بهره مند خواهیم شد كه به ایجاد دید ارزشمند در الگوریتم های جستجو ، كشف ارتباطات ،... موثر است.در خصوص روش های كاربرد كاوی وب ، ناوبری كاربر در وب توسط مدل های ریاضی ماركو(Markov) ، براساس میزان تجربه كاربر و دارا بودن یا عدم داشتن راهنمای سایت ، تجزیه و تحلیل می گردد. [Velasquez,۲۰۰۳]خصوصیات وب های فارسی از نظر زبان

عدم وجود یك استاندارد و شناور بودن ویژگیهای رسم الخط و مفاهیم در زبان فارسی ، موجب گردیده است تا تقریبا بتعداد صفحات وب فارسی ، سبك و سیاق نگارش این زبان بكار رفته باشد. لیكن خصوصیات مشترك اكثر وب‌های فارسی زبان را می توان چنین ارزیابی نمود :

الف) نگارش برخی از وب های فارسی ، زبان غیررسمی یا محاوره‌ای است.

ب) در وب‌های فارسی ، بخصوص در متون علمی ، اغلب واژه‌های بیگانه ، بكرات استفاده می‌شود كه بعضی از آنها بارسم الخط زبان اصلی نوشته می‌شوند.

ج) رسم‌الخط وب های فارسی ، اصولا غیراستاندارد و متغیر است و اغلب در معرض نوآوری‌ است.

ه) نوشته‌های وب‌های فارسی ، حاوی غلط‌های تایپی و نگارشی نسبتاً زیادی است، هرچند كه اغلب وب‌های فارسی مهم و پرخواننده، نگارش قابل‌قبولی دارند.

و) رسم‌الخط وب‌های فارسی، تابع محدودیت‌های محیط الكترونیكی و عدم تطبیق آن با الزامات خط فارسی است.]اشرف زاده،۱۳۸۳[ابزارهای جستجو در وب های فارسی

شما در حال مطالعه صفحه 1 از یک مقاله 6 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.

جمعه, ۲۱ دی, ۱۴۰۳ / 10 January, 2025

روشی برای رفع چالش های محتواكاوی وب های فارسی زبان

دل نوشابه سیاه است

عوارض تلخ یک نوشیدنی شیرین

ما که زن و شوهر همیم...

زندگی كن نه بازی

زندگی كن نه بازی

افزایش فشار خون در افراد مسن

در باره مهد کودک بیشتر بدانیم

در باره مهد کودک بیشتر بدانیم

۱۷ آوریل سال ۶۹۳ ـ روزی که آشوریان شهر شوش را ویران کردند

فریدون آسرایی، خوشحال در ونکوور!

فریدون آسرایی در صفحه شخصی اینستاگرامش عکسی گذاشته که کنار ماشین پلیس ونکوور ایستاده و متن پست نشان از سرزندگی و شاداب بودنش داره.

نقش رنگ در معماری

نقش رنگ در معماری

اروپا: گوش قدرتمندان (لوموند دیپلماتیک: مه 2014)

اروپا: گوش قدرتمندان (لوموند دیپلماتیک: مه 2014)

تشویق و تنبیه كودكان؛ چه وقت و چگونه؟

ورزش و ارتباط آن با کمردرد

توسعه تجارت الکترونیک

توصیه های اقتصادی در زندگی

اولین شهردار تهران که بود, چه کار کرد

روایت خواندنی از شکل گیری بلدیه زیر نظر دولت

۲۸ مهر ـ ۲۰ اکتبر ـ سرمایه گذاری در كروپ آلمان

محمد رضایی دهقان تفتی

جنسیت مرد نام پدر علی اکبر حسن عابدین تخلص دهقان تولد و وفات ۱۳۴۱ قمری محل تولد ایران یزد یزد شهرت علمی و فرهنگی شاعر در یازده سالگی به هندرفت و در بمبئی در دبستان …

سرطان

استراتژی آیپك برای سیطره بر كاخ سفید

استراتژی آیپك برای سیطره بر كاخ سفید

کم شدن حرکات جنین در هفته27

هفته 27 بارداری هستم. جنین دو روزه که حرکاتش خیلی کم شده. آیا خطرناکه؟

پدیده اینترنت II

پدیده اینترنت II

کتاب‌های مقدس هندوان

منع اپراتورها در ارائه موبایل بانکینگ

منتهای عرفان

بسیاری از عارفان نام آور تاریخ ایران از امام حسین ع چونان قطب عالم عرفان و به مثابه انسان کامل یاد کرده اند

خصوصیات کارمندان گوگل

گرفتگی رگ پا در بارداری، پیشگیری کنید

در طول نشستن، کف پاهایتان را مماس با زمین قرار دهید و پشت کمرتان را با بالشتکی پر کنید و از انداختن پاها بر روی هم اجتناب کنید.

هنرهای سنتی که مواد اولیه اش از تخته – چوب باشد

قطره نوزاد را فراموش نکنید!

اگر والدین نسبت به دادن قطره آهن به فرزندشان کوتاهی کنند آنان را در معرض ابتلا به کم‌‌خونی قرار می‌دهند.

کلید طلایی وارتباط موفق با شوهر

ویژگیهای یک پرستار خوب در خانه

لژیونرهای ادبیات

گلچین شعر درباره پسرم

شعر درباره پسرم توسط شاعری سروده شده که در پاره ای موارد با مهر به فرزندش نصیحت می کند یا غم از دست دادن او را دارد و سوگواره می سراید.

زنان کارآفرین در آفریقا

زنان کارآفرین در آفریقا

این ۱۱ مورد زندگی زناشویی تان را تهدید می کند

اگر زن یا شوهر به طور کامل از والدینشان جدا نشوند, احتمال بروز مشکل در زندگی زناشویی آنها وجود خواهد داشت

وزن مناسب قبل از بارداری، زیاد یا کم؟

اگر لاغر هستید خیلی از این موضوع خوشحال نباشید.

دربارهٔ سرویس های تلفن همراه

دربارهٔ سرویس های تلفن همراه

سیاحت در غذاخوری ها

نگاهی به عجیب ترین رستوران های جهان

امروز با سعدی ـ شنبه ۳۱ اردیبهشت

آیا خرید دستگاه تصفیه هوا واقعا برای کودکان، زنان باردار و سالمندان ضروری است؟

مجله اینترنتی ستاره شامل فال روزانه، فال حافظ، سرگرمی، اس ام اس، آشپزی، سلامت، مشاوره، روانشناسی، زناشویی، گردشگری، فناوری، مذهبی

سیره پیامبر ص در برخورد با غیرخودی ها

تشکیل شورای انقلاب اولین گام برای استقرار جمهوری اسلامی

تشکیل شورای انقلاب اولین گام برای استقرار جمهوری اسلامی

نامگذاری شبام

هیچ کس با بداخلاقی پایدار نمی‏‌ماند

سونوگرافی در بارداری، چند بار؟

خیلی از مادران باردار دوست دارند در فواصل کوتاه، عکس جنین خود را بر صفحه مانیتور ببینند و از سلامت او مطمئن شوند.

خاطراتی که دیگر نیستند

خاطراتی که دیگر نیستند

سبزی پلو با بلغور جو

پیاز را نگینی خرد کنید و با مقداری زردچوبه و ادویه تفت دهید؛ سبزی را به آن اضافه کنید و کمی تفت دهید.

۱۶ دسامبر ۱۹۶۳ ـ پس از رد پیشنهاد تاسیس یک روزنامه دولتی که با مخالفت شدید رو به رو شده بود ، تاسیس یک تلویزیون دولتی در ایران جدی شد

فناوری اطلاعات و ارتباطات در آموزشهای سازمانی

چطور می‏توان كمبود منیزیوم را تشخیص داد؟

هامون, بی چشم انداز حیات

این دریاچه تا قبل از خشک شدن, سالانه میزبان نزدیک به ۴۰۰ هزار نوع پرنده مهاجر بود

گاز نوشابه‌ها

جدل باهنر و جبرائیلی بر سر FATF روی آنتن زنده

خودکشی تبعه سوئیس در زندان سمنان؛ پیامدها و واکنش‌ها