سه شنبه, ۲ مرداد, ۱۴۰۳ / 23 July, 2024
طرح ایجاد پایگاه داده های زبان فارسی با كمك كامپیوتر
این طرح ، طرحی بنیادی و گسترده برای زبان فارسی است كه با توجه به هدف ، سودمندیها و كاربران گوناگون آن ، می تواند به عنوان طرح مادر یا پشتیبان برای بسیاری از طرحهای زبانی ، ادبی و زبانشناختی زبان فارسی به كار گرفته شود . اكنون چند ماه است كه اجرای فازاول این طرح در پژوهشگاه علوم انسانی و مطالعات فرهنكی آغاز شده است .
۱ هدف طرح
هدف این طرح گردآوری و سازماندهی یك پیكره زبانی پایه برای زبان فارسی (شامل متنهای مهم و واژگان عمده آن ) در درون یك سیستم اطلاعات كامپیوتری و ایجاد نخستین بانك داده های زبان فارسی برای بهره گیری همه كاربران و پژوهندگان است .
۲ - پیشینه بانكهای داده های زبانی
گرچه درگذشته سازمانها ، مراكز پژوهشی ، كتابخانه ها و مانند اینها به گردآوری اطلاعات تخصصی در زمینه های گوناگون و ارائه آنها با سرعت و تنوع زیاد علاقه مند بوده اند ؛ اماتنها پس از پیدایش كامپیوتر ، اندیشه ایجاد پایگاههای داده ها و بانكهای اطلاعاتی به خود جامه عمل پوشید . بویژه در زمینه پژوهشهای زبانی و فرهنگ نگاری ، روشهای كامپیوتری (یعنی پردازش خودكار زبان طبیعی Automated Natural Language Processing بسیار موفق بوده است . در سه دهه گذشته ، بیشتر كشورهای صنعتی به ایجاد بانكهای زبانی خود پرداختنه اند . این كشورها ، ابتدا با گردآوری داده ها یا پیكره های زبانی (Corpus Linguistics ) ) و سپس با سازماندهی آنها در پایگاههای داده ها (Databases) و بانكهای اطلاعات زبانی (Linguistic Data Banks )، از شبكه های جهانی داده های زبانی (International Networks of Linguistic Data ) بهره برداری می كنند . در پیوست الف ، نمونه هایی از هریك آورده شده و برای آگاهی از جزئیات بیشتر ، از منابع مربوط نیز یاد گردیده زبان فارسی را همواره از نظر منابع ادبی و واژگان ، یكی از زبان ها ی غنی و با سابقه به شمار آورده اند ؛ اما تا كنون بررسی همه جانبه و دقیقی با تكیه بر آمار و داده های كافی ، درباره این زبان انجام نیافته است . همچنین بسیاری از پژوهشهای زبانشناختی و تصمیم گیریها در برنامه ریزی زبانی ، تنها با دسترسی به یك پیكره زبانی كافی و است .
۳-دلایل پیشنهاد طرحمستند ، ارزش و اعتبار خواهند داشت از سوی دیگر، با گسترش كار برد كامپیوتر و پیدایش امكانات تازه نرم افزاری و سخت افزاری ، و وجود نمونه های بسیاری از این گونه بانك های داده ای زبانی در جهان و اثبات سود مندی و كارایی آنها ، زمان برای آغاز كوششهایی برای زبان فارسی ، از هر جهت مناسب می نماید .
دستیابی سریع به مجمو عه عظیمی از پیكره زبان فارسی و نیز امكان هرگونه جستجوی جهتدار، موضوعی و یا ساختاری در میان داده ها ، آرزوی هر پژوهنده زبان است . یك گنجینه بسامان از متنهای مهم و واژگان فارسی ، منبعی قابل اعتماد و آماری دقیق در دسترس افراد یا سازمانهای علاقه مند قرار می دهد . برخی از كاربردها ی بانك داده های زبانی در زمینه های زیر است :
- فعالیتهای گوناگون فرهنگ نگاری
- واژه گزینی علمی
- بررسیهای دستوری و تدوین دستور زبان امروز
- بررسی تحولات تاریخی زبان فارسی و پیگیری سیر تحول واژگان آن
- مطالعات سبك شناسی در دوره های گوناگون ، یا درباره نویسندگان و شاعران مشخص
- بررسیهای آوایی و گویش شناسی
- تالیف تدوین فرهنگ تاریخی زبان فارسی
- اجرای طرح ترجمه ماشینی برای زبان فارسی
۵- كاربران
به طور كلی همه سازمانها و افرادی كه به گونه ای با زبان فارسی و مسائل گوناگون آن سرو كار دارند، می توانند كاربران بالقوه این پایگاه باشند .
۵-۱- سازمانها
- سازمانهایی كه به پژوهشهای زبانی و زبان شناختی می پردازند ، مانند پژوهشگاه علوم انسانی و مطالعات فرهنگی ؛
- سازمانهای برنامه ریزی زبانی ، مانند فرهنگستان زبان ؛
- سازمانهایی كه با آموزش زبان سروكار دارند ، مانند دانشگاه ها و وزارت آموزش و پرورش ؛
- سازمانهای چاپ و نشر ؛
- كتابخانه ها و مراكز اسناد ؛
- رسانه های همگانی ، و بسیاری از سازمانهای دیگر ؛
۴-۲- اشخاص
- نویسندگان ، شاعران و روز نامه نگاران ؛
- مترجمان و ویراستاران ؛
- منتقدان ادبی ؛
- زبانشناسان ؛
- فرهنگ نگاران ؛
- چكیده نویسان ؛
- دستور نویسان ؛
- اصطلاحشناسان ؛
- برنامه سازان كامپیوتر ؛
- معلمان زبان و پژوهندگانی كه از داده های زبانی به عنوان ماده اولیه كار خود بهره می گیرند .
۶- مراحل اجرای طرح
این طرح به طور كلی ، در سه دوره یا فاز متفاوت انجام می پذیرد :
- دوره ۱. گردآوری داده ها و فراهم آوردن واژه ها مه های بسامدی ؛
- دوره ۲. سارماندهی و ایجاد پایگاه داده ها
- دوره۳. بهره برداری ، نگهداری ، افزایش داده ها و روز آینده سازی پایگاه .
ترتیب زمانی ، زمانبندی تخمینی و ارتباط دوره ها به صورت زیر خواهند بود :
۷ ویژگیهای پایگاه داده ها
در این طرح ، زبان فارسی و ساختار داده ها ، دارای مشخصات ویژه ای خواهند بود كه در زیر تنها به چارچوب
آنها اشاره می شود :
۷ ۱ زبان فارسی
۷ ۱ ۱ گستره و محدوده :
![](/imgs/no-img-200.png)
![](/imgs/no-img-200.png)
تعمیرکار درب برقی وجک پارکینگ
دورههای مدیریتی دانشگاه تهران
فروش انواع ژنراتور دیزلی با ضمانت نامه معتبر
ویدیوهای آموزشی هفتم
مسعود پزشکیان ایران دولت چهاردهم پزشکیان مجلس شورای اسلامی دولت سیزدهم دولت رهبر انقلاب مجلس محمدجواد ظریف مجلس دوازدهم انتخابات
هواشناسی قتل شهرداری تهران تهران سازمان هواشناسی پلیس شورای شهر تهران علیرضا زاکانی تب دنگی سیاست اربعین پشه آئدس
قیمت خودرو خودرو بازار سرمایه حقوق بازنشستگان قیمت دلار واردات خودرو بازار خودرو ایران خودرو سایپا قیمت طلا برق مالیات
سعید راد سینمای ایران سینما درگذشت دفاع مقدس عاشورا بازیگر فضای مجازی تلویزیون کربلا
دانشگاه فناوری دانش بنیان شرکت دانش بنیان حوزه علمیه دانشگاه تهران سازمان امور دانشجویان
رژیم صهیونیستی کامالا هریس جو بایدن غزه دونالد ترامپ فلسطین اسرائیل یمن آمریکا روسیه چین ترامپ
فوتبال پرسپولیس استقلال لیگ برتر نقل و انتقالات باشگاه پرسپولیس نقل و انتقالات لیگ برتر المپیک 2024 پاریس سپاهان لیگ برتر ایران باشگاه استقلال المپیک
فیلترینگ همستر کامبت ایلان ماسک سامسونگ سرعت اینترنت شرکت های دانش بنیان مایکروسافت گوگل تلفن همراه
سرطان دیابت فشار خون آلزایمر چاقی رژیم غذایی بارداری ویتامین مغز استرس افسردگی