سه شنبه, ۲ مرداد, ۱۴۰۳ / 23 July, 2024
مجله ویستا

طرح ایجاد پایگاه داده های زبان فارسی با كمك كامپیوتر


این طرح , طرحی بنیادی و گسترده برای زبان فارسی است كه با توجه به هدف , سودمندیها و كاربران گوناگون آن , می تواند به عنوان طرح مادر یا پشتیبان برای بسیاری از طرحهای زبانی , ادبی و زبانشناختی زبان فارسی به كار گرفته شود اكنون چند ماه است كه اجرای فازاول این طرح در پژوهشگاه علوم انسانی و مطالعات فرهنكی آغاز شده است

این طرح ، طرحی بنیادی و گسترده برای زبان فارسی است كه با توجه به هدف ، سودمندیها و كاربران گوناگون آن ، می تواند به عنوان طرح مادر یا پشتیبان برای بسیاری از طرحهای زبانی ، ادبی و زبانشناختی زبان فارسی به كار گرفته شود . اكنون چند ماه است كه اجرای فازاول این طرح در پژوهشگاه علوم انسانی و مطالعات فرهنكی آغاز شده است .

۱ – هدف طرح

هدف این طرح گردآوری و سازماندهی یك پیكره زبانی پایه برای زبان فارسی (شامل متنهای مهم و واژگان عمده آن ) در درون یك سیستم اطلاعات كامپیوتری و ایجاد نخستین بانك داده های زبان فارسی برای بهره گیری همه كاربران و پژوهندگان است .

۲ - پیشینه بانكهای داده های زبانی

گرچه درگذشته سازمانها ، مراكز پژوهشی ، كتابخانه ها و مانند اینها به گردآوری اطلاعات تخصصی در زمینه های گوناگون و ارائه آنها با سرعت و تنوع زیاد علاقه مند بوده اند ؛ اماتنها پس از پیدایش كامپیوتر ، اندیشه ایجاد پایگاههای داده ها و بانكهای اطلاعاتی به خود جامه عمل پوشید . بویژه در زمینه پژوهشهای زبانی و فرهنگ نگاری ، روشهای كامپیوتری (یعنی پردازش خودكار زبان طبیعی Automated Natural Language Processing بسیار موفق بوده است . در سه دهه گذشته ، بیشتر كشورهای صنعتی به ایجاد بانكهای زبانی خود پرداختنه اند . این كشورها ، ابتدا با گردآوری داده ها یا پیكره های زبانی (Corpus Linguistics ) ) و سپس با سازماندهی آنها در پایگاههای داده ها (Databases) و بانكهای اطلاعات زبانی (Linguistic Data Banks )، از شبكه های جهانی داده های زبانی (International Networks of Linguistic Data ) بهره برداری می كنند . در پیوست الف ، نمونه هایی از هریك آورده شده و برای آگاهی از جزئیات بیشتر ، از منابع مربوط نیز یاد گردیده زبان فارسی را همواره از نظر منابع ادبی و واژگان ، یكی از زبان ها ی غنی و با سابقه به شمار آورده اند ؛ اما تا كنون بررسی همه جانبه و دقیقی با تكیه بر آمار و داده های كافی ، درباره این زبان انجام نیافته است . همچنین بسیاری از پژوهشهای زبانشناختی و تصمیم گیریها در برنامه ریزی زبانی ، تنها با دسترسی به یك پیكره زبانی كافی و است .

۳-دلایل پیشنهاد طرحمستند ، ارزش و اعتبار خواهند داشت از سوی دیگر، با گسترش كار برد كامپیوتر و پیدایش امكانات تازه نرم افزاری و سخت افزاری ، و وجود نمونه های بسیاری از این گونه بانك های داده ای زبانی در جهان و اثبات سود مندی و كارایی آنها ، زمان برای آغاز كوششهایی برای زبان فارسی ، از هر جهت مناسب می نماید .

دستیابی سریع به مجمو عه عظیمی از پیكره زبان فارسی و نیز امكان هرگونه جستجوی جهتدار، موضوعی و یا ساختاری در میان داده ها ، آرزوی هر پژوهنده زبان است . یك گنجینه بسامان از متنهای مهم و واژگان فارسی ، منبعی قابل اعتماد و آماری دقیق در دسترس افراد یا سازمانهای علاقه مند قرار می دهد . برخی از كاربردها ی بانك داده های زبانی در زمینه های زیر است :

- فعالیتهای گوناگون فرهنگ نگاری

- واژه گزینی علمی

- بررسیهای دستوری و تدوین دستور زبان امروز

- بررسی تحولات تاریخی زبان فارسی و پیگیری سیر تحول واژگان آن

- مطالعات سبك شناسی در دوره های گوناگون ، یا درباره نویسندگان و شاعران مشخص

- بررسیهای آوایی و گویش شناسی

- تالیف تدوین فرهنگ تاریخی زبان فارسی

- اجرای طرح ترجمه ماشینی برای زبان فارسی

۵- كاربران

به طور كلی همه سازمانها و افرادی كه به گونه ای با زبان فارسی و مسائل گوناگون آن سرو كار دارند، می توانند كاربران بالقوه این پایگاه باشند .

۵-۱- سازمانها

- سازمانهایی كه به پژوهشهای زبانی و زبان شناختی می پردازند ، مانند پژوهشگاه علوم انسانی و مطالعات فرهنگی ؛

- سازمانهای برنامه ریزی زبانی ، مانند فرهنگستان زبان ؛

- سازمانهایی كه با آموزش زبان سروكار دارند ، مانند دانشگاه ها و وزارت آموزش و پرورش ؛

- سازمانهای چاپ و نشر ؛

- كتابخانه ها و مراكز اسناد ؛

- رسانه های همگانی ، و بسیاری از سازمانهای دیگر ؛

۴-۲- اشخاص

- نویسندگان ، شاعران و روز نامه نگاران ؛

- مترجمان و ویراستاران ؛

- منتقدان ادبی ؛

- زبانشناسان ؛

- فرهنگ نگاران ؛

- چكیده نویسان ؛

- دستور نویسان ؛

- اصطلاحشناسان ؛

- برنامه سازان كامپیوتر ؛

- معلمان زبان و پژوهندگانی كه از داده های زبانی به عنوان ماده اولیه كار خود بهره می گیرند .

۶- مراحل اجرای طرح

این طرح به طور كلی ، در سه دوره – یا فاز – متفاوت انجام می پذیرد :

- دوره ۱. گردآوری داده ها و فراهم آوردن واژه ها مه های بسامدی ؛

- دوره ۲. سارماندهی و ایجاد پایگاه داده ها

- دوره۳. بهره برداری ، نگهداری ، افزایش داده ها و روز آینده سازی پایگاه .

ترتیب زمانی ، زمانبندی تخمینی و ارتباط دوره ها به صورت زیر خواهند بود :

۷ – ویژگیهای پایگاه داده ها

در این طرح ، زبان فارسی و ساختار داده ها ، دارای مشخصات ویژه ای خواهند بود كه در زیر تنها به چارچوب

آنها اشاره می شود :

۷ – ۱ – زبان فارسی

۷ – ۱ – ۱ – گستره و محدوده :


شما در حال مطالعه صفحه 1 از یک مقاله 3 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.