جمعه, ۷ اردیبهشت, ۱۴۰۳ / 26 April, 2024
مجله ویستا

‌‌ گروه اعداد در ترجمه ماشینی


‌‌ گروه اعداد در ترجمه ماشینی
هدف از عرضه‌ گروه اعداد، ساختن تركیبات مجاز از اعداد اصلی و ترتیبی در زبان فارسی است. در این مقاله سی و هشت عضو دستگاه عددگویی فارسی در چهارگروه چندعضوی و دو گروه تك‌عضوی قرار داده شده‌اند. سی و هشت عضو مذكور در دو دسته قاعده‌ كلی (یعنی قواعد گروه اعداد اصلی و اعداد ترتیبی) جای داده شده‌اند. تعداد قواعد اعداد اصلی شامل چهل و هفت، و تعداد قواعد اعداد ترتیبی (كه خود بر دو نوع‌اند) شامل چهار قاعده است.
۱. مقدمه
ترجمه‌ ماشینی نوعی شبیه‌سازی از مغز انسان است و از این رو یكی از شاخه‌های هوش مصنوعی می‌باشد. اساس كار مترجم ماشینی، بر داده و خروجی است. مترجم ماشینی با قواعدی كه در اختیار دارد داده‌ها را پردازش می‌كند و خروجی مفروض را در اختیار كاربر می‌گذارد. جدا كردن حوزه‌های زبان و توصیف آن‌ها، مقدمه‌ ساختن قواعد است. قاعده‌ها باید دقیق و استثناناپذیر باشند. استفاده از معنا در ترجمه‌ ماشینی ضروری است، ولی قاعده‌ بعضی از بخش‌های زبان را می‌توان فارغ از معنا عرضه كرد. گروه اعداد، یكی از این بخش‌ها است كه می‌توان آن را بدون توسل به معنا، توصیف و قواعد آن را استخراج كرد. گروه اعداد، جزئی از گروه اسمی است كه در جایگاه وابسته‌های پیشین و پسین «اسم» قرار می‌گیرد.
۲. تلاش‌های اولیه برای ساختن مترجم ماشینی
از سال ۱۹۵۴ به بعد بود كه اصطلاح «ماشین ترجمه» به تدریج به كار رفت (Delavenay, ۱۹۷۲)، ولی عبارت «مترجم الكترونیكی» و «مترجم خودكار» را هم گاهی به كار می‌بردند. اما تلاش برای ساختن مترجم ماشینی از دهه‌ سی میلادی شروع شده بود. مترجم ماشینی را آن زمان وسیله‌ای ساده نظیر ماشین حساب می‌دانستند كه به راحتی زبانی را به زبان دیگر ترجمه می‌كند. این ساده‌انگاری اندك اندك جای خود را به واقع‌بینی داد. یكی از محققان پس از دو دهه تلاش، ترجمه‌ ماشینی را یكی از پیچیده‌ترین فعالیت‌هایی دانست كه بشر تا آن زمان به آن دست زده است(Dreyfus, & Dreyfus, ۱۹۸۹, p. ۵۶). نشانه‌ها در ماشین‌های عددی و الفبایی، تك معنا و شفاف هستند و ابهام و شرح و تفسیر در آن‌ها جایی ندارد و اجتماع نشانه‌ها نیز ارزش معنایی واحد و مطلقی دارند. در صورتی كه در ترجمه‌ زبان بشر، ابهام واژگانی[۱] و ابهام ساختاری[۲] از عمده مشكلات محققان هستند.
اولین مترجم ماشینی ساده و ابتدایی را یك محقق روسی در سال ۱۹۳۳ در مسكو ساخت و به ثبت رساند. در سال ۱۹۴۶ «بوت»[۳] و «ویور»[۴] به تحقیق درباره‌ ترجمه ماشینی پرداختند. «ویور» كار خود را براساس روش‌هایی كه با آن، پیام‌های دشمن را در جنگ جهانی دوم رمزشكنی می‌كردند قرار داده بود. «بوت» ماشینی ساخته بود كه كلمات زبان را به زبان دیگر ترجمه می‌كرد. در كار «بوت» نه به «نحو» پرداخته می‌شد نه به «ترتیب كلمات»[۵]. مترجم ماشینی «بوت» در اصل، كلمات مهم متن یا كلیدواژه‌ها[۶] را به زبانی دیگر ترجمه می‌كرد و فهم و تفسیر متن را به عهده كاربر وا می‌گذاشت.
«ریچنز»[۷] انگلیسی در سال ۱۹۴۸ فكر تجزیه‌ دستوری خودكار پایانه‌ كلمات[۸] را مطرح كرد كه نوعی ترجمه‌ كلمه به كلمه بود. «ویور» در سال ۱۹۴۹ ضمن تأیید كار «بوت» و «ریچنز» شباهت‌های زیرساختی زبان‌ها با یكدیگر را مطرح كرد؛ یعنی شباهت‌های معنایی و منطقی زبان‌ها كه مربوط به ویژگی‌های مغز انسان هستند و در همه‌ انسان‌ها مشترك‌اند. آنچه «ویور» در نهایت به كار «بوت» و «ریچنز» اضافه كرد پیشنهادهایی برای رفع ابهام معنایی بود.
در سال ۱۹۵۰ «ریفلر»[۹] نوعی ترجمه را كه انسان با كمك ماشین انجام می‌داد مطرح كرد. به عقیده‌ او باید ابتدا متن ترجمه می‌شد و سپس ماشین آن را ویرایش می‌كرد. یعنی به عبارتی، ترجمه‌ ماشینی باید یك پیش‌ویرایش[۱۰] و یك پس‌ویرایش[۱۱] می‌داشت و تعاملی[۱۲] می‌بود (Booth, ۱۹۶۷, p. ۵۳).
تحقیقات به صورتی گسترده ولی پراكنده ادامه داشت. «اسوالد»[۱۳] و «فلچر»[۱۴] در آلمان روی تجزیه‌ نحوی جملات كار می‌كردند. بنیاد «راكفلر» در سال ۱۹۵۲ در نخستین همایش هجده نفری زبان‌شناسان و متخصصان رایانه, سرمایه‌ قابل توجهی را برای ترجمه‌ ماشینی به «مؤسسه‌ فناوری ماساچوست» (ام‌آی‌تی) اهدا كرد. اعضای این همایش موافقت كردند كه تحقیقات در دو مرحله انجام شوند: مرحله‌ اول شامل تحقیق درباره‌ بسامد كلمات و شیوه‌ معادل‌یابی آن‌ها و چگونگی استفاده از حافظه‌ رایانه و دیگر جنبه‌های فنی فرهنگ لغت‌های ماشینی بود؛ مرحله‌ دوم مربوط به شیوه‌ تحلیل‌های نحوی می‌شد.
از سال ۱۹۵۲ تا ۱۹۵۵ محققان آمریكایی درباره‌ ظرفیت حافظه‌ رایانه و شناسایی خودكار معنای كلمات و شیوه‌ تحلیل پایانه‌های كلمات (پسوندها) تحقیق كردند. در سال ۱۹۵۴ «دوسترت»[۱۵] و «گاروین»[۱۶] در دانشگاه «جرج تاون» به موفقیت‌هایی در ترجمه‌ روسی به انگلیسی دست یافتند. آن‌ها با ۲۵۰ كلمه و ۶ قاعده، الگویی برای ترجمه‌ ماشینی عرضه كردند. در همان سال «ام‌آی‌تی» مجله‌ «ماشین ترجمه» را منتشر كرد.
در سال ۱۹۵۶ «ام‌آی‌تی» اولین نشست بین‌المللی ترجمه‌ ماشینی را با حضور متخصصان انگلیسی و كانادایی و آمریكایی و روسی برگزار كرد. در این زمان، آمریكا و انگلستان و شوروی محل اصلی تحقیقات ترجمه‌ ماشینی بودند، ولی در ایتالیا و كشورهای اسكاندیناوی هم تحقیقاتی انجام می‌شد. محققان در این سال‌ها دیگر تلاش نمی‌كردند كه ثابت كنند ترجمه‌ ماشینی كاری شدنی است، بلكه در حال نظم‌دادن و متمركز كردن پژوهش‌های پراكنده‌ای بودند كه در نقاط مختلف جهان انجام می‌شد.
در سال ۱۹۵۸ در آمریكا دوازده گروه در كار پژوهش‌های مربوط به ترجمه‌ ماشینی بودند: در دانشگاه هاروارد فرهنگ لغت ماشینی روسی به انگلیسی را می‌ساختند؛ «چامسكی» در «ام‌آی‌تی» درباره‌ ساخت‌های نحوی تحقیق می‌كرد؛ در دانشگاه «جرج تاون» درباره‌ نحو و معنا‌شناسی زبان روسی پژوهش‌هایی انجام می‌شد و در دانشگاه «میشیگان» تلاش می‌كردند تا قاعده‌های نحو روسی را استخراج، و مشكل چندمعنایی[۱۷] را حل كنند؛ ماشین ترجمه‌ای هم برای ترجمه‌ روسی به آلمانی در دانشگاه «سیاتل» در دست ساخت بود؛ در لس‌آنجلس و كالیفرنیا نیز محققان درباره‌ مسائل روش‌شناختی ترجمه‌ ماشینی تحقیق می‌كردند. در این بین به ترجمه‌ ماشینی زبان روسی به انگلیسی بیشتر اهمیت داده می‌شد.
در انگلستان بیش‌تر درباره‌ مسائل روش‌شناختی ترجمه‌ ماشینی، تحقیقات دقیقی انجام شد. یكی از مهم‌ترین كارهای پژوهشگران آن كشور، درباره‌ همكاری زبان‌شناسان و متخصصان رایانه بود. آنان تلاش بسیاری انجام دادند تا زبان‌شناسی، رشته‌ای از رشته‌های علوم دقیقه شود و در این راه از روش‌های ریاضی استفاده می‌كردند.
از دهه‌ پنجاه میلادی و با «چامسكی»، تحلیل‌های نحوی مستقل از معنا آغاز شده بود، ولی معناشناسی را «كتز» و «فودور» (۱۹۶۳) و «كتز» و «پستال» (۱۹۶۴) وارد كار ترجمه‌ ماشینی كردند. در مرحله‌ بعد نیز كاربردشناسی وارد حوزه‌ پردازش زبان شد.
انسان، دانشی از عالم خارج دارد كه آن را در تعبیر متن به كار می‌بندد: از این رو نظریه‌های گوناگونی درباره‌ شكل تجربه‌ انسان از عالم خارج، عرضه شد. یعنی متخصصان سعی كردند دانش عالم خارج را در حافظه‌ رایانه بگنجانند و عاقبت به این نتیجه رسیدند كه بهتر است دانش گسترده‌ عالم خارج را محدود كنند. به این سبب به جای ذخیره‌ كل دانش در حافظه‌ رایانه، موضوع عالم فرعی[۱۸] و نمایشنامه[۱۹] و فیلمنا‌مه[۲۰] مطرح شد كه همگی، شكل‌های مختلف ذخیره‌ دانش عالم خارج در رایانه هستند.امروزه با وجود پیشرفت‌هایی كه در ترجمه‌ ماشینی حاصل شده، هنوز مشكلات رایجی مثل هم‌معنایی[۲۱]، چندمعنایی، ابهام ساختاری، ابهام واژگانی، و حتی محدود كردن عالم خارج و مشخص‌كردن بافت[۲۲] به جا مانده است. با این همه مترجم‌هایی كه در دهه‌های اخیر ساخته شده‌اند انتظارات اولیه‌ محققان را تا حدی برآورده كرده‌اند.
مترجم ماشینی براساس قواعد عمل می‌كند، قاعده‌هایی صوری و استثناناپذیر كه به حافظه‌ رایانه داده می‌شوند تا رایانه با كمك آن‌ها، ساخت‌های درست را از نادرست تمیز دهد. هر حوزه‌ دستور زبان، قواعد خاص خود را دارد. یكی از قواعدی كه در مترجم ماشینی به كار می‌رود، قاعده‌ «گروه اعداد» است. عدد، بخشی از گروه اسمی[۲۳] است. بنابراین قبل از آنكه گروه اعداد عرضه شود، لازم است ساختار كلی گروه اسمی معرفی گردد.
۳. گروه اسمی
اصطلاح «گروه اسمی» را مشخصاً برای نخستین بار «هریس»[۲۴] در سال ۱۹۵۱ به كار برد (Trask, ۱۹۹۳, p. ۱۸۹). گروه اسمی زبان فارسی را اولین بار «باطنی» بررسی كرد (باطنی، ۱۳۶۴). «صادقی» (۱۳۵۶)، «مشكو‌‌ٍٍه‌الدینی» (۱۳۶۶)، «حسنیان» (۱۳۶۸)، «محمودی» (۱۹۴۴) و «سمائی» (۱۳۸۱) نیز گروه اسمی را در آثار خود آورده‌اند. «گروه اسمی» اصلی‌ترین و مهم‌ترین سازه در تحلیل رایانه‌ای زبان فارسی است. چند ویژگی مشترك و كلی این گروه كه محققان بر سر آن‌ها توافق دارند از این قرارند:
الف) گروه مذكور از یك كلمه یا گروهی از كلمات ساخته می‌شود؛
ب) گروه اسمی یك هسته و تعدادی وابسته دارد؛
ج) وابسته‌هایی را كه قبل از هسته می‌آیند «وابسته‌ پیشین» و وابسته‌هایی را كه بعد از هسته می‌آیند «وابسته‌ پسین» می‌نامند؛
د) وابسته‌های پیشین عبارت‌اند از صفت اشاره (این، آن، همان، …)، عدد، ممیّز (فقره، جلد، نفر، …)، صفت عالی، شاخص (خانم، آقا، استاد، حاجی, …)، صفت پرسشی (چند، چه، كدام, …)، صفت مبهم (چند، هر، هیچكدام, …)، صفت تعجبی (چه، عجب)، «یك» نكره. وابسته‌های پسین شامل صفت بیانی, « ـ ی» نكره, مضاف‌الیه, بدل, گروه حرف اضافه, و حرف ربطی هستند. وابسته‌های پیشین محدودیت‌های همنشینی دارند: اولاً همه‌ آن‌ها همزمان قبل از هسته نمی‌آیند؛ ثانیاً هر وابسته‌ای كنار وابسته‌ دیگر قرار نمی‌گیرد، ثالثاً با ترتیب خاصی در كنار هم می‌آیند. در ترتیب همنشینی وابسته‌های پسین نیز محدودیت‌هایی هست.
چنان‌كه اشاره شد، اعداد جزو وابسته‌های پیشین گروه اسمی‌اند. در این بخش ابتدا پیشینه‌ «گروه اعداد» بررسی، و سپس قاعده‌ ساخت آن عرضه می‌شود.
الف) پیشینه‌ «گروه اعداد»
«میلانیان» (۱۳۵۱) تنها كسی است كه درباره‌ «دستگاه عدد» در زبان فارسی تحقیق كرده است. «میلانیان» از بین رقم‌نویسی و عددگویی، به دستگاه عددگویی زبان فارسی كه اصلیتی هندی دارد و ایرانیان آن را از اعراب گرفته‌اند پرداخته است. در دستگاه رقم‌نویسی، هر رقم بسیط در درون رقم مركب، یك ارزش مكانی دارد. این دستگاه، یك محور جانشینی[۲۵] و یك محور همنشینی[۲۶] دارد. ارقام بسیط در روی محور جانشینی به جای رقم هم‌مرتبه‌ خود می‌آیند و بسته به مكان یا مرتبه‌ خود در رقم مركب، ارزش متفاوتی می‌یابند. دستگاه رقم‌نویسی هندی، دستگاهی ده‌عضوی است كه این اعضا، یكپارچه و تجزیه‌ناپذیرند.
دستگاه عددگویی فارسی، سی و هشت عضو ساده دارد كه به چهار گروه چند عضوی و دو عضو منفرد تقسیم می‌شوند. هر گروه، امكانات تركیبی خاصی دارد. در گروه منفرد نیز «هزار» و «میلیون» قرار دارند.
دیگر اعداد زبان فارسی را با تركیب اعداد ساده‌ این چهار گروه می‌سازند. تركیب این اعداد به دو روش انجام می‌شود:
الف) روش جمع: در این روش، عدد كوچك‌تر پس از عدد بزرگ‌تر می‌آید و واژه‌بند – o رابط آن دو است.
ب) روش ضرب: در این روش عدد كوچك‌تر پیش از عدد بزرگ‌تر می‌آید و در آن ضرب می‌شود.
امكانات اعداد تركیبی را می‌توان با ادغام روش الف و ب افزایش داد. مثلاً با «بیست‌و‌سه» (روش جمع) و «چهار هزار» (روش ضرب) می‌توان عدد بزرگ‌تر «چهار هزار و بیست و سه» را ساخت. «میلانیان» در پایان، امكانات تركیب چهار گروه را آورده است.
ب) قواعد گروه اعداد
قواعدی كه در اینجا می‌آیند، دو تفاوت با قواعدی دارند كه «میلانیان» در كار خود آورده است. یكی آن‌كه قواعد «میلانیان» كلی است و مصداقی نیست؛ دوم آن‌كه در اینجا، قواعد اعداد ترتیبی نیز آمده است.
ذكر این نكته ضروری است كه نگارنده، از دیدگاه كاربردی به طرح مسئله پرداخته است و از این رو ادعا ندارد كه قواعد او كم‌حشوترین قواعد گروه اعداد زبان فارسی‌اند. منظور اصلی نویسنده، بیش‌تر طرح روش پرداختن به توصیف زبان از دیدگاه كاربرد در رایانه است. عدد بر دو قسم است: عدد اصلی، و ترتیبی.
الف) اعداد اصلی: اعداد اصلی، شش طبقه‌اند. این طبقات با قاعده‌های خاصی با هم تركیب می‌شوند و گروه اعداد را می‌سازند.
یادآوری ۱). اگر قاعده‌های شماره‌ ۱۴ و ۳۳ و ۳۹ و ۴۴ تا ۴۷ با عدد صد از گروه «د» شروع شوند، می‌توان قبل از صد، عدد «یك» از گروه الف را افزود.
مثال: (یك) صد و پنجاه و سه
(یك) صد و بیست و سه میلیون
یادآوری ۲). قبل از قاعده‌های شماره‌ ۳ تا ۹ و ۲۰ تا ۲۹ حتماً باید یكی از اعداد گروه الف (ر.ك. جدول شماره ۲) بیاید.
مثال: یك میلیون و یازده
سه میلیون و هزار و سی و سه
اینك برای آزمایش قواعد، مثالی عرضه می‌شود. این مثال از تلفیق قاعده‌های شماره ۳۴ و ۱۲ و ۴ و ۱ و ۳۰ و ۱۸ و ۱ به دست می‌آید.
الف+و+ حرف عطف+ د+ حروف عطف+ج+حرف عطف+الف+هـ+ حرف عطف+د+ حرف عطف+ج+حرف عطف+الف دو میلیون و پانصد و پنجاه و سه هزار و نهصد و شصت و سه
عدد مذكور نتیجه‌ عملكرد قواعد ۳۴ (الف+و) و ۱۲‌ (و+حرف عطف+د) و ۴ (د+حرف عطف+ج) و ۱ (ج+حرف عطف+الف) و ۳۰ (الف+ هـ) و ۱۸ (هـ + حرف عطف+ د+حرف عطف+ ج) و ۱ (ج+الف) است.
آنچه درباره‌ این قاعده گفتنی است برگشتی[۲۷] بودن آن است. بدین معنا كه قاعده‌ مذكور، تكرارپذیر است و از قاعده‌ شماره ۱ (ج+الف) بار دیگر می‌توان به اجتماع قاعده‌های ۳۴ و ۱۲ و ۴ و۱ و۳۰ و ۱۸ و۱ رسید، و همین طور در موارد مشابه دیگر.
ب) اعداد ترتیبی: اعداد ترتیبی به دو صورت ساخته می‌شوند. یكی از آن‌ها وابسته‌ پیشین و دیگری وابسته‌ پسین «اسم» است.
یادآوری. صورت ترتیبی عدد «یك» و «سه» به شكل «اولین» و «سومین» در می‌آید.
یادآوری. صورت ترتیبی عدد «یك» و «سه» به شكل «اول» و «سوم» در می‌آید.
۴. نتیجه‌گیری
در این مقاله ابتدا درباره‌ تلاش‌های اولیه‌ای كه برای ساختن مترجم ماشینی در جهان شده, مطالبی به ایجاز آورده شد. از آنجا كه گروه اعداد, بخشی از وابسته‌های پیشین گروه اسمی‌اند, ساختمان گروه اسمی توضیح داده شد و در پایان پس از بررسی پیشینه‌ گروه اعداد در زبان فارسی, ساختار قواعد این گروه عرضه شد.
برای سی و هشت عدد اصلی زبان فارسی كه در شش گروه جای می‌گیرند, چهل و هفت قاعده با ذكر مثال مربوط به هریك از قواعد, عرضه شد. این تعداد, قاعده‌های اعداد اصلی زبان فارسی بود. اعداد ترتیبی نیز به دو صورت در زبان فارسی به كار می‌روند: یكی با قاعده‌ عدد اصلی + مین (چهارمین) و دیگری با قاعده‌ عدد اصلی + م (چهارم).
سیدمهدی سمایی
استادیار پژوهشگاه اطلاعات و مدارك علمی ایران
منابع
باطنی،‌ محمدرضا (۱۳۶۴). جمله، واحد ترجمه. در مجموعه مقالاتی پیرامون زبان و زبان‌شناسی (ص. ۷۲-۶۳). تهران: فرهنگ معاصر.
حسنیان، حسین (۱۳۶۸). گروه اسمی زبان فارسی برمبنای نظریه‌ ایكس تیره. مجله زبانشناسی، ۶(۱)، ۴۰-۲۹.
سمائی، سیدمهدی (۱۳۸۱). پردازش گروه اسمی. فصلنامه اطلاع‌رسانی، ۱۸(۱ و ۲)، ۴۱-۳۴.
صادقی، علی اشرف و ارژنگ، غلامرضا (۱۳۵۶). دستور سال دوم فرهنگ و ادب. تهران: انتشارات آموزش و پرورش.
مشكوهٔ‌الدینی، مهدی (۱۳۶۶). دستور زبان فارسی برپایه نظریه‌ گشتاری. مشهد: انتشارات دانشگاه فردوسی.
میلانیان، هرمز (۱۳۵۱). دستگاه عدد در زبان فارسی. به كوشش محمد روشن، سومین كنگره تحقیقات ایرانی: ج ۱. (ص. ۶۴۵-۶۳۱). تهران: بنیاد فرهنگ ایران.
Booth, K. H. V. (۱۹۶۷). Machine aided translation with a post-editor. In A. D. Booth (Ed.), Machine Translation (pp. ۵۳-۷۶). Amsterdam: North-Holland Publishing Company.
Delavenay, Emile (۱۹۷۲). La machine a traduire.Paris: PUF.
Dreyfus, H. L. & Dreyfus, S. E. (۱۹۸۹). Mind over machin. Oxford, UK: B. Blackwell.

Katz, J., & Fodor, J. (۱۹۶۳). The structure of a semantic theory. Language, ۳۹, ۱۷۰-۲۱۰.
Katz, J. J., & Postal, P. M. (۱۹۶۴). An integrated theory of linguistic descriptions. Cambridge: MIT press.
Mahmoudi, S. M. (۱۹۹۴). Contribution au traitement automatique de la langue persane. These de doctorat, Universite de Lyon II
Trask, R. L. (۱۹۹۳). A dictionnary of grammatical terms in linguistics. London: Routledge.
پی‌نوشت‌ها
[۱]. Lexical ambiguity
[۲]. Structural ambiguity
[۳]. Boot
[۴]. Weaver
[۵]. Word Order
[۶]. Key words
[۷]. Richens
[۸]. Ending
[۹]. Reifler
[۱۰]. Pre-editing
[۱۱]. Post-editing
[۱۲]. Interactive
[۱۳]. Osvald
[۱۴]. Fletcher
[۱۵]. Dostert
[۱۶]. Garvin
[۱۷]. Polysemy
[۱۸]. Subworld
[۱۹]. Scripts
[۲۰]. Scenario
[۲۱]. Homonymy
[۲۲]. Context
[۲۳]. Noun Phrase
[۲۴]. Harris
[۲۵]. Paradigmatic axe
[۲۶]. Syntagmatic axe
[۲۷]. Recursive
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران


همچنین مشاهده کنید