جمعه, ۲۳ آذر, ۱۴۰۳ / 13 December, 2024
مجله ویستا
OCR، آموزش الفبای فارسی به رایانه
رایانه تنها یک ابزار است، و ما انسانها میباید شیوة کار کردن را به او بیاموزیم، و امکانات کار را هم برایش فراهم آوریم، نرمافزارهای مختلف به همین منظور طراحی میشوند. یکی از آنها نرمافزار OCR است که برای تشخیص و بازیابی الفبا (نوشتههای دستنویس یا تایپشده) توسط کامپیوتر طراحی میشوند.
اگر هر یک از ما به طور متوسط ۷۰ تا ۸۰ سال عمر کنیم مجموع روزهای زندگیمان بین ۲۵هزار تا ۲۹هزار روز میشود. حال اگر به ما بگویند نرمافزاری تولید میشود که میتواند بسیار بیشتر از عمر چندین و چند انسان در وقت صرفهجویی کند حتماً از آن استقبال میکنیم، مگر آنکه برای چند صدبرابر روزهای عمرمان ارزشی قائل نباشیم!
نرمافزار OCR قادر است چنین تحولی را در استفاده وقت بشر به وجود آورد. این نرمافزار میتواند متنهای دستنویس یا متونی را که قبلاً تایپ شدهاند و اکنون فایل تایپی آنها موجود نیست، خود به تنهایی و بدون دخالت انگشتان هیچ تایپیستی تایپ کند. فرض کنید که مثلاً میخواهیم متن مقالات روزنامه اطلاعات سال ۱۳۴۰ شمسی را (که اکنون نه تنها فایل تایپیاش موجود نیست ــ چون آن زمان اصلاً تایپ کامپیوتری در کار نبود! ــ بلکه خود نسخههای روزنامه را هم به زحمت میتوان پیدا کرد) تایپ دیجیتالی کنیم، و این متنها را داخل بستههای نرمافزاری یا اینترنت قرار دهیم. اگر هر شماره از روزنامه را ۲۴ صفحه فرض کنیم، و هر تایپیست بتواند در هر روز حداکثر یک صفحه از آن صفحات کاهی و کهنه شدة قدیمی را دوباره تایپ کند، مجموعاً ۲۴ روز لازم است تا تنها مقالات یک شماره از روزنامه تایپ شود. بنابراین در عرض یک سال یک نفر میتواند تنها ۱۵ شماره از روزنامه را تایپ کند. حال اگر نرمافزاری باشیم که بتواند با اسکن کردن هر صفحة روزنامه، به طور خودکار مقالات آن را تایپ کند، تحولی عظیم رخ میدهد، یعنی مطالب و مقالات هزاران شماره از روزنامههای قدیمی به سرعت وارد فایلهای رایانهای میشود. حال این امکان را تعمیم بدهید به هزاران کتاب و دستنویسهای قدیمی یا جدید، که هر کس بخواهد تنها یک صفحه از آنها را تایپ کند، باید کلی وقت صرف کند. میبینید که نرمافزار OCR براستی میتواند هزاران هزار روز در وقت ما صرفهجویی کند، و البته هزینهها را هم کاهش دهد. البته فقط یک مشکل کوچک به وجود میآید و آن بیکار شدن تایپیستهاست!
● OCR در ایران چگونه آغاز شد؟
امان از دست این تیزهوشان! ماجرا از ثبتنام داوطلبان آزمون «سازمان ملی پرورش استعدادهای درخشان (تیزهوشان)» در سال ۱۳۸۰ آغاز شد. ثبتنام از روی فرمهایی که توسط دانشآموزان تکمیل میشد انجام میگرفت. دانشآموزان شرکتکننده در آزمون ــ مانند آزمونهای سراسری ــ باید نام، نام خانوادگی، نام پدر، نام شهرستان محل تولد و سکونت، نام مدرسه و دین خود را در داخل کادرهای مربعی شکل و به صورت حروف مقطع (یعنی هر حرف داخل یک کادر) مینوشتند. وقتی که همة فرمها از طریق پست به سازمان مرکزی برگزارکننده آزمون میرسید، عدة زیادی تایپیست متن آنها را دوباره وارد رایانه میکردند. در واقع همان حرفهای داخل کادر را دوباره تایپ میکردند تا اطلاعات شناسنامهای هر دانشآموز به صورت دیجیتالی درآید. این روش هم بسیار زمانبُر بود و هم نیاز به تعداد زیادی تایپیست داشت. احتمال داشت که تایپیستها هم هنگام تایپ اشتباه کنند و با ثبت نادرست یک نام، مشخصات فردی در رایانه مرکزی وارد شود که اصلاً متولد نشده است! مثلاً فرض کنید تایپیست محترم نام «جواد» را، که داخل کادرها به صورت «ج.و.ا.د» نوشته شده بود، «فؤاد» تایپ میکرد؛ در آن صورت در کارت شناسایی جواد سابق، فؤاد فعلی ثبت میشد! (جوادِ موجود حذف میشد و فؤاد ناموجود وارد فهرست داوطلبان میشد!) افزون بر این، هزینة کار نیز بسیار زیاد بود.
به علت همین مشکلات، در بهمنماه ۱۳۸۰، نخستین طرح OCR برای بازشناسی حروف فارسی توسط کامپیوتر ارائه شد و در سالهای ۱۳۸۱ و ۱۳۸۲ نیز ثبتنام آزمون تیزهوشان به یاری این نرمافزار انجام شد.
● OCR چیست؟
OCR سرنام اصطلاحی است که صورت کامل آن در واژهنامههای انگلیسی به دو صورت آمده است:
۱) Optical Character Recognition
۲) Optical Character Reader
فرض کنید که ما متنی را روی کاغذ داریم و میخواهیم آن را وارد رایانه کنیم. اولین روشی که به ذهن میرسد این است که متن را به تایپیست بدهیم تا با کامپیوتر تایپ کند. اما آیا میشود عین همان متن را وارد رایانه بکنیم تا نیازی به تایپ نباشد؟ البته دستگاه «اسکنر» میتواند تصویری از آن متن را وارد رایانه کند، تا اینجا بخشی از مشکل ما حل شده است. اما رایانه که نه عقلی دارد و نه «زبان» میفهمد، نمیتواند حروف و کلمات را از هم تشخیص دهد. مثلاً اگر از کامپیوتر بخواهیم به ما بگوید که در متن اسکنشده کلمة «علی» چند بار آمده است، بیآنکه شرمنده شود، میگوید: «error»، یعنی: «نمیتوانم تشخیص بدهم!» در واقع این «تصویر دیجیتالشده» باید به «تصویر قابل پردازش» تبدیل شود. موضوع اصلی OCR همین است.
● انواع OCR
در زبانهای دیگر، به ویژه زبانهایی که با حروف لاتینی نوشته میشوند، سالهاست که از OCR استفاده میشود. اما در ایران تازه دو سه سالی است که به فکر استفاده از OCR در زبان فارسی افتادهایم.
و اما OCR چند نوع است: یا تایپی است یا دستنویس. یعنی یا باید یک متن قبلاً تایپ شده را (مثل کتابها و روزنامههای چندین سال قبل، یا حتی متنی را که فایل تایپی آن موجود نیست و فقط پرینت آن را داریم) وارد رایانه کنیم، یا متن دستنویس را. متنهای دستنویس هم به دو صورت «گسسته» و «پیوسته» وجود دارند: متن «دستنویس پیوسته» مثل همان چیزهایی است که ما هرازگاهی که دلمان تنگ میشود روی کاغذ مینویسیم، یا یک نامه، یا یک قطعه شعر و ... اما متن «دستنویس گسسته» همان نوشتههایی است که حروف آن جدا از هم و به صورت گسسته نوشته شدهاند، مثل نام و نامخانوادگی که در فرمهای آزمون ثبتنام، به صورت هر حرف داخل یک کادر، نوشته میشوند. طراحی OCR گسستة فارسی تقریباً در مراحل پایانی کار قرار دارد ولی، OCR پیوسته ظاهراً سالهای زیادی کار میبرد.
«رضا صدیق» و «پرویز رزازی»، که در رشتة مخابرات تحصیل کردهاند و مسئولان یک شرکت کامپیوتری به نام «اندیشه نرمافزار پایا» هستند، برای اولین بار به طور جدی پروژة OCR فارسی را دنبال کردهاند. رزازی که دانشجوی مخابرات و مسئول بخش پردازش سیگنال شرکت «پایا» و مدیر پروژة OCR در این شرکت است، میگوید : « OCR در دنیا موضوعی ناشناخته نیست، و بر روی آن زیاد کار شده است، ولی در ایران با آنکه مدتهاست روی آن کار شده، اما بسیاری از این کارها در حد کارهای دانشگاهی و مقالههای علمی باقیمانده بود و تبدیل به یک محصول کاربردی در ابعاد وسیع (مثل ثبتنام آزمونهای بزرگ) نشده بود. ما بر روی این طرح کار کردیم و هدفمان هم این بود که محصول را به شکل صنعتی آن تولید کنیم.»
البته غیر از شرکت «پایا»، دو شرکت دیگر نیز با حمایت دبیرخانه طرح «تکفا» (توسعه کاربرد فناوری اطلاعات و ارتباطات) مشغول پژوهش و آزمایش بر روی OCR فارسی هستند. یکی از این شرکتها «دادهپردازان دوران نوین» نام دارد که مدیریت آن را دکتر «حسام فیلی» بر عهده دارد. دکتر فیلی متخصص در رشتة هوش مصنوعی، از دانشگاه صنعتی شریف، است و شرکت «دوران نوین» را از سال ۱۳۸۱، با هدف کار تخصصی بر روی پروژههای هوش مصنوعی تأسیس کرده است. او دربارة چگونگی پیوستن شرکتش به این طرح میگوید: «از تیرماه سال ۸۲ با شروع فعالیت طرح «تکفا» و حمایتهای مالی آنها، این شرکت تصمیم گرفت که در زمینة طراحی OCR فارسی پژوهش و فعالیت کند. این پروژه در شرکت «دوران نوین» با همکاری آقای «دکتر ابراهیمی مقدم» که او هم از دانشجویان دورة دکتری هوش مصنوعی دانشگاه صنعتی شریف است، انجام میگیرد.
● فارسی ما و مشکلات آن
قبل از اینکه به مراحل دیگر OCR بپردازیم، لازم است اندکی هم به مشکلات خط فارسی ــ یا در واقع ویژگیهای این خط ــ بپردازیم. اول اینکه ما در فارسی حروف را به صورت چسبیده و پیوسته مینویسیم و این کار برای تشخیص حرف به حرف نوشته از سوی رایانه (که قرار است در مراحل بعدی آن را تایپ کند) بسیار مشکل است. تصور کنید که همین کلمه ساده «است» را به حالتهای مختلف میشود نوشت: یکی برای «س» دندانه میگذارد، یکی نمیگذارد، یکی آن را میکشد و یکی نمیکشد و... حالا اگر همین صورتهای مختلف «س» به «ت» هم بچسبند، تشخیص حروف برای ما انسانها هم سخت میشود، چه رسد به رایانه.
● شباهت حروف
مشکل دیگر خط ما این است که حرفهای فارسی بسیار به هم شبیهاند. مثلاً در نظر بگیرید که تفاوت «ر» با «ز» با «ذ» یا «ب» با «ت» تنها در یک نقطه است، و چون نقطه جزء بسیار کوچکی است، اگر یک خط یا حتی یک لک کوچک روی کاغذ بیفتد، تشخیص حروف از هم بسیار دشوار میشود و دردسر جدی برای بازشناسی حروف توسط رایانه ایجاد میکند. اینها تازه مشکلات خط فارسی است. دربارة اعداد فارسی هم این مشکل وجود دارد: صفر ما یک نقطه کوچک است که میتواند رایانه را به اشتباه بیندازد؛ اعداد ۴، ۳، ۲، ۱ هم بسیار به هم شبیه هستند و تنها تفاوتشان یک دندانه کوچک است.
به دلایل گفته شده OCR درمرحلة کنونی در کشور ما مربوط به «دستنویسهای گسسته» یا متنهای تایپی پیوسته است، و تا بازشناسی متنهای دستنویس پیوسته توسط کامپیوتر راه زیادی در پیش است، چون در دستنویسهای گسسته، اگرچه حروف به هم شباهت دارند، حداقل جداجدا نوشته شدهاند. در متنهای پیوسته تایپی هم مشکل کشیده شدن یک حرف یا شکسته نوشته شدن حروف را نداریم. البته به گفته مسئولان شرکت «پایا» در حال حاضر هم نرمافزارهایی وجود دارد که متن دستنویس پیوسته را تبدیل به حروف جدا ازهم و گسسته میکنند، ولی ضریب خطای این نرمافزارها زیاد است و به شکل صنعتی درنیامدهاند.
● بازشناسی حروف و الگو
تا اینجا گفتیم تصویر صفحهای که در آن حروف به طور جداجدا (هر حرف داخل یک کادر) نوشته شده است، به وسیلة اسکن وارد رایانه میشود. مرحلة بعدی این است که حروف بازشناسی شوند، یعنی مکان آنها از دیگر خطوط (مثل خطوط کادری که داخل آن نوشته شده) بازشناسی شود، و اگر متن پیوسته تایپی است، حروف جدا شوند و زواید تصویر حذف شود. مثلاً اگر دانشآموزی «س» را به گونهای نوشت که بیرون از کادر بود، به رایانه بفهمانیم که بیدقتی شده است او باید همان حرف داخل کادر را بخواند. در مرحلة بعدی که «بازشناسی الگو» نام دارد، با تعدادی شرط میشود فهمید که مثلاً حرفی «الف» است یا نه، و رایانه تشخیص میدهد که حرف «پ» است یا «ب». برای این تشخیص لازم است که تصویر حرف «الف» با الفهای نمونه ــ که قبلاً به رایانه داده شده است ــ منطبق شود. الفبای نمونه قبلاً از روی یک مجموعه بزرگ آموزشی تهیه شده و ویژگیهای مشترک از آن استخراج شده است. اما از آنجا که تنوع صورتها نوشتاری یک حرف به صورت دستنویس بسیار زیاد است، مدلی آماری استخراج میشود که در آن شباهت ویژگیهای استخراج شدة قبلی با نمونه ورودی به رایانه بررسی میشود. در اینجا «بازشناسی الگو» با روشهای آماری انجام میشود که روش معمول در سیستمهای OCR است.
اگر فکر میکنید که کار تمام شده است در اشتباهید، چون تازه میرسیم به دنبالة حروف. مثلاً اگر کسی همان حرف «س» را با دنباله بنویسد، رایانه باید تشخیص دهد که این حرف فقط «س» است، یا مثلاً «ی» هم به آن چسبیده است.
● مدلسازی یا پردازش زبانی
مرحله بعدی «مدلسازی زبانی» یا «پردازش زبانی» نام دارد. حروف به هم چسبیده، که کلمه را درست میکنند، باید معنیدار یا شناختهشده باشند. در این مرحله بررسی میشود که چه کلماتی در زبان وجود دارد؟ چه ترکیبهایی از کلمات مجاز است؟ و... البته در مراحل پیشرفتهتر، مدلسازی گرامری (دستور زبان) و مدلسازی معنایی هم وجود دارد که تشخیص میدهد جمله از لحاظ دستوری و معنایی درست است یا بیمفهوم است. اما در OCR گسسته ــ که بیشتر برای ثبتنام استفاده شده ــ شباهت یک کلمه به نام، نام خانوادگی، شهر و ... کافی است.
برای تشخیص ترکیبهای مجاز یک کلمه یا معنیدار بودن یک کلمه نیز به تهیة بانکهای اطلاعاتی (Data base) نیاز داریم. در این بانکها مثلاً تمام نامهای کوچک و بزرگ ایرانیان قبلاً جمعآوری شده است و هنگام تطبیق یک کلمه با آن مشخص میشود که رایانه حروف آن را دست تشخیص داده یا نه. بنابراین نقش این بانک اطلاعاتی بسیار مهم است، چون اگر نامی در آن ثبت نشده باشد، کلمهای که آن نام را شامل شود، به طور خودکار از برنامه OCR حذف میشود یا پیغام میآید که: «این کلمه اشتباه است» در صورتی که ممکن است مثلاً نام «هشام» در بین نامهای ایرانی وجود داشته باشد، ولی قبلاً در بانک اطلاعاتی ثبت نشده باشد.
● بانکهای ما و دیگران
مهندس «رزازی» دربارة مشکل بانکهای اطلاعاتی در زبان فارسی میگوید: «در دنیا برای توسعة OCR و ارزیابی آن، بانکهای اطلاعاتی استاندارد ساخته شده است که در آنها همة کلمات وجود دارند، یعنی بانک هم مشکل دیجیتال کلمه را دارد، و هم تصویرش را. اما برای زبان فارسی، این بانکهای اطلاعاتی چه برای ارزیابی و چه برای توسعه، استاندارد شده نیست. در واقع هر کسی برای خودش یک بانک اطلاعاتی میسازد، و این نمونههای متفاوت مشکلاتی را ایجاد میکند. مثلاً برای ثبتنام دانشآموزانی که در آزمون مدارس تیزهوشان شرکت کرده بودند، یک بانک اطلاعاتی حاوی نامهای فارسی، از روی اطلاعات فرمهای سالهای قبل، تهیه شد که از روی آن کلماتی که خیلی شبیه به نامهای فارسی بودند تشخیص داده میشد. مثلاً اگر رایانه کلمهای را «مصیبت» تشخیص داد، براساس بانک اطلاعاتی معلوم میشود که «مصیب» بوده است که یک نام ایرانی است.
● علی، ولی، قلی ... و سیب
نکتة دیگر این است که یک بانک اطلاعاتی باید شامل تعدادی کلمات خام باشد، بلکه «بسامد» آن واژگان، یعنی میزان استعمال و تکرار کلمات در زبان و مشخصات آماری آنها هم باید ثبت شده باشد، والا کارایی زیادی ندارد. مثلاً «علی» نامی است که شباهت زیادی به «ولی» و «قلی» دارد. کارهای آماری در بانک اطلاعاتی باید طوری انجام شده باشد که تعداد «علی» بیشتر باشد، تا و بعد نوبت «ولی» و «قلی» برسد، چون درصد بسامدی «علی» به لحاظ آماری و کاربرد در میان نامهای بیشتر است.
در OCR فارسی گسسته، اگر فقط مربوط به نامها و نامخانوادگی باشد، کار سادهتر است از حالتی که در OCR پیوسته وجود دارد. چون در OCR پیوسته هر کلمهای ممکن است وجود داشته باشد مثل «سیب»، اما در بانک اطلاعاتی نامها همه میدانیم که سیب نام یک شخص نیست بلکه نام یک میوه است! بنابراین در OCR همواره سعی میشود که درصد خطا کاهش یابد، تا کلمات در حد ممکن درست تشخیص داده شوند. اگرچه طراحان هنوز به صددرصد صحت نرسیدهاند، ولی نگران نتایج آزمون خود نباشید، چون تمامی اطلاعات مربوط به شما چندین بار کنترل میشوند و از سازوکار reject (یا مردودی) در رایانه هم استفاده میشود. در این روش اگر رایانه نتوانست کلمهای را تشخیص دهد، میفهمد که نفهمیده است و در خروجیاش میآورد که: «من این کلمه را نفهمیدهام» و کار به سیستم دستی میرود و در آنجا تصحیح میشود. این فرایند در پست خیلی کارایی دارد. در هر جای دنیا که تفکیک نامهها و دیگر مرسولات پستی به وسیلة OCR انجام میشود، بعضی از نامهها در سیستم کامپیوتری وارد سازوکار «مردودی» میشوند و به طور دستی مورد بررسی مجدد قرار میگیرند. هماکنون در سطح محدودی از OCR در پست کشور ما نیز استفاده میشود، چون در پست هم کد پستی چندرقمی و دیگر اطلاعات به صورت گسسته و داخل کادرهایی نوشته میشود، و کار آسانتر است.
در مورد خطای OCR در تشخیص کلمات، مسئولان شرکت «پایا» نظر جالبی دارند:
«حتی با تعبیة سیستم مردودی (reject) هم ممکن است خطایی در تشخیص کلمات وجود داشته باشد. باید در نظر داشته باشیم که هیچ سیستم پردازشگری (از جمله انسان) بدون خطا نیست. نکته مهم این است که یک سیستم ماشینی درصد خطای کمتری نسبت به انسان داشته باشد تا جایگزین خوبی برای انسان باشد. مسئله این نیست که خطا را به صفر برسانیم. هر قدر که فناوری جلوتر میرود، میزان خطا هم بیشتر کاهش مییابد.»
مدیر شرکت «دوران نوین» هم به گونهای دیگر به همین موضوع اشاره میکند: «انتظار ما از مسئولان طرح «تکفا» آن است که با موضوع OCR واقعبینانهتر برخورد شود، و در بحث مربوط به هزینههای پروژه و انتظاراتی که از OCR میرود، واقعیتها در نظر گرفته شود. دیدگاه کنونی مسئولان تکفا آن است که کل مشکل «خطا» تا ۱۰۰درصد حل شود، در حالی که فکر میکنم حل مسائل مربوط به هوش مصنوعی نیاز به روش تدریجی دارد. مثلاً در زبان عربی هم، نرمافزار «صخر» در نسخة اول خود فقط تا حدود ۴۰درصد دقت داشت، در حالی که اکنون پس از گذشت ۱۳ سال از اولین نسخه آن دقت به مرز ۹۸ درصد رسیده است.»
همانطور که اشاره شد از OCR در ثبتنام آزمون «سازمان ملی استعدادهای درخشان» در سالهای ۸۱ و ۸۲ استفاده شد که از طریق آن ۰۰۰,۴۴۰ نفر به طور ماشینی ثبتنام شدند. این روش باعث شد که در سال ۸۱ (نمونه اول) ۴۵ درصد در هزینهها و ۲۵ درصد در زمان ثبتنام صرفهجویی شود. در سال بعد (۸۲) این رقم به ۵۰ درصد رسید. نرمافزاری که در این آزمونها مورد استفاده قرار گرفت برای هر کدام از موارد صحت بازشناسی متفاوتی داشت و در مجموع کار آن خوب بود (به جدول توجه کنید):
به نظر میآید که در چند سال آینده و با پیشرفت OCR فارسی و کاهش هر چه بیشتر خطای آن، در آزمونهای بزرگتری مانند آزمون سراسری دانشگاهها نیز بتوان از آن استفاده کرد.
● سرنوشت OCR دستنویس
در مورد OCR پیوسته دستنویس نیز روند کار به همان صورتی است که شرح دادیم، اما آنچه کار را دشوارتر میکند، قطعهبندی و جداجدا کردن حروف به هم چسبیده و تشخیص آنهاست. اگر این روند طی شود، این امید وجود دارد که روزی از OCR پیوسته دستنویس فارسی هم در سطح گستردهای استفاده شود. البته OCR پیوسته دستنویس حتی در زبان انگلیسی هم هنوز به کاربرد وسیع و عملی نرسیده است. مهندس «رزازی» دراین مورد میگوید: « OCRانگلیسی در سیستم عامل windows وجود دارد که همراه با office فروخته میشود، ولی فکر نکنید که نامههای اداری انگلیسی که با دستنویس نوشته شدهاند همه با OCR تایپ میشوند. این کار برای به نتیجه رسیدن به حداقل یک روند ۱۰ ساله را باید طی کند. OCR فارسی یک مرحله عقبتر است، پس زمان بیشتری میبرد.»
مهندس «صدیق»، مدیرعامل شرکت «پایا» هم میگوید: «همین OCR فارسی گسسته هم تا چند سال پیش یک رؤیا بود، ولی دیدیم که محقق شده است و به مرور پیشرفتهتر هم خواهد شد. بنابراین طراحی OCR پیوسته فارسی هم، اگرچه سالها طول میکشد، ولی مطمئناً به نتیجه خواهد رسید. این طرح یک طرح تحقیقاتی است که در دانشگاهها دنبال میشود و هنوز به یک محصول صنعتی قابل استفاده در سطح کلان و کاربردی برای عموم نرسیده است. ولی در حال حاضر نمونههای دانشگاهی و آزمایشگاهی آن در داخل کشور وجود دارد و موضوع رساله دکتری برخی از دانشجویان است.»
بنابراین بین ۱۰ تا ۲۰ سال آینده، آنگونه که مسئولان شرکت «پایا» میگویند، OCR پیوسته دستنویس فارسی هم وارد بازار خواهد شد.
دکتر فیلی هم در پاسخ به این سؤال که «آیا طراحی OCR پیوستة فارسی روزی تحقق خواهد یافت؟» پاسخ میدهد: «بله ولی به تدریج.»
به هر حال براساس قرارداد «تکفا» با شرکتهای ایرانی، تا کمتر از یک ماه دیگر، نسخهنهایی (البته نه صددرصد تکمیلشده) OCR فارسی دستنویس گسسته و تایپی پیوسته ارائه خواهد شد. مدیر شرکت «دوران نوین» در این مورد میگوید: «پروژة OCR گسسته در مراحل پایانی خود قرار دارد ولی دارای مشکلاتی در تشخیص انواع اسکنرها و انواع فونتهاست که در حال رفع آن هستیم. این نرمافزار در حال حاضر امکان تشخیص فونتهای تایپی فارسی با دقت زیاد را دارد، ولی مشکل جدی آن است که با اسکنرهای مختلف نتایج نامناسبی میدهد.» وی از اهمیت این طرح در بعد کلان ملی هم میگوید: «با توجه به این که مشکل OCR برای بسیاری از زبانهای دنیا مانند انگلیسی عملاً حل شده است، اگر در کشور ما هم به نتیجة نهایی برسد در افزایش سطح اطلاعات فارسی در دنیای دیجیتالی امروز (از جمله در اینترنت) بسیار اهمیت خواهد داشت.
منبع : مرکز توسعه و تبادل دانش فناوری اطلاعات
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست