جمعه, ۵ بهمن, ۱۴۰۳ / 24 January, 2025
ردیابی نوشته های فارسی در تصاویر
به تصاویری که هر روز در محیط اطرافتان میبینید توجه کردهاید؟ این تصاویر دربردارنده اطلاعات مختلفی است. از گیاه و پرنده و درنده تا خویشاوندان و دوستان، لوگوی شرکتها، محصولات تجاری و صد البته متن! اطلاعات متنی موجود در تصویر ازجمله دادههایی است که برای فردی مسلط به آن زبان به آسانی قابل فهم است و میتواند دربردارنده اطلاعات مهمی درباره محتوای تصویر باشد.
مهندس مریم داراب، دانش آموخته کارشناسی ارشد مهندسی کامپیوتر و فناوری اطلاعات در گرایش هوش مصنوعی از دانشگاه صنعتی امیرکبیر با راهنمایی دکتر محمد رحمتی، سیستمی را طراحی کرده که قابلیت تشخیص و مکان یابی متن را از تصاویر و مناظر طبیعی دارد. با او درباره این سیستم، ویژگی ها و کاربردهایش گفت و گو کرده ایم.
اساسا از چه تکنیک هایی برای تحلیل محتوای تصویر استفاده می شود؟
به طور کلی، برای تحلیل محتوای تصویر از دو تکنیک مختلف استفاده می شود که شامل روش های مبتنی بر ناحیه و روش های مبتنی بر مولفه های موجود در تصویر است. در روش های مبتنی بر ناحیه، تشخیص و مکان یابی متن با استفاده از آنالیز بافتی تصویر انجام می شود. از آنجا که نواحی متن نسبت به غیر متن خصوصیات بافتی مجزایی دارد، این روش ها حتی در پیچیده ترین تصاویر هم از عهده تشخیص و مکان یابی دقیق متون بر می آید. روش های مبتنی بر مولفه های موجود در تصویر هزینه محاسباتی کمی دارند و مؤلفه های متن می توانند به طور مستقیم برای شناسایی مورد استفاده قرار گیرند.
چرا در بین اطلاعات موجود در تصویر، اطلاعات متنی از اهمیت بیشتری برخوردار است؟
در میان اطلاعات مختلفی که در تصویر موجود است، اطلاعات متنی از اهمیت ویژ ه ای برخوردار است، چراکه به آسانی از سوی انسان یا حتی رایانه قابل فهم بوده و امکان توصیف محتوای یک تصویر را فراهم می کند. علاوه بر این، از داده های استخراج شده براساس تحلیل اطلاعات متنی موجود در تصاویر می توان کاربردهای متنوعی نام برد که به انسان در تعامل با طبیعت و صنعت کمک می کند.
تحلیل اطلاعات متنی در چه زمینه هایی کاربرد دارد؟
این سیستم ها در زمینه های مختلف کاربرد دارد. با استفاده از تحلیل اطلاعات متنی انجام فعالیت هایی نظیر شناسایی پلاک خودروها، تشخیص و ترجمه علائم، جستجوی محتوای تصاویر، واقعه نگاری در دنباله های ویدئویی و شاخص گذاری مبتنی بر متن تصاویر به صورت خودکار امکان پذیر است.
سیستمی که شما برای تشخیص متن فارسی در تصاویر مناظر طبیعی طراحی کرده اید در مقایسه با سیستم OCR یا نویسه خوان نوری چه تفاوتی دارد؟
سیستم OCR، به استخراج و پردازش متون در اسناد می پردازد، در حالی که هدف این سیستم، استخراج متون از تصاویر مناظر طبیعی است که با توجه به تنوع فونت، سبک، اندازه، جهت و رنگ متون ، پیچیدگی زمینه در تصاویر مناظر طبیعی و همچنین نورپردازی های مختلف محیط و تاثیر آن روی متون، استخراج متن در این دسته از تصاویر، یکی از مسائل چالش برانگیز در پردازش تصویر است.
تشخیص متن فارسی در تصاویر مناظر طبیعی در چه زمینه هایی کاربرد دارد؟
با پیشرفت تجهیزات تصویربرداری، مانند دوربین های دیجیتال و دوربین های تعبیه شده در تلفن های همراه، کاربردهای سیستم استخراج خودکار متن از تصاویر مناظر طبیعی، روزبه روز بیشتر می شود. سیستم ادراک متن، می تواند به عنوان بخشی از یک سیستم بزرگ، برای ارتباط بهتر بین محیط و انسان مورد استفاده قرار گیرد. که این ارتباط را یک واسط کامپیوتری برقرار می کند. از این سیستم می توان برای کمک به افراد کم بینا و نابینا در درک بهتر محیط اطراف خود و کمک به گردشگران برای تعامل با محیط در یک کشور بیگانه استفاده کرد. علاوه بر این، سیستم تشخیص متن فارسی در تصاویر مناظر طبیعی می تواند در سیستم های کمک راننده و همچنین به منظور بازیابی و شاخص گذاری تصاویر مبتنی بر محتوا یا جستجوی تصاویر مبتنی بر کلمات کلیدی کاربرد داشته باشد. این سیستم در درک بهتر محیط اطراف به ربات ها کمک می کند. پردازش و خواندن اتوماتیک اسناد، تشخیص پلاک خودرو ها، نظارت و جستجوی خودکار، سیستم های انتقال هوشمند، آنالیز اسناد حاصل از دوربین و اتوماسیون کارخانه ها از دیگر قابلیت های این سیستم است. به این ترتیب می توان گفت این سیستم می تواند در زمینه های متعددی کاربرد داشته باشد.
چگونه می توان از این سیستم در خودروهای بدون سرنشین استفاده کرد؟
همان طورکه گفتیم، این سیستم امکان ادراک خودکار متون موجود در محیط اطراف، مانند علائم هشدار و تابلوهای راهنما را فراهم می کند. برای مثال، یک علامت ایست در یک چهارراه بدون وجود علائم صوتی، یک موضوع مهم است که این سیستم می تواند این علامت را شناسایی و خودرو را متوقف کند.
و گردشگران از این سیستم چه استفاده ای می کنند؟
این سیستم همچنین، می تواند در کمک به گردشگران بسیار موثر باشد، چراکه به دلیل استفاده نکردن از یک زبان بین المللی در بسیاری از کشورها، از جمله ایران، گردشگران معمولا در تعامل با محیط، با مشکلات جدی زبانی روبه رو می شوند. این سیستم می تواند بخشی از سیستم بزرگ تری مانند یک گوشی تلفن همراه باشد و با تصویر برداری از محیط و تشخیص وجود متن در تصاویر و تعیین دقیق محل متن و سپس تقطیع متن از زمینه و شناسایی آن، درک متن موجود در تصاویر را ممکن سازد. سپس متن شناسایی شده به زبان مقصد ترجمه شده و آن را روی یک مانیتور نشان داده یا به صورت یک پیغام صوتی پخش کند.
فکر می کنید این سیستم تا چه اندازه می تواند مورد توجه کاربران ایرانی قرار گیرد؟
هدف از طراحی این سیستم، تشخیص متون فارسی در تصاویر مناظر طبیعی است. در کارهای قبلی، تشخیص متون به زبان های انگلیسی، چینی و بسیاری از زبان های زنده دنیا انجام شده است، اما تا به حال سیستمی برای درک متن فارسی موجود در تصاویر طبیعی ایجاد نشده بود. زبان متن در این سیستم، فارسی انتخاب شده است که می توان از آن به نحو مطلوبی استفاده کرد. ما به چند دلیل، زبان فارسی را انتخاب کرده ایم؛ زبان فارسی یکی از زبان های زنده و مطرح است و با بسیاری از زبان های دیگر کاملا متفاوت است. همچنین وجود ۵۵۰ هزار نفر در ایران که دچار اختلال در بینایی هستند، می تواند دلیل خوبی برای انتخاب زبان فارسی باشد و طراحی چنین سیستمی می تواند کمک قابل توجهی به آنها کند.
گردشگران معمولا در کشورهای فارسی زبان از جمله ایران، با مشکلات زبانی جدی روبه رو هستند، چراکه زبان انگلیسی در این کشورها مرسوم نیست. علاوه بر این به دلیل نزدیکی زبان فارسی به زبان های عربی، اردو و پشتو امکان استفاده از روش های تشخیص متن فارسی برای متن هایی به این زبان ها وجود دارد. زبان رسمی کشور ما فارسی است و این طرح پژوهشی می تواند خدمتی برای کشورمان محسوب شود.
متن خوان دیجیتال
اگر بخواهید اطلاعات یک متن کاغذی را وارد کامپیوتر کرده و در تهیه گزارش از اطلاعات آن استفاده کنید، نخستین راهی که پیش روی شما قرار دارد این است که متن موجود را دوباره تایپ کنید که این کار بویژه وقتی بخواهید حجم انبوهی از اسناد مکتوب را به فرمت دیجیتال تبدیل کنید، بسیار وقت گیر است، اما با گسترش فناوری و استفاده از اسکنرها برای تصویربرداری از روی اسناد اغذی و تبدیل آن به تصاویر دیجیتال می توان این کار را به فناوری سپرد. یکی از معایب این روش، نبود امکان جستجو در داخل متن این اسناد و بهره برداری از آنهاست. اینجاست که با بهره گرفتن از نرم افزار OCR یا نویسه خوان نوری این مشکل هم برطرف می شود. اساس عملکرد این سیستم بر شناسایی محتوای متنی ثبت شده در تصویر دیجیتال اسناد است. فرآیندی که به طور خودکار تصویر تهیه شده از یک صفحه کتاب را به متن تبدیل می کند.تا امروز الگوریتم های مختلفی برای OCR نوشته شده است، اما اصلی ترین مشکل این قبیل نرم افزارها وجود الفباهای مختلف در سراسر دنیا میباشد. نرم افزاری که بتواند الفبای لاتین را از تصویر استخراج کند، سال هاست تولید و توسعه داده شده، اما زبان فارسی در تمام این سال ها حسرت یک OCR قوی و دقیق را می خورده است؛ حسرتی که با چینی ها، کره ای ها، هندی ها و عرب ها به اشتراک گذاشته شده بود.
فرانک فراهانی جم
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست