یکشنبه, ۱۴ بهمن, ۱۴۰۳ / 2 February, 2025
استفاده ار فناوری تشخیص گفتار متداول می شود
با بانک خود تماس میگیرید. صدای یک نوار را میشنوید: « برای اطلاع از میزان پول در حساب کلید ۱، برای تغییر رمز کلید ۲ و ...» شما هم از این که میتوانید از فناوری روز استفاده کنید خوشحال میشوید و اطلاعات مورد نظر را کسب میکنید؛ اما آیا میدانید که در بعضی کشورهای دیگر برای ارتباطات این چنینی از فشردن دکمههای تلفن استفاده نمیکنند؟
در این کشورها افراد حتی زحمت چنین کاری را به خود نمیدهند بلکه به راحتی منظور خود را میگویند و سیستم کار را انجام میدهند. در واقع با استفاده از سیستم تشخیص گفتار یا Speech Recognition این اتفاق روی میدهد. لابد میگویید این موضوع تازهای نیست و مدتهاست که این حرفها زده میشود. حق با شماست. بیش از یک دهه است که محققان سعی میکنند تا صوت را به عنوان یک ورودی رایانه تعریف کنند. حالا به نظر میرسد این تحقیقات به نتایج خوبی رسیدهاند.
طی این سالها تلاش زیادی روی تشخیص گفتار صوت صورت گرفت. اما با توجه به عوامل زیادی که در این الگوریتم موثر هستند، همواره عملیات تشخیص با خطا روبه رو بوده است. تارهای صوتی انسان خصوصیاتی غیر خطی دارند و از طرف دیگر عملیات آنها کاملا در اختیار نیست، بلکه عوامل مختلفی از جنسیت تا حالت عاطفی فرد در آن تاثیرگذار است. در نتیجه تلفظ صوتی میتواند به لهجه، طرز تلفظ، طرز گفتار و میزان شمرده بودن آن، درشتی صدا، تودماغی حرف زدن، زیر و بمی صدا، درجه صدا (بلندی) و سرعت ادای کلمات بستگی داشته باشد. علاوه بر اینها از آنجا که معمولا افراد در محیطی صحبت میکنند که صداهای محیطی نیز وجود دارد، این مسئله پیچیدهتر میشود به شکلی که تشخیص گفتار حتی از تولید گفتار سخت تر و پیچیدهتر میشود.
دقت یک سیستم تشخیص گفتار بستگی به شرایط تست دارد. در شرایط محیطی و گفتاری خاص یک سیستم بسیار خوب عمل میکند اما در شرایط عمومی این دقت کاهش مییابد. این شرایط ابعاد گوناگونی دارند که میتوان به اختصار به بعضی از آنها اشاره کرد.
حجم فرهنگ لغت: به عنوان یک قانون عمومی تشخیص یک کلمه ازمیان یک مجموعه کوچک بسیار ساده است اما وقتی حجم فرهنگ لغت بالا میرود میزان خطا افزایش مییابد؛ مثلا اگر شما تنها کلمات صفر تا ۹ را ادا کنید و بخواهید یکی از همین ۱۰ کلمه را تشخیص دهید، این کار با دقت خوبی انجام میپذیرد اما اگر تعداد کلمات به ۲۰۰، ۵۰۰۰ یا ۱۰۰هزار برسد، میزان خطا افزایش بسیار زیادی خواهد داشت.
مستقل یا وابسته به گوینده: یک سیستم وابسته به گوینده تنها برای یک فرد خاص طراحی شده است اما در یک سیستم مستقل، هر فردی میتواند گویندگی را به عهده بگیرد و سیستم باید بتواند تشخیص دهد. مشخص است که یک سیستم مستقل از گوینده بسیار مشکلتر است و طبعا میزان خطای آن نیز بیشتر است و بین ۳ تا ۵ برابر میزان خطای سیستم وابسته به گوینده است.
▪ گفتار مجزا، مقطع یا پیوسته: منظور از گفتار مجزا بیان تک کلمه است. گفتار مقطع گفتاری است که جملات کامل اما با سکوتهای مصنوعی در میان ادای هر دو کلمه بیان میشوند. گفتار پیوسته همان شیوه معمولی بیان کلمات است. تشخیص گفتار مجزا و مقطع بسیار سادهتر میسر میشود چون کلمات بهتر و راحتتر تشخیص داده میشوند؛ اما در گفتار پیوسته بعضی اصوات حذف میشوند یا تغییر پیدا میکنند. بنابراین تشخیص این نوع بسیار مشکلتر است.
▪ گفتار آماده یا اتفاقی: در صورتی که فرد جملات خود را مطابق متنی از پیش آماده بخواند عملیات تشخیص بسیار سادهتر از زمانی است که فرد جملات را فیالبداهه ادا میکند، چون در حالت دوم فرد ممکن است مکث کند، بعضی اصوات نامفهوم را ادا کند و یا حتی بخندد یا سرفه کند.
متوجه شدهاید که عوامل بسیار متفاوتی در کار تاثیر گذار هستند و لذا الگوریتمهای پیچیدهای هستند. این الگوریتمها را میتوان در گروههای زیر دسته بندی کرد:
▪ مبنی بر الگو: در این گروه از الگوریتمها، گفتار ورودی با الگوهای از پیش ضبط شده مقایسه میشوند تا بهترین تطبیق یافت شود. دقت این گروه در ارتباط با الگوهای موجود خوب است، اما به هر حال تعداد الگوها ثابت است و اگر بخواهیم با توجه به شرایط گفته شده برای هر کلمه الگوهای متفاوتی را قرار دهیم، به طور عملی غیر ممکن است.
▪ مبتنی بر دانش و آگاهی: در این الگوریتمها سعی میشود مهارت انسان در تشخیص گفتار شبیه سازی شود و در سیستم تعبیه شود. این شیوه اگرچه به نظر بسیار خوب به نظر میرسد، اما به دست آوردن این مهارتها و استفاده از آنها در سیستم تشخیص گفتار به راحتی میسر نیست و در واقع این روش غیرعملیاتی به حساب میآید.
▪ مبتنی بر آمار: در این روشها، تغییرات در گفتار به صورت آماری مدل میشوند و این تغییرات آماری کمک میکند تا سیستم تشخیص گفتار امکان یادگیری تدریجی داشته باشد. اما در سیستمهای جدید تشخیص گفتار با استفاده از شبکههای گسترده عصبی و روشهای مبتنی بر آمار نتایج بسیار دقیقتر و بهتری گرفتهاند. در حال حاضر بسیاری از شرکتهای مهم مانند IBM و مایکروسافت روی این سیستمها سرمایه گذاری کردهاند و به نتایج بسیار خوبی رسیدهاند. یکی از این سرویس دهندگان تلفن همراه در کشورفرانسه یک پورتال صوتی راه اندازی کرده است و اخبار و نتایج مسابقههای ورزشی را از این طریق در اختیار مشترکان خود قرارمیدهد. شرکت ماشین سازی هوندا نیز یک سیستم راه نوردی با کمک صوت راهاندازی کرده است تا رانندگان بهتر بتوانند خودرو را هدایت کنند. با این پیشرفتها به نظر میرسد که در آیندهای نه چندان دور فناوری تشخیص گفتار بخشی از زندگی و کار هر روزه ما خواهد شد
نویسنده : سید محمد رضا رشتی
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست