چهارشنبه, ۲۴ بهمن, ۱۴۰۳ / 12 February, 2025
مجله ویستا
پردازش گفتار؛ مرور چند راهکار
پردازش گفتار بهعنوان یکی از زیرشاخههای پردازش سیگنال، به سرعت در حال گسترش است. تکنیکهای پیچیده و نوآوریهای روزافزون این دانش، همگی در راستای دستیابی به این آرزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد. در این مقاله، به بیان خلاصهای از انواع روشهای پردازش گفتار میپردازیم.
هدف بلندمدت سیستمهای بازشناسی خودکار گفتار، طراحی ماشینی است که سیگنال صوتی مربوط به یک جمله بیان شده را به دنبالهای از کلمات نوشته شده تبدیل نماید. سیستمهای بازشناسی خودکار گفتار اطلاعات متنوعی از منابع دانش گوناگون را در جهت دستیابی به جمله بیان شده از روی سیگنال صوتی دریافت شده، بهکار میگیرند.
اما مشکلات متعددی در بازشناسی گفتار پوسته بدون قید وجود دارد که عبارتند از:
۱. تحتتأثیر قرار گرفتن کیفیت سیگنال صوتی بهوسیله نویز محیط و تابع انتقال سیستم انتقال مانند میکروفون، تلفن و...،
۲. عدم وضوح مرز مابین کلمات و واجها در سیگنال صوتی،
۳. تنوع وسیع سرعت بیان،
۴. دقت ناکافی در بیان کلمات و بهخصوص انتهای آنها در گفتار محاورهای نسبت به گفتار مجزا.
۵. تأثیر تنوعات متعدد گوینده از جمله جنسیت، شرایط فیزیولوژیک و روانی بر گفتار،
۶. بهکارگیری محدودیتهای معنائی ـ نحوی زبان برای گفتار زبان طبیعی به روشی مشابه ارتباط انسان با انسان در سیستم بازشناسی.
در جهت غلبه بر مشکلات مذکور تاکنون روشهای متنوعی پیشنهاد شده است که از جمله آنها روشهای آماری مبتنی بر قانون تصمیمگیری بیز، روشهای مبتنی بر شبکه عصبی و در برخی موارد ترکیب روشهای آماری و شبکه عصبی است. با بررسی روشهای فوق میتوان دریافت که شناسائی کلمه یا واج بدون خطا بدون استفاده از دانش سطوح بالاتر بهخصوص در بازشناسی گفتار پیوسته با حجم لغتنامه بزرگ، امکانپذیر نیست. بهعنوان یک نتیجه، یک سیستم بازشناسی گفتار که با انبوهی از فرضها درباره واجها، کلمات و جملات مواجه است. در حالت ایدهآل بایستی محدودیتهای سطوح بالا را که بهوسیله واژگان، نحو، معانی و ادراک مشخص میشود، در نظر بگیرد. در سیستمهای مبتنی بر قانون تصمیمگیری بیز برخی از این محدودیتها توسط مدل زبانی به سیستم بازشناسی اعمال میشود.
نتایج مطالعات و بررسیها نشان داده است که مدلهای زبانی که در حالت کلی توالی واحدهای زبانی را مدل میکنند، در کاهش خطای بازشناسی نقش عمدهای ایفا میکنند. در این میان، استفاده از مدلهای زبانی مبتنی بر شبکههای عصبی با وجود قابلیت این شبکهها در یادگیری زنجیره نمادها و نیز بهدلیل قابلیت هموارسازی و خاصیت تعمیمدهی آنها بر روشهای آماری مزیت دارد.
● ضرورت انجام پروژه
باتوجه به کاربرد وسیع و روزافزون سیستمهای بازشناسی گفتار همواره نیاز به طراحی سیستمهائی با صحت بازشناسی بالا احساس میشود. این مسئله بهنوبه خود زمینههای تحقیقاتی فراوانی را باز کرده است که توجه پژوهشگران زیادی را به این شاخه جلب کرده است.
توجه به ساختار سلسله مراتبی گفتار در مغز انسان و پردازشهای دوطرفه در آن (تأثیر متقابل لایهها)، بنای مدلی با قابلیتهای سلسه مراتبی و پردازش دوطرفه جهت بهبود کیفیت بازشناسی تداعی مینماید. در ساختار مذکور توالیهای معتبر در هر لایه میتواند نقش تعیینکنندهای در شناسائی زنجیره ورودی در لایه پائینتر داشته باشد. مدلهای زبانی موجود از نگاهی دیگر به این مسئله توجه کردهاند و تأثیر مدل کردن توالی واحدهای زبانی، در بالا رفتن صحت بازشناسی را نشان دادهاند. در برخی پروژهها، هدف ارائه مدلهای زبانی در یک ساختار سلسله مراتبی و با الهام از سیستم درک گفتار انسان جهت بالا بردن صحت بازشناسی و تصحیح توالیهای بازشناسی شده است که در عین حال شیوههای کلیدی و مؤثر بیان شده توسط محققان دیگر را نیز در بر میگیرد.
● مروری بر کارهای انجام شده
مدلسازی آماری زبان:
مدلهای زبانی که به منظور بازشناسی گفتار و دیگر فنآوریهای زبانی بهکار برده میشوند، برای اولینبار در سال ۱۹۸۰ مطرح شدند. از آنزمان تاکنون تلاشهای فراوانی برای اصلاح و توسعه این مدلها به جهت کاربرد در سیستمهای پیشرفته امروزی صورت گرفته است. مدلهای آماری زبان توزیع احتمال واحدهای زبانی مختلفی مانند آواها، کلمات و جملات یک متن را محاسبه مینمایند.
مدلسازی زبان، تلاشی در جهت تسخیر قواعد زبان طبیعی به منظور بهبود کارآئی کاربردهای مختلف زبان طبیعی است. مدلهای زبانی برای کاربردهای مختلفی از فنآوری زبان از جمله بازشناسی گفتار، ترجمه ماشینی، طبقهبندی متون، بازشناخت نوری کاراکترها، بازشناسی دستنوشته و تصحیح هجا و... بهکار گرفته شدهاند.
بهعنوان نمونه در ترجمه ماشینی روشهای آماری محض و روشهای مبتنی بر قانون بهکار گرفته شدهاند.
مدلهای آماری زبان از روی دادگان متنی، پارامترهای بسیار زیادی را تخمین میزنند و بنابراین به حجم بالائی از دادگان تعلیم نیاز دارند. موفقترین فنآوری SLM دانش بسیار محدودی را از آنچه که یک زبان بهراستی است، در نظر میگیرد. مشهورترین مدلهای زبانی (N گرمها) واقعیتی را مدل میکنند که زبان نیست، بلکه دنبالهای از نمادها است و هیچ ساختار عمیقی ندارد.
در ادامه برخی از فنآوریهای بهروز SLM مرور میشود:
تقریباً تمامی مدلهای آماری زبان احتمال یک جمله را به حاصلضرب احتمالهای شرطی تجزیه مینمایند.
مدلهای N گرم
N گرمها یکی از مشهورترین مدلهای آماری زبان هستند. در این مدلها با بزرگتر شدن N با وجود در نظر گرفته شدن ارتباطات بلندمدت زنجیره کلمات، مشکل نیاز به حجم بالای دادگان تعلیم جهت آموزش مدل بهوجود میآید. بسیاری از زنجیرههای مهم در دادگان تعلیم یا یکبار یا به دفعات کمی اتفاق میافتند. بنابراین تخمین احتمالهای N گرمها بهوسیله شمارش تعداد دفعات وقوع یک زنجیره صورت میگیرد، روش مناسبی نیست. برای رفع این نقیصه، روشهای هموارسازی متعددی تهیه و توسعه داده شدهاند.
از جمله این روشها میتوان به موارد زیر اشاره کرد:
۱. نزول به N گرمهای مرتبه پائینتر بهصورت بازگشتی.
۲. درونیابی خطی N گرمها.
۳. استفاده از N گرمهای با طول متغیر.
مدلهای درخت تصمیم:
الگوریتمهای درخت تصمیم اولینبار برای مدلسازی زبانی بهکار گرفته شد.
مدلهای با انگیزه زبانی:
با وجود آنکه تمام SLMها از ذات زبان الهام میگیرند، ولی در بیشتر این مدلها محتوی زبانی نادیده انگاشته میشوند. در این میان برخی از مدلهای SLM بهصورت مستقیم از روی دستور زبانی که بهصورت معمول توسط زبانشناسها بهکار گرفته میشود، بهدست میآید که از این دسته دستور زبان مستقل از محتوی و گرامر متصل را میتوان نام برد.
مدلهای نمائی:
تمامی مدلهائی که تاکنون بررسی شدهاند، از این مشکل که مدلسازی با جزئیات بیشتر، کاهش دادگان برای پارامترهای جدید را به همراه دارد، رنج میبرند.
مدلهای تطبیقی:
در مدلهائی که تاکنون ذکر شد، زبان یک منبع همگن فرض شده است. ولی در واقعیت زبان بسیار غیرهمگن است. در تطبیق تقاطع دامنه، دادگان تست از منبعی بهغیر از منبعی که در طول تعلیم مدل زبانی از روی آن بهدست آمده، هستند.
در تطبیق درون دامنه دادگان تست از همان منبع تعلیم مدل زبانی هستند، اما این منبع غیرهمگن است.
تطبیق در چنین مواردی بهصورت زیر انجام میگیرد:
۱. پیکره تعلیم براساس بعد تنوع دستهبندی میشود.
۲. در هنگام اجراء بر روی دادگان تست، موضوع شناسائی میشود.
۳. مجموعه موردنظر از دادگان تعلیم، برای ساختن مدل مشخصی بهکار گرفته میشود.
۴. مدل جدید با مدل قبلی، بهوسیله درونیابی خطی ترکیب میشود.
● مدلهای زبانی اتصالگرا:
در سال ۱۹۸۹ ناکامورا و شیکانو بهصورت تجربی نشان دادهاند که چگونه یک پرسپترون چندلایه میتواند قابلیت پیشبینی مدل سه گرم به انضمام قابلیتهای بهتر تعمیمدهی را شبیهسازی نماید. در کار دیگری برای غلبه بر دو مشکل اساسی مدلهای N گرم یعنی:
۱. کوچک بودن N سبب میشود تا ارتباطات بلندمدت واحدهای زبانی در نظر گرفته نشود.
۲. بزرگ شدن N، حتی در مدل سه گرم سبب میشود تا احتمالات تخمینزده شده، به خاطر اینکه بسیاری از ترکیبات اتفاق نمیافتد یا کمتر اتفاق میافتد، قابل اعتماد نباشد.
یک شبکه عصبی پرسپترون با دو لایه پنهان به نام NETGram برای استخراج مدل زبانی دو گرم، سه گرم و چهارگرم بهکار گرفته شده است. در این روش با دستهبندی کلمات در قالب بخش نحوی، نیاز به حجم بالای دادگان برای تعلیم شبکه حل شده است. از مزایای مدل مذکور و در حالت کلی مدلهای زبانی اتصالگرا نسبت به مدلهای زبانی آماری، افزایش خطی پارامترها با افزایش N در مدلهای زبانی اتصالگرا در مقایسه با افزایش نمائی آنها در مدلهای زبانی آماری است. مزیت دیگر این مدلها آن است که در مدلهای زبانی اتصالگرا هموارسازی بهصورت مستقیم توسط خود مدل اجراء میشود.
در گزارش دیگری در این رابطه که توسط یک شبکه عصبی تمام متصل نشان داده شده، مدل زبانی N گرم پیادهسازی شده است. این شبکه از دو لایه پنهان، یک لایه تصویر و یک لایه پنهان تشکیل شده است.
علاوه بر شبکههای زمانی مذکور، شبکههای عصبی بازگشتی برای یادگیری زبانهای با قاعده از مجموعه رشته مثالها و مثالهای نقض بهکار گرفته شدهاند. این شبکهها به این دلیل که میتوانند که شناساگرهای زبانهای با قاعده را شبیهسازی نمایند، در پردازش زبان طبیعی بسیار رایج و متداول هستند. بهعنوان مثال از کاربردهای دیگر شبکههای عصبی بازگشتی میتوان به مدلسازی زنجیره نمادها توسط این شبکهها اشاره کرد. نتایج بررسی نشان میدهند که شبکههای عصبی بازگشتی در کار با دنبالههای حاصل از یک ماشین حالت محدود یا حتی آشوبگونه نتایج قابل قبولی داشتهاند. استفاده از شبکههای عصبی بازگشتی و چندلایه در طبقهبندی معنائی و نحوی کلمات چینی با حجم دادگان بزرگ و نیز استنتاجهای دستور زبانی جملات نتایج قابل توجهی داشته است.
استفاده از مدلهای زبانی نه تنها در سطح کلمه، بلکه در سطح آوا نیز کاملاً رایج است. هاوس و نئوبرگ نشان دادند که محدودیتهای موجود روی زنجیره آواها بهعنوان روش مؤثری در شناسائی میتواند بهکار گرفته شود.
در کار انجام شده، نشان داده شد که این محدودیتها بهعنوان مشخصهای قدرتمند در بازشناسی گفتار، حتی در مواردی که گفتار به بخشهای متنوعی تعلق دارد، میتواند مورد استفاده قرار گیرد.
دکتر محمدرضا یزدچی
دکتر سیدعلی سیدصالحی
دکتر سیدعلی سیدصالحی
منبع : ماهنامه تخصصی مهندسی پزشکی
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست