پنج شنبه، ۲۱ آذر، ۱۳۹۸ | Thursday, 12 December , 2019

در دانشگاه صنعتی امیرکبیر انجام شد: طراحی سامانه جدید بازشناسی خودکار گفتار

نسخه قابل پرینت کد خبر:44467
چهارشنبه، ۱ خرداد، ۱۳۹۸ | 13:52
در دانشگاه صنعتی امیرکبیر انجام شد: طراحی سامانه جدید بازشناسی خودکار گفتار

محققان دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر موفق به طراحی سامانه ای برای به کارگیری اطلاعات تصویری در بازشناسی خودکار گفتار صوتی-تصویری شدند.

به گزارش دیده بان علم ایران، فاطمه وخشیته، دانش آموخته دکتری مهندسی پزشکی (بیوالکتریک) دانشگاه صنعتی امیرکبیر درباره طرح خود مبنی بر «طراحی سامانه بازشناسی خودکار گفتار» اظهار کرد: به‎کارگیری منابع اطلاعاتی متعدد نقش مهمی در سامانه‎های بازشناسی گفتار دارد به‎طوری که عملکرد مطلوب‌تر سامانه‎ها می‎تواند در نتیجۀ استفادۀ صحیح از اطلاعات کمکی مناسب و با روش‎های دقیق شود.

وی افزود: این موضوع ریشه در طبیعت ادراک در انسان دارد چراکه در مغز انسان و از جمله در فرآیندهای توليد و ادراک گفتار، به‎طور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت مي‎پذیرد.

وی با اشاره به تحقیقات خود در زمینه بازشناسی خودکار گفت: هدف این رساله به‎کارگیری اطلاعات تصویری در قالب اطلاعات کمکی و ارائۀ سامانه بازشناسی خودکار گفتار صوتی-تصویری است، تا ضمن برآورده ‎شدن طبيعت چندگونه‎ای ادراک در انسان از خاصیت مقاوم‌‎ بودن اطلاعات تصویری در برابر نویز صوتي نیز استفاده شود.

به گفته این محقق، در بازشناسي گفتار صوتي-تصویری، هر یک از روش‎های‎ استخراج ویژگي، مدل‎سازی، تلفيق گونه‎های مختلف صوتی و تصویری، و نهایتاً بازشناسی‎ دوگونه‎ای گفتار نقش بسزایی دارند. منظور از یک گونه، یک منبع اطلاعاتی است و ویژگی‎های مستخرج در شرایط ارائۀ یک منبع اطلاعاتی، ویژگی‎های تک‎گونه‎ای نامیده می‎شوند.

وی با بیان اینکه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگی‎های مستخرج در شرایط فراهم‎شدن همزمان دو منبع اطلاعاتی، ویژگی‎های دوگونه‎ای نامیده می‎شوند، بیان کرد: بر این اساس در این رساله ابتدا ویژگی‏های مناسب صوتی و تصویری جستجو و استخراج می‎شوند.

وخشیته بیان کرد: در خصوص شاخۀ ‎تصویری، از روش‏های کلاسیک و مبتنی بر شبکه‎های عصبی عمیق استفاده می‎شود و در ادامه یک روش استخراج ویژگی ترکیبی پیشنهاد می‎شود که از این میان ویژگی‎های تصویری هیبریدی، که در یک فرآیند پیش‎پردازشی پیچیده استخراج می شوند، به‎عنوان ویژگی‎های منتخب تصویری درنظر گرفته خواهند شد.

وی در خصوص روند کار با این سامانه ادامه داد: شاخۀ صوتی، ویژگی‎های کپسترال فرکانس حوزه مل پس از انجام مقایسه‎ها به‎عنوان ویژگی‎های منتخب صوتی لحاظ میشوند؛ در ادامه، تلفیق کارآمد ویژگی‎های منتخب تک‎گونه‎ای دنبال می‎شود، به‎گونه‎ای که موجب هم‎افزایی دو منبع اطلاعاتی و همچنین کاهش نویز زمینۀ موجود در گفتار صوتی شود.

وخشیته با بیان اینکه در این خصوص دو رویکرد تلفیق ویژگی پیشنهاد می‏شود، خاطر نشان کرد: در رویکرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگی‎های حاصل از منابع صوتی و تصویری استفاده می‎شود و تلفیق اطلاعات در سطح متوسط با انتخاب لایۀ صوتی با آنتروپی بیشینه و لایۀ تصویری با آنتروپی کمینه صورت می‏پذیرد. در رویکرد دوم، از شبکه‎های کدگذار خودکار عمیق استفاده می‎شود و تلفیق اطلاعات در لایۀ گلوگاه شبکه صورت می‎پذیرد. در این رویکرد یک ساختار دوگونه‎ای پیشنهاد می‎شود که طیِ چهار مرحله توسعه و تکمیل می‎شود.

وی افزود: در آخرین مرحله از توسعه با در نظر گرفتن تابع مناسب نگاشت‎دهنده ویژگی‏های گلوگاهی نویزی به تمیز و قراردادن لایۀ برچسب‎ها در کنار گلوگاه شبکه، ساختاری به‎دست می‎آید که نسبت به سایر ساختارها از کارآمدی بالاتری برخوردار است.

وخشیته با اشاره به نتیجه تحقیقات خود گفت: خروجی رویکردها به‏طور کلی موفقیت عملکرد آن‎ها را نشان می‎دهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.

وی ادامه داد: در شرایط نویزی با ارائه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبکه باور عمیق و مدل مخفی مارکوف، نرخ خطای واجی ۱۸٫۵درصد را نشان میدهد که در این شرایط، با تلفیق ویژگی‎ها بر اساس معیار آنتروپی، نرخ خطای واجی به ۱۰٫۹درصد کاهش می یابد که این مقدار با تلفیق ویژگی‎ها توسط شبکۀ کدگذار خودکار عمیق دوگونه‎ای برابر با ۱۰٫۳درصد می‎شود.

وخشیته با بیان این که از این سامانه می توان برای کمک به افرادی که مشکل ناشنوایی دارند استفاده کرد، گفت: «کمک به افرادی که اختلال تکلم دارند، به نحوی که از اطلاعات تصویری آنها کمک گرفته و اختلال ایجاد شده در سیگنال گفتار این افراد جبران شود» که این کاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است؛ این یکی از کاربردهای سامانه محسوب می شود.

وی ادامه داد: در محیط های شلوغ که اطلاعات صوتی گویندگان مخدوش یا نامفهوم است از اطلاعات تصویری این افراد کمک گرفته می‌شود و پیغام صوتی منتقل می‌شود» از جمله کاربردهای این سامانه است. این کاربرد در بهبود انتقال پیام برای شنوندگان است.

وخشیته افزود: اینها نمونه کاربردهای رایجی هستند که در آنها از اطلاعات تصویری در بازشناسی خودکار گفتار استفاده می‌شود، اما توجیه به کارگیری شبکه های عصبی عمیق در این راستا ارتقای دقت بازشناسی گفتار تصویری (لبخوانی) و گفتار صوتی معمولی و همچنین در شرایطی است که از اطلاعات صوتی و تصویری به صورت همزمان استفاده می شود می باشد.

این پروژه به راهنمایی دکتر فرشاد الماس گنج و مشاوره دکتر احمد نیک آبادی انجام شده است.

انتهای پیام

به اشتراک بگذارید :

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *