پردازش گفتار

پردازش گفتار

تحلیل گفتار و تبدیل گفتار به متن و متن ب گفتار
پردازش صوت

پردازش صوت

تحلیل و تشخیص انواع صوت و محاسبه موارد خواسته شده توسط الگوریتم

پردازش صوت یا پردازش گفتار مطالعه سیگنال های گفتار و روش های پردازش سیگنال ها است. سیگنال ها معمولاً در یک نمایش دیجیتال پردازش می شوند، بنابراین پردازش گفتار را می توان به عنوان یک مورد خاص از پردازش سیگنال دیجیتال در نظر گرفت که برای سیگنال های گفتاری اعمال می شود. جنبه های پردازش گفتار شامل اکتساب، دستکاری، ذخیره سازی، انتقال و خروجی سیگنال های گفتار است. ورودی را تشخیص گفتار و خروجی را سنتز گفتار می نامند.

تکنیک های پردازش صوت

تاب خوردگی زمانی پویا

تاب خوردگی زمانی پویا (DTW) الگوریتمی برای اندازه‌گیری شباهت بین دو دنباله زمانی است که ممکن است سرعت آنها متفاوت باشد. به طور کلی، DTW روشی است که تطابق بهینه بین دو دنباله داده شده (مثلا سری زمانی) را با محدودیت ها و قوانین خاص محاسبه می کند. تطابق بهینه با تطابقی نشان داده می‌شود که تمام محدودیت‌ها و قوانین را برآورده می‌کند و حداقل هزینه را دارد، که در آن هزینه به عنوان مجموع تفاوت‌های مطلق، برای هر جفت از شاخص‌های همسان، بین مقادیرشان محاسبه می‌شود.

مدل های پنهان مارکوف

یک مدل مارکوف پنهان را می توان به عنوان ساده ترین شبکه بیزی پویا نشان داد. هدف الگوریتم تخمین متغیر پنهان x(t) با توجه به لیستی از مشاهدات y(t) است. با اعمال ویژگی مارکوف، توزیع احتمال شرطی متغیر پنهان x(t) در زمان t، با توجه به مقادیر متغیر پنهان x در هر زمان، تنها به مقدار متغیر پنهان x(t − 1) بستگی دارد. به طور مشابه، مقدار متغیر مشاهده شده y(t) فقط به مقدار متغیر پنهان x(t) (هر دو در زمان t) بستگی دارد.

شبکه های عصبی مصنوعی

یک شبکه عصبی مصنوعی (ANN) مبتنی بر مجموعه‌ای از واحدها یا گره‌های متصل به نام نورون‌های مصنوعی است که نورون‌ها را در یک مغز بیولوژیکی مدل‌سازی می‌کنند. هر اتصال، مانند سیناپس های یک مغز بیولوژیکی، می تواند سیگنالی را از یک نورون مصنوعی به نورون دیگر منتقل کند. یک نورون مصنوعی که سیگنالی را دریافت می کند می تواند آن را پردازش کند و سپس به نورون های مصنوعی اضافی متصل به آن سیگنال دهد. در پیاده سازی های رایج ANN، سیگنال در اتصال بین نورون های مصنوعی یک عدد واقعی است و خروجی هر نورون مصنوعی توسط یک تابع غیرخطی از مجموع ورودی های آن محاسبه می شود.