پردازش صوت

پردازش صوت چیست؟

پردازش صوت یا پردازش گفتار چیست؟

فناوری تشخیص گفتار نرم‌افزاری است که قادر است صوت را به متن تبدیل کند. فناوری تشخیص گفتار به رایانه‌ای که توانایی دریافت صدا را دارد برای مثال به یک میکروفن مجهز است این قابلیت را می‌دهد که صحبت کاربر را متوجه شود٫این فناوری در تبدیل گفتار به متن یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. برقراری ارتباط گفتاری با رایانه‌ها به جای استفاده از صفحه کلید و ماوس یکی از زمینه‌های تحقیقاتی مهم چند دههٔ اخیر است و شرکت‌های بزرگی چون مایکروسافت ٫فیلیپس ٫ ای ال ای تی ٫ ای بی ام ٫ و سایر شرکت هایی که به شرکت هوش مصنوعی موسوم هستند سالانه هزینه‌های هنگفتی را برای این منظور پرداخت کرده و می‌کنند.

زمینه های استفاده از پردازش صوت

مناسب برای:

حذف کردن تایپ کردن
دستیار های صوتی مانند سیری و الکسا
دستورات صوتی تلفن همراه

پردازش گفتار

تحلیل گفتار و تبدیل گفتار به متن و متن ب گفتار

تحلیل و تشخیص انواع صوت و محاسبه موارد خواسته شده توسط الگوریتم

مطالعه بیشتر

پردازش صوت یا پردازش گفتار مطالعه سیگنال های گفتار و روش های پردازش سیگنال ها است. سیگنال ها معمولاً در یک نمایش دیجیتال پردازش می شوند، بنابراین پردازش گفتار را می توان به عنوان یک مورد خاص از پردازش سیگنال دیجیتال در نظر گرفت که برای سیگنال های گفتاری اعمال می شود. جنبه های پردازش گفتار شامل اکتساب، دستکاری، ذخیره سازی، انتقال و خروجی سیگنال های گفتار است. ورودی را تشخیص گفتار و خروجی را سنتز گفتار می نامند.

تکنیک های پردازش صوت

تاب خوردگی زمانی پویا

تاب خوردگی زمانی پویا (DTW) الگوریتمی برای اندازه‌گیری شباهت بین دو دنباله زمانی است که ممکن است سرعت آنها متفاوت باشد. به طور کلی، DTW روشی است که تطابق بهینه بین دو دنباله داده شده (مثلا سری زمانی) را با محدودیت ها و قوانین خاص محاسبه می کند. تطابق بهینه با تطابقی نشان داده می‌شود که تمام محدودیت‌ها و قوانین را برآورده می‌کند و حداقل هزینه را دارد، که در آن هزینه به عنوان مجموع تفاوت‌های مطلق، برای هر جفت از شاخص‌های همسان، بین مقادیرشان محاسبه می‌شود.

مدل های پنهان مارکوف

یک مدل مارکوف پنهان را می توان به عنوان ساده ترین شبکه بیزی پویا نشان داد. هدف الگوریتم تخمین متغیر پنهان x(t) با توجه به لیستی از مشاهدات y(t) است. با اعمال ویژگی مارکوف، توزیع احتمال شرطی متغیر پنهان x(t) در زمان t، با توجه به مقادیر متغیر پنهان x در هر زمان، تنها به مقدار متغیر پنهان x(t − 1) بستگی دارد. به طور مشابه، مقدار متغیر مشاهده شده y(t) فقط به مقدار متغیر پنهان x(t) (هر دو در زمان t) بستگی دارد.

شبکه های عصبی مصنوعی

یک شبکه عصبی مصنوعی (ANN) مبتنی بر مجموعه‌ای از واحدها یا گره‌های متصل به نام نورون‌های مصنوعی است که نورون‌ها را در یک مغز بیولوژیکی مدل‌سازی می‌کنند. هر اتصال، مانند سیناپس های یک مغز بیولوژیکی، می تواند سیگنالی را از یک نورون مصنوعی به نورون دیگر منتقل کند. یک نورون مصنوعی که سیگنالی را دریافت می کند می تواند آن را پردازش کند و سپس به نورون های مصنوعی اضافی متصل به آن سیگنال دهد. در پیاده سازی های رایج ANN، سیگنال در اتصال بین نورون های مصنوعی یک عدد واقعی است و خروجی هر نورون مصنوعی توسط یک تابع غیرخطی از مجموع ورودی های آن محاسبه می شود.

اساساً، یادگیری ماشینی علمی است که با استفاده از آن می توان به ماشین ها از طریق الگوریتم ها یاد داد که چگونه تصمیم گیری کنند. یعنی به جای اینکه یک نرم افزار به صورت دقیق برنامه ریزی شود تا کار خاصی را انجام دهد با استفاده از الگوریتم ها یاد میگیرد که چگونه تصمیم گیری کند و به پاسخ دست پیدا کند.

یادگیری ماشین در بسیاری زمینه‌ها از جمله مهندسی، کسب و کار، زبان‌شناسی و پزشکی کاربرد دارد. یادگیری ماشینی در بسیاری جنبه‌های زندگی روزمره وارد شده است. برای نمونه، موتورهای جستجوی اینترنتی در گوگل یا بینگ از یادگیری ماشینی استفاده می‌کنند، چرا که نرم‌افزار یادگیری ماشین آن‌ها چگونگی رتبه‌بندی برای یک صفحه وب را درک کرده‌است.