تکامل فناوری تشخیص گفتار

ایده KITT، اتوموبیل پرحرف مجموعه تلویزیونیKnight Rider ، (یک مجموعه تلویزیونی اکشن و جنایی آمریکایی که از سال 1982 تا 1986 از شبکه NBC پخش شد) را به خاطر دارید؟ یا زمانی که شخصیت اریک دکر در فیلم سینمایی Blade Runner (یک فیلم علمی تخیلی محصول 1982 به کارگردانی ریدلی اسکات) به طور شفاهی به رایانه خود دستور داد تا عکس های صحنه جرم را تهیه کند؟ ایده درک مفاهیم توسط کامپیوتر به اندازه کافی آینده نگر به نظر می رسید، چه رسد به ایده ای که بتواند به سوالات شما پاسخ دهد و دستورات شما را درک کند.

امروز همه ما KITT را در جیب خود حمل می کنیم.

تکامل فناوری تشخیص گفتار

مایکل نایت، قهرمان سریال تلوزیونیKnight Rider  که با اتوموبیل هوشمند خود برای مبارزه با جرم و جنایت همکاری می کرد، در خصوص اینکه KITT ممکن است سوالات او را در سال 1982 درک کند، شک داشت. اما توسعه فناوری تشخیص گفتار از دهه 1950 در حال انجام بود. در ادامه این پست نگاهی دقیق تر به چگونگی تکامل فناوری تشخیص گفتار در طول سال ها و چگونه روش‌های ما برای استفاده از تشخیص گفتار و قابلیت‌های گفتار به متن که در کنار فناوری تکامل یافته است داریم.

اولین کامپیوترهای شنود، دهه 1950-1980

قدرت تشخیص خودکار گفتار(ASR)  به این معنی است که توسعه آن همیشه با نام برندهای بزرگ همراه بوده است. آزمایشگاه‌هایBell  در سال 1952 با AUDREY پیشتاز شدند. سیستم AUDREY اعداد گفتاری را با دقت 97-99% ، در شرایط با دقت کنترل شده تشخیص داد. با این حال، به گفته James Flanagan، دانشمند و مهندس برق سابق آزمایشگاه‌های Bell، AUDREY روی یک رک رله‌ای به ارتفاع شش فوت سوار شد، توان قابل توجهی مصرف کرد و مشکلات تعمیر و نگهداری بی‌شمار مرتبط با مدارهای پیچیده لوله خلاء را نشان داد. AUDREY حتی برای موارد استفاده تخصصی بسیار گران و ناخوشایند بود.

تکامل فناوری تشخیص گفتار

IBM در سال 1962 با Shoebox که اعداد و اصطلاحات ساده ریاضی را تشخیص می‌داد، ادامه پیدا کرد. در همین حال، آزمایشگاه های ژاپنی در حال توسعه تشخیص دهنده های مصوت و واج و اولین قطعه ساز گفتار بودند. درک محدوده کوچکی از اعداد (یعنی 0 تا 9) برای یک کامپیوتر یک چیز است، اما پیشرفت دانشگاه Kyoto این بود که یک خط گفتار را «بخش‌بندی» کرد تا این فناوری بتواند روی طیف وسیعی از صداهای گفتاری کار کند.

در دهه 1970، دپارتمان دفاع (DARPA) برنامه تحقیقات درک گفتار(SUR)  را تامین مالی کرد. ثمرات این تحقیق شامل سیستم تشخیص گفتار HARPY از Carnegie Mellon بود. HARPY جملاتی را از دایره لغات 1011 کلمه ای تشخیص داد که به سیستم قدرت یک کودک متوسط ​​سه ساله را می دهد. مانند یک کودک سه ساله، تشخیص گفتار اکنون جذاب بود و پتانسیل بالقوه داشت.

HARPY جزو اولین سیستم هایی بود که از مدل های پنهان مارکوف(HMM)  استفاده کرد. این روش احتمالی باعث توسعه ASR در دهه 1980 شد. در واقع، در دهه 1980، اولین موارد استفاده قابل اجرا برای ابزارهای گفتار به متن با سیستم رونویسی آزمایشی IBM، Tangora پدیدار شد. Tangora با آموزش مناسب می توانست 20000 کلمه را به زبان انگلیسی تشخیص دهد و تایپ کند. با این حال، سیستم هنوز برای استفاده تجاری بسیار ناکارآمد بود.

ASR در سطح مصرف کننده، دهه 1990 تا 2010

Fred Jelinek، مبتکر تشخیص گفتار IBM، به یاد می‌آورد: «ما فکر می‌کردیم این اشتباه است که از یک ماشین بخواهیم از مردم الگوبرداری کند. در نهایت، اگر ماشینی مجبور به حرکت باشد، این کار را با چرخ انجام می دهد، نه با راه رفتن. به‌جای مطالعه جامع نحوه گوش دادن و درک گفتار مردم، می‌خواستیم راهی طبیعی برای این کار دستگاه پیدا کنیم.»

تجزیه و تحلیل آماری اکنون باعث تکامل فناوری ASR شده است. در سال 1990، Dragon Dictate به عنوان اولین نرم افزار تجاری تشخیص گفتار راه اندازی شد. هزینه آن 9000 دلار بود. با احتساب تورم تقریباً حدود 18890 دلار در سال 2021. تا قبل از راه اندازی Dragon Naturally Speaking در سال 1997، کاربران هنوز باید بین هر کلمه مکث می کردند.

در سال 1992، AT&T سرویس پردازش تماس تشخیص صدا(VRCP)  را معرفی کرد. VRCP اکنون سالانه حدود 1.2 میلیارد تراکنش صوتی را انجام می دهد.

اما بیشتر کارهای مربوط به تشخیص گفتار در دهه 1990 در زیر سرپوش انجام شد. محاسبات شخصی و شبکه فراگیر زوایای جدیدی برای نوآوری ایجاد کردند. چنین فرصتی توسط Mike Cohen مشاهده شد که به گوگل ملحق شد تا تلاش‌های فناوری گفتار این شرکت را در سال 2004 راه‌اندازی کند. جستجوی صوتی Google (2007)  فناوری تشخیص صدا را به توده‌ها ارائه کرد. اما همچنین داده‌های گفتاری میلیون‌ها کاربر شبکه‌ای را به عنوان مواد آموزشی برای یادگیری ماشین بازیافت کرد. و از قدرت پردازشی گوگل برای پیشبرد کیفیت برخوردار بود.

اپل(Siri)  و مایکروسافت(Cortana)  فقط برای ماندن در بازی ادامه دادند. در اوایل دهه 2010، ظهور یادگیری عمیق، شبکه‌های عصبی مکرر(RNN)  و حافظه کوتاه مدت(LSTM)  منجر به جهش فرافضایی در قابلیت‌های فناوری ASR شد. این حرکت رو به جلو نیز عمدتاً ناشی از ظهور و افزایش دسترسی به محاسبات کم هزینه و پیشرفت‌های الگوریتمی عظیم بود.

تکامل فناوری تشخیص گفتار

وضعیت فعلی ASR

با تکیه بر دهه‌های تکامل و در پاسخ به افزایش انتظارات کاربر، فناوری تشخیص گفتار در نیم دهه گذشته جهش‌های بیشتری داشته است. تسهیل تشخیص گفتار در استفاده روزمره از طریق جستجوی صوتی و اینترنت اشیا، راهکارهایی برای بهینه‌سازی وفاداری صوتی و نیازمندی‌های سخت‌افزاری است.

به عنوان مثال، بلندگوهای هوشمند از تشخیص hot-word برای ارائه یک نتیجه فوری با استفاده از نرم افزار تعبیه شده استفاده می کنند. در همین حال، باقیمانده جمله برای پردازش به ابر ارسال می شود. VoiceFilter-Lite Google گفتار افراد را در پایان تراکنش بهینه می‌کند. این به مصرف کنندگان امکان می دهد دستگاه خود را با صدای خود "آموزش دهند". آموزش نسبت تحریفات(SDR)  را کاهش می‌دهد و قابلیت استفاده از برنامه‌های کمکی فعال با صدا را افزایش می‌دهد.

نرخ خطای کلمه (WER، درصد کلمات نادرستی که در طی فرآیند گفتار به متن ظاهر می شوند) به شدت در حال بهبود است. دانشگاهیان پیشنهاد می کنند که تا پایان دهه 2020، 99 درصد کار رونویسی به صورت خودکار انجام می شود. انسان ها فقط برای کنترل کیفیت و اصلاحات وارد عمل خواهند شد.

موارد استفاده ASR در دهه 2020

قابلیت ASR در همزیستی با تحولات عصر شبکه در حال بهبود است. در ادامه نگاهی به سه مورد استفاده قانع کننده برای تشخیص خودکار گفتار داریم.

صنعت پادکست در سال 2021 از سد 1 میلیارد دلار عبور خواهد کرد. شنوندگان در حال افزایش هستند و کلمات همچنان به گوش می رسند.

پلتفرم‌های پادکست به دنبال ارائه‌دهندگان ASR با دقت بالا و مُهرهای زمانی هر کلمه هستند تا به ایجاد پادکست برای افراد کمک کنند و ارزش محتوای خود را به حداکثر برسانند. ارائه دهندگانی مانند Descript پادکست ها را به متنی تبدیل می کنند که به سرعت قابل ویرایش باشد.

به‌علاوه، مُهرهای زمانی هر کلمه در زمان صرفه‌جویی می‌کنند و ویرایشگر را قادر می‌سازد تا پادکست تمام‌شده را مانند خاک رس قالب‌گیری کند. این رونوشت‌ها همچنین محتوا را برای همه مخاطبان قابل دسترس‌تر می‌کنند و همچنین به سازندگان کمک می‌کنند قابلیت جستجو و کشف نمایش‌های خود را از طریق SEO بهبود بخشند.

این روزها جلسات بیشتری به صورت آنلاین برگزار می شود. و حتی آنهایی که این کار را نمی کنند اغلب ضبط می شوند. یادداشت برداری همزمان از جلسات پرهزینه و زمان‌بر است. اما یادداشت‌های جلسه ابزاری ارزشمند برای شرکت‌کنندگان برای جمع‌بندی یا بررسی جزئیات هستند. پخش جریانی ASR گفتار به متن را در لحظه ارائه می دهد. این به معنای زیرنویس یا رونویسی زنده برای جلسات و سمینارها است.

فرآیندهایی مانند سپرده های قانونی، استخدام و موارد دیگر به صورت مجازی انجام می شود. ASR می‌تواند به در دسترس‌تر و جذاب‌تر کردن محتوای ویدیویی کمک کند. اما مهمتر از آن، مدل‌های یادگیری ماشینی(ML)  سرتاسری(E2E)  در حال بهبود بیشتر یادداشت برداری از بلندگو هستند. چه افرادی که در آنجا حضور دارند و چه کسانی چه چیزی گفته‌اند.

در موقعیت های پر خطر، اعتماد به ابزار ضروری است. یک موتور قابل اعتماد گفتار به متن با WER بسیار کم، عنصر شک را از بین می برد و زمان مورد نیاز برای تولید اسناد نهایی و تصمیم گیری را کاهش می دهد.



clickMe برای سفارش تبلیغات کلیک کنید...