تکامل فناوری تشخیص گفتار
ایده KITT، اتوموبیل پرحرف مجموعه تلویزیونیKnight Rider ، (یک مجموعه تلویزیونی اکشن و جنایی آمریکایی که از سال 1982 تا 1986 از شبکه NBC پخش شد) را به خاطر دارید؟ یا زمانی که شخصیت اریک دکر در فیلم سینمایی Blade Runner (یک فیلم علمی تخیلی محصول 1982 به کارگردانی ریدلی اسکات) به طور شفاهی به رایانه خود دستور داد تا عکس های صحنه جرم را تهیه کند؟ ایده درک مفاهیم توسط کامپیوتر به اندازه کافی آینده نگر به نظر می رسید، چه رسد به ایده ای که بتواند به سوالات شما پاسخ دهد و دستورات شما را درک کند.
امروز همه ما KITT را در جیب خود حمل می کنیم.
مایکل نایت، قهرمان سریال تلوزیونیKnight Rider که با اتوموبیل هوشمند خود برای مبارزه با جرم و جنایت همکاری می کرد، در خصوص اینکه KITT ممکن است سوالات او را در سال 1982 درک کند، شک داشت. اما توسعه فناوری تشخیص گفتار از دهه 1950 در حال انجام بود. در ادامه این پست نگاهی دقیق تر به چگونگی تکامل فناوری تشخیص گفتار در طول سال ها و چگونه روشهای ما برای استفاده از تشخیص گفتار و قابلیتهای گفتار به متن که در کنار فناوری تکامل یافته است داریم.
اولین کامپیوترهای شنود، دهه 1950-1980
قدرت تشخیص خودکار گفتار(ASR) به این معنی است که توسعه آن همیشه با نام برندهای بزرگ همراه بوده است. آزمایشگاههایBell در سال 1952 با AUDREY پیشتاز شدند. سیستم AUDREY اعداد گفتاری را با دقت 97-99% ، در شرایط با دقت کنترل شده تشخیص داد. با این حال، به گفته James Flanagan، دانشمند و مهندس برق سابق آزمایشگاههای Bell، AUDREY روی یک رک رلهای به ارتفاع شش فوت سوار شد، توان قابل توجهی مصرف کرد و مشکلات تعمیر و نگهداری بیشمار مرتبط با مدارهای پیچیده لوله خلاء را نشان داد. AUDREY حتی برای موارد استفاده تخصصی بسیار گران و ناخوشایند بود.
IBM در سال 1962 با Shoebox که اعداد و اصطلاحات ساده ریاضی را تشخیص میداد، ادامه پیدا کرد. در همین حال، آزمایشگاه های ژاپنی در حال توسعه تشخیص دهنده های مصوت و واج و اولین قطعه ساز گفتار بودند. درک محدوده کوچکی از اعداد (یعنی 0 تا 9) برای یک کامپیوتر یک چیز است، اما پیشرفت دانشگاه Kyoto این بود که یک خط گفتار را «بخشبندی» کرد تا این فناوری بتواند روی طیف وسیعی از صداهای گفتاری کار کند.
در دهه 1970، دپارتمان دفاع (DARPA) برنامه تحقیقات درک گفتار(SUR) را تامین مالی کرد. ثمرات این تحقیق شامل سیستم تشخیص گفتار HARPY از Carnegie Mellon بود. HARPY جملاتی را از دایره لغات 1011 کلمه ای تشخیص داد که به سیستم قدرت یک کودک متوسط سه ساله را می دهد. مانند یک کودک سه ساله، تشخیص گفتار اکنون جذاب بود و پتانسیل بالقوه داشت.
HARPY جزو اولین سیستم هایی بود که از مدل های پنهان مارکوف(HMM) استفاده کرد. این روش احتمالی باعث توسعه ASR در دهه 1980 شد. در واقع، در دهه 1980، اولین موارد استفاده قابل اجرا برای ابزارهای گفتار به متن با سیستم رونویسی آزمایشی IBM، Tangora پدیدار شد. Tangora با آموزش مناسب می توانست 20000 کلمه را به زبان انگلیسی تشخیص دهد و تایپ کند. با این حال، سیستم هنوز برای استفاده تجاری بسیار ناکارآمد بود.
ASR در سطح مصرف کننده، دهه 1990 تا 2010
Fred Jelinek، مبتکر تشخیص گفتار IBM، به یاد میآورد: «ما فکر میکردیم این اشتباه است که از یک ماشین بخواهیم از مردم الگوبرداری کند. در نهایت، اگر ماشینی مجبور به حرکت باشد، این کار را با چرخ انجام می دهد، نه با راه رفتن. بهجای مطالعه جامع نحوه گوش دادن و درک گفتار مردم، میخواستیم راهی طبیعی برای این کار دستگاه پیدا کنیم.»
تجزیه و تحلیل آماری اکنون باعث تکامل فناوری ASR شده است. در سال 1990، Dragon Dictate به عنوان اولین نرم افزار تجاری تشخیص گفتار راه اندازی شد. هزینه آن 9000 دلار بود. با احتساب تورم تقریباً حدود 18890 دلار در سال 2021. تا قبل از راه اندازی Dragon Naturally Speaking در سال 1997، کاربران هنوز باید بین هر کلمه مکث می کردند.
در سال 1992، AT&T سرویس پردازش تماس تشخیص صدا(VRCP) را معرفی کرد. VRCP اکنون سالانه حدود 1.2 میلیارد تراکنش صوتی را انجام می دهد.
اما بیشتر کارهای مربوط به تشخیص گفتار در دهه 1990 در زیر سرپوش انجام شد. محاسبات شخصی و شبکه فراگیر زوایای جدیدی برای نوآوری ایجاد کردند. چنین فرصتی توسط Mike Cohen مشاهده شد که به گوگل ملحق شد تا تلاشهای فناوری گفتار این شرکت را در سال 2004 راهاندازی کند. جستجوی صوتی Google (2007) فناوری تشخیص صدا را به تودهها ارائه کرد. اما همچنین دادههای گفتاری میلیونها کاربر شبکهای را به عنوان مواد آموزشی برای یادگیری ماشین بازیافت کرد. و از قدرت پردازشی گوگل برای پیشبرد کیفیت برخوردار بود.
اپل(Siri) و مایکروسافت(Cortana) فقط برای ماندن در بازی ادامه دادند. در اوایل دهه 2010، ظهور یادگیری عمیق، شبکههای عصبی مکرر(RNN) و حافظه کوتاه مدت(LSTM) منجر به جهش فرافضایی در قابلیتهای فناوری ASR شد. این حرکت رو به جلو نیز عمدتاً ناشی از ظهور و افزایش دسترسی به محاسبات کم هزینه و پیشرفتهای الگوریتمی عظیم بود.
وضعیت فعلی ASR
با تکیه بر دهههای تکامل و در پاسخ به افزایش انتظارات کاربر، فناوری تشخیص گفتار در نیم دهه گذشته جهشهای بیشتری داشته است. تسهیل تشخیص گفتار در استفاده روزمره از طریق جستجوی صوتی و اینترنت اشیا، راهکارهایی برای بهینهسازی وفاداری صوتی و نیازمندیهای سختافزاری است.
به عنوان مثال، بلندگوهای هوشمند از تشخیص hot-word برای ارائه یک نتیجه فوری با استفاده از نرم افزار تعبیه شده استفاده می کنند. در همین حال، باقیمانده جمله برای پردازش به ابر ارسال می شود. VoiceFilter-Lite Google گفتار افراد را در پایان تراکنش بهینه میکند. این به مصرف کنندگان امکان می دهد دستگاه خود را با صدای خود "آموزش دهند". آموزش نسبت تحریفات(SDR) را کاهش میدهد و قابلیت استفاده از برنامههای کمکی فعال با صدا را افزایش میدهد.
نرخ خطای کلمه (WER، درصد کلمات نادرستی که در طی فرآیند گفتار به متن ظاهر می شوند) به شدت در حال بهبود است. دانشگاهیان پیشنهاد می کنند که تا پایان دهه 2020، 99 درصد کار رونویسی به صورت خودکار انجام می شود. انسان ها فقط برای کنترل کیفیت و اصلاحات وارد عمل خواهند شد.
موارد استفاده ASR در دهه 2020
قابلیت ASR در همزیستی با تحولات عصر شبکه در حال بهبود است. در ادامه نگاهی به سه مورد استفاده قانع کننده برای تشخیص خودکار گفتار داریم.
صنعت پادکست در سال 2021 از سد 1 میلیارد دلار عبور خواهد کرد. شنوندگان در حال افزایش هستند و کلمات همچنان به گوش می رسند.
پلتفرمهای پادکست به دنبال ارائهدهندگان ASR با دقت بالا و مُهرهای زمانی هر کلمه هستند تا به ایجاد پادکست برای افراد کمک کنند و ارزش محتوای خود را به حداکثر برسانند. ارائه دهندگانی مانند Descript پادکست ها را به متنی تبدیل می کنند که به سرعت قابل ویرایش باشد.
بهعلاوه، مُهرهای زمانی هر کلمه در زمان صرفهجویی میکنند و ویرایشگر را قادر میسازد تا پادکست تمامشده را مانند خاک رس قالبگیری کند. این رونوشتها همچنین محتوا را برای همه مخاطبان قابل دسترستر میکنند و همچنین به سازندگان کمک میکنند قابلیت جستجو و کشف نمایشهای خود را از طریق SEO بهبود بخشند.
این روزها جلسات بیشتری به صورت آنلاین برگزار می شود. و حتی آنهایی که این کار را نمی کنند اغلب ضبط می شوند. یادداشت برداری همزمان از جلسات پرهزینه و زمانبر است. اما یادداشتهای جلسه ابزاری ارزشمند برای شرکتکنندگان برای جمعبندی یا بررسی جزئیات هستند. پخش جریانی ASR گفتار به متن را در لحظه ارائه می دهد. این به معنای زیرنویس یا رونویسی زنده برای جلسات و سمینارها است.
فرآیندهایی مانند سپرده های قانونی، استخدام و موارد دیگر به صورت مجازی انجام می شود. ASR میتواند به در دسترستر و جذابتر کردن محتوای ویدیویی کمک کند. اما مهمتر از آن، مدلهای یادگیری ماشینی(ML) سرتاسری(E2E) در حال بهبود بیشتر یادداشت برداری از بلندگو هستند. چه افرادی که در آنجا حضور دارند و چه کسانی چه چیزی گفتهاند.
در موقعیت های پر خطر، اعتماد به ابزار ضروری است. یک موتور قابل اعتماد گفتار به متن با WER بسیار کم، عنصر شک را از بین می برد و زمان مورد نیاز برای تولید اسناد نهایی و تصمیم گیری را کاهش می دهد.