دستاورد تاریخی مایکروسافت با فناوری تشخیص گفتار محاوره همانند انسان

شرکت مایکروسافت به موفقیت بزرگی در بازشناسی گفتار و هوش مصنوعی دست یافت: یک فناوری نوین که کلمات یک مکالمه را همچون انسان تشخیص می‌دهد.

دستاورد تاریخی پژوهشگران مایکروسافت با فناوری تشخیص گفتار محاوره همانند انسان

پژوهشگران مایکروسافت از گروه تحقیقاتی تشخیص گفتار و گفتگو شامل، از پشت سمت چپ، Wayne Xiong، Geoffrey Zweig، Xuedong Huang، Dong Yu، Frank Seide، Mike Seltzer، Jasha Droppo و Jasha Droppo (تصویر از Dan DeLong)

در مقاله‌ای که مدتی پیش منتشر شد، یک گروه از پژوهشگران و مهندسان هوش مصنوعی مایکروسافت گزارش دادند که یک سیستم تشخیص گفتار ایجاد کرده‌اند که میزان خطایی برابر یا حتی کمتر از رونویس‌های حرفه‌ای دارد. پژوهشگران گزارش دادند که تنها در ماه اخیر نرخ خطای تشخیص کلمه (WER) از ۶٫۳ درصد به ۵٫۹ درصد کاهش یافته است.

زمانی که از افرادی خواسته شد تا همان مکالمه را رونویسی کنند به میزان خطایی برابر ۵٫۹ درصد رسیدند که کمترین مقدار ثبت شده تاکنون در صنعت استانداردهای بازشناسی گفتار است.

Xuedong Huang رئیس دانشمندان بازشناسی گفتار شرکت مایکروسافت می‌گوید: «ما به برابری با انسان رسیده‌ایم و این یک دستاورد تاریخی است».

نقطه عطف به این معنی است که برای نخستین بار یک رایانه می‌تواند کلمات یک مکالمه را همچون انسان تشخیص دهد. در عمل گروه به هدفی که کمتر از یک سال پیش در نظر داشت رسید و حتی قدم فراتر از انتظارات گذاشت.

Harry Shum معاون رئیس اجرایی که گروه تحقیق و هوش مصنوعی مایکروسافت را رهبری می‌کند، گفت: «حتی پنج سال پیش هم تصور نمی‌کردم که ما بتوانیم این کار را به انجام برسانیم. من حتی تصور نمی‌کردم که این امکان‌پذیر باشد»

نقطه عطف پژوهش پس از چند دهه تحقیق در بازشناسی گفتار، از اوایل دهه ۱۹۷۰ با DARPA و آژانس ایالات متحده که موظف به ساخت پیشرفت‌های فناوری در جهت منافع امنیت ملی بود، آغاز شد. در طول این دهه‌ها بسیاری از شرکت‌های فناوری بزرگ و سازمان‌های تحقیقاتی به پیگیری این موضوع پرداختند.

Geoffrey Zweig که گروه پژوهشی گفتار و گفت و گو را مدیریت می‌کند، گفت: «این دستاورد نقطه اوج بیش از بیست سال تلاش است».

این نقطه عطف کاربرد گسترده‌ای برای مصرف کننده و کسب و کار محصولاتی است که می‌تواند به طور قابل توجهی با تشخیص گفتار تقویت شوند که شامل دستگاه‌های سرگرمی مصرف کننده مانند Xbox، ابزار دسترسی همچون تبدیل لحظه‌ای گفتار به متن و دستیاران دیجیتال شخصی مانند کورتانا است.

Shum گفت: «این فناوری، کورتانا را قدرتمندتر خواهد کرد و یک دستیار واقعاً هوشمند را ایجاد می‌کند»

برابری نه کمال

این فناوری و نتایج به این معنی نیست که رایانه می‌تواند هر کلمه را به طور کامل تشخیص دهد. در واقع انسان‌ها هم این کار را کامل و بدون نقص انجام نمی‌دهند. نقطه عطف به این معنی است که میزان خطا و یا میزانی که رایانه کلمات را اشتباهی می‌شنود همان مقدار خطایی است که شما از فردی که همان مکالمه را می‌شنود انتظار دارید.

Zweig اجرا و استفاده منظم از آخرین فناوری شبکه‌های عصبی را به تمام جنبه‌های سیستم نسبت داد. تلاش پژوهشگران بیش از همه روی استفاده از مدل‌های عصبی زبان بود که در آن کلمات به عنوان بردار پیوسته در فضا نشان داده می‌شود و کلماتی مانند «fast» و «quick» به هم نزدیک هستند. Zweig گفت: «این اجازه می‌دهد تا مدل‌ها، تعمیم بسیار خوبی روی همه کلمات داشته باشند»

رؤیایی که محقق شد

شبکه‌های عصبی عمیق نیاز به مقادیر زیادی از داده‌ها (به نام مجموعه آموزش) برای آموزش سیستم‌های رایانه‌ای و تشخیص الگوهای ورودی‌ مانند تصاویر یا صداها دارند.

این گروه برای رسیدن به نقطه عطف برابری با انسان از جعبه ابزار شناختی مایکروسافت که یک سامانه خانگی برای یادگیری عمیق است، استفاده کرد. این جعبه ابزار از طریق مجوز متن باز در GitHub در دسترس قرار دارد.

هوانگ گفت توانایی جعبه ابزار شناختی مایکروسافت در پردازش سریع الگوریتم‌های یادگیری عمیق از یک طرف و چندین رایانه که در حال اجرای یک تراشه تخصصی به نام واحد پردازش گرافیکی هستند از طرف دیگر سرعت را بسیار بهبود داده‌اند تا پژوهشگران قادر به انجام تحقیقات خود و در نهایت رسیدن به برابری با انسان باشند.

هوانگ که بیش از سه دهه در زمینه بازشناسی گفتار کار کرده است، می‌گوید: «این رؤیای من بود که به حقیقت پیوست»

اخبار همان هفته اعلام کرد که گروه دیگری از پژوهشگران مایکروسافت، که روی بینایی رایانه متمرکز بودند به نقطه عطف دیگری رسیده‌اند. این گروه در چالش تقسیم بندی تصویرCOCO، که چالشی برای انتخاب بهترین فناوری است که می‌تواند مکان اشیا در تصویر را به خوبی مشخص کند، موفق به کسب مقام اول شد.

Baining Guo، دستیار مدیر عامل مایکروسافت در بخش پژوهش آسیا، گفت: تقسیم‌بندی تصویر بسیار دشوار است چرا که فناوری باید دقیقا مرزی که شی در آن قرار دارد را روی تصویر مشخص کند.

نتایج این گروه ۱۱ درصد بهتر از برنده مقام دوم بود و بهبود قابل توجهی نسبت به برنده سال گذشته داشت. در واقع این فناوری براساس سیستم شبکه عصبی بسیار عمیق که برنده جایزه سال گذشته است و کارشناسان بینایی رایانه مایکروسافت طراحی کردند ساخته شده است.

Guo می‌گوید: «ما به رهبر بودن در زمینه تشخیص تصویر ادامه می‌دهیم».

از تشخیص تا درک واقعی

با وجود پیشرفت‌های بزرگ سال‌های اخیر در هر دو زمینه بینایی و تشخیص گفتار، محققان هشدار می‌دهند که هنوز کارهای زیادی برای انجام دادن وجود دارد.

Zweig می‌گوید: پژوهشگران در حال کار بر روی روشی هستند تا مطمئن شوند که تشخیص گفتار در زندگی واقعی هم به خوبی کار کند. که شامل مکان‌هایی می‌شود که سر و صدای زیادی در پس زمینه وجود دارد از جمله در یک جشن و یا در حال رانندگی در بزرگراه. آنها همچنین به دنبال بهترین روشی هستند تا زمانی که چند نفر در حال صحبت کردن هستند، سخنرانان را تشخیص دهد و مطمئن شوند که این فناوری با طیف گسترده‌ای از صداها، صرف نظر از سن و لهجه به خوبی کار می‌کند.

در دراز مدت پژوهشگران به روش‌هایی رو می‌آورند که به رایانه می‌آموزند نه تنها سیگنال‌های صوتی که از دهان مردم بیرون می‌آید را رونویسی کنند بلکه به جای درک کلمات آنها را بازگو کنند. که این تمایل، فناوری توانایی پاسخ به سؤالات و یا اقدام بر اساس آنچه که گفته‌اند را به نمایش می‌گذارد.

Zweig گفت: «هدف بعدی این است که از شناخت به سمت درک حرکت کنیم»

Shum اشاره کرد: ما داریم از جهانی که در آن مردم باید رایانه‌ها را درک کنند دور می‌شویم و به سمت جهانی می‌رویم که در آن رایانه باید ما را درک کند. با این حال او هشدار می‌دهد که هوش مصنوعی واقعی هنوز در افق‌های دوری قرار دارد.

Shum می‌گوید: «مسیری بسیار طولانی پیشرو است تا رایانه‌ها بتوانند به معنای واقعی آن چیزی که گفته یا نشان داده شده را درک کنند»

منبع: microsoft

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *