کاهش قابل توجه خطای سامانه تشخیص گفتار شرکت گوگل - مجلۀ فناوریهای توان‌افزا و پوشیدنی

سوندار پیچای (Sundar Pichai) مدیرعامل شرکت گوگل در کنفرانس گوگل آی/او (Google I/O 2017) اعلام کرد موفق شدند در سامانه تشخیص گفتار این شرکت به نرخ خطای ۴٫۹ درصد دست یابند. به عبارت دیگر این سامانه به ازای هر ۲۰ واژه تنها یک واژه غلط دارد. این دستاورد بزرگی برای شرکت گوگل است. با مجله فناوری‌های توان‌افزا و پوشیدنی همراه باشید.

این در حالی است که در سال ۲۰۱۳ گوگل نرخ خطای ۲۳ درصد را برای سامانه تشخیص گفتار خود اعلام کرده بود و دو سال پیش سال ۲۰۱۵ در کنفرانس گوگل آی/او این نرخ را ۸ درصد بیان کرد. گوگل آی/او یک کنفرانس سالیانه است که بر روی توسعه دهندگان متمرکز است و توسط گوگل در سان‌فرانسیسکوی کالیفرنیا برگزار می‌گردد.

هوش مصنوعی و به خصوص الگوریتم‌های یادگیری عمیق نقش اساسی در این موفقیت ایفا کرده‌اند. یادگیری عمیق یکی از انواع هوش مصنوعی است که در تشخیص تصویر و گفتار با دقت بالا کاربرد دارد. در این روش با وارد کردن حجم عظیمی از داده به سامانه به آموزش شبکه‌های عصبی پرداخته می‌شود. پس از آموزش، با ورود داده‌های جدید، سامانه نتیجه را پیش‌بینی می‌کند.

سوندار پیچای توضیح می‌دهد:« ما از داده‌های صوتی انواع محصولات خود به عنوان ورودی سامانه تشخیص گفتار استفاده کردیم. بهبود این سامانه به افزایش عملکرد رایانه‌ها در تشخیص گفتار کمک می‌کند. ما پیشرفت‌های قابل توجهی داشتیم. نرخ خطای تشخیص واژه در سامانه به صورت پیوسته در حال کاهش است. حتی در محیط‌های نویزی نیز این سامانه عملکرد خوبی دارد. به همین دلیل است زمانی‌که با برنامه کاربردی گوگل روی گوشی‌های هوشمند یا بلندگوی خانگی گوگل هوم (Google Home) صحبت کنید ما می‌توانیم صدای شما را با دقت دریافت کنیم.»

این در حالی است که شرکت مایکروسافت در ماه اکتبر سال ۲۰۱۶ اعلام کرد که سامانه تشخیص گفتار این شرکت دقتی برابر با انسان دارد. مایکروسافت نرخ خطای واژه را ۵٫۹ درصد اعلام کرد. البته مشخص نیست که روش ارزیابی دو شرکت یکسان است یا خیر. در اوایل سال ۲۰۱۷ گوگل بیان کرد از سال ۲۰۱۲ نرخ خطا را بیشتر از ۳۰ درصد کاهش داده است. گوگل بیان می‌کند استفاده از شبکه‌های عصبی تاثیر به سزایی داشته است.

او خبر جالبی را در کنفرانس با توسعه‌دهنگان به اشتراک گذاشت. در نسخه قبلی بلندگوی خانگی گوگل هوم از هشت میکروفون استفاده شده است. هم‌اکنون گوگل با کمک شبکه‌های عصبی به روش «بیم‌فورمینگ عصبی (neural beam forming)» دست یافتند. با این روش نوآورانه با تنها دو میکروفون به همان کیفیت و عملکرد نسخه پیشین با هشت میکروفون خواهد رسید.

فناوری شکل‌دهی گلبرگ آنتن یا بیم‌فورمینگ در دنیای امروز کاربردهای فراوانی دارد، از این ویژگی در علوم مختلف مانند صوت شناسی استفاده می گردد. این روش یکی از تکنیک‌های پردازش سیگنال به منظور ایجاد فیلترینگ فضایی است، ویژگی که از آن جهت ارسال و دریافت سیگنال در حالت بهینه استفاده می‌گردد. در نهایت می‌توان گفت عملکرد سامانه تشخیص گفتار به مرور زمان بهبود خواهد بافت اما هنوز فاصله زیادی تا رسیدن به نرخ خطای صفر درصد وجود دارد.

در زمینه اخبار فناوری و پیشرفت‌های محصولات شرکت گوگل بیشتر بخوانید:
>>رابط برنامه نویسی جدید گوگل میتواند اجزای درون فیلم را شناسایی کند

منبع: venturebeat

استفاده و بازنشر مطالب تنها با ذکر لینک منبع و نام (مجله فناوری‌های توان‌افزا و پوشیدنی) مجاز است.

در همین زمینه

رابط مغز و رایانه صدای دو زن را به آنها بازگرداند

انتشار کامل ترین نقشه ژنوم انسان توسط DeepMind

استارت اپ های اروپایی برتر در حوزه توان افزا

دیدگاهتان را بنویسید لغو پاسخ