سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی می‌کند!

آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیت‌های بیشماری از جمله کمک به ناشنوایان برای درک مکالمات پیرامونشان می‌تواند استفاده شود. سامانه جدید هوش مصنوعی دانشگاه آکسفورد قادر است بهتر از انسان لب خوانی کند.

سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی می‌کند!

حتی لب خوان‌های حرفه‌ای هم تنها ۲۰ تا ۶۰٪ از آنچه که یک فرد می‌گوید را تشخیص می‌دهند. تشخیص حرکت لب‌های فردی که با سرعت طبیعی صحبت می‌کند فوق العاده دشوار است به ویژه از راه دور و یا زمانی که لب پنهان باشد. لب خوانی تنها یک نقشه در NCIS (سریال آمریکایی) نیست، بلکه ابزاری ضروری برای درک جهان توسط افراد دچار اختلال شنوایی است و اگر قابل اعتماد و خودکار باشد می‌تواند به میلیون‌ها انسان کمک کند.

دانشگاه آکسفورد با کمک مالی DeepMind در مقاله‌ای یک سیستم هوش مصنوعی به نام LipNet را معرفی و ویدئویی را منتشر کرده که در آن افرادی صحبت می‌کنند و سیستم، متن تطبیقی با حرکت دهان آنها را با دقت ۹۳٫۴٪ مشخص می‌کند.

سیستم‌های قبلی، کلمه به کلمه کار می‌کردند و دقت آنها ۷۹٫۶٪ بود. پژوهشگران آکسفورد می‌گویند موفقیت این سیستم جدید به دلیل روش‌ منحصر بفرد تفکر در مورد این مسئله است که به جای آموزش هر حرکت دهان با استفاده از یک سامانه واج بصری به AI، پژوهشگران سیستمی برای پردازش تمام جملات در یک زمان ساختند. این روش به AI اجازه می‌دهد که خود آن حرفی که مربوط به هر حرکت دهان است را تشخیص دهد.

پژوهشگران برای آموزش سیستم نزدیک به ۲۹،۰۰۰ فیلم برچسب دار شده با طول سه ثانیه را به هوش مصنوعی نشان دادند. برای اینکه ببینید چگونه لب خوان‌های انسانی همان کار را انجام می‌دهند، این گروه سه نفر از اعضای دانشجویان جامعه معلولین آکسفورد را استخدام و آنها را با ۳۰۰ فیلم تصادفی شبیه به آنهایی که برای آموزش سیستم AI استفاده شد، آزمایش کردند. این افراد نرخ ​​خطای متوسط ۴۷٫۷٪ داشتند، در حالی که نرخ خطای هوش مصنوعی تنها ۶٫۶ درصد بود.

با وجود موفقیت این پروژه، سیستم هنوز هم برخی از محدودیت‌های پژوهش مدرن هوش مصنوعی را دارد. این گروه هنگام آموزش AI برای لب خوانی از یک مجموعه فیلم‌های ویژه استفاده کردند. هر شخص رو به جلو بود و به خوبی و واضح یک ساختار جمله استاندارد را بیان می‌کرد.

به عنوان مثال: «Place blue in m 1 soon » یکی از عبارات استاندارد سه ثانیه‌ای مورد استفاده در آموزش و متشکل از یک دستور، رنگ، حرف اضافه، عدد از ۱تا۱۰ و قید بود. همه جملات این الگو را دنبال می‌کنند. بنابراین دقت فوق العاده‌ی AI ممکن است به این علت باشد که آن در شرایط فوق‌العاده‌ای آموزش دیده و تست شده است. برای نمونه اگر بخواهید فیلم‌هایی از یوتیوب را لب خوانی کنید، نتایج احتمالاً دقت بسیار کمتری دارند.

برخی از گفتمان‌های عمومی جالب در مورد مقالات AI در گستره وسیعی از توییتر اتفاق افتاد. هنگامی که دیگر پژوهشگران اشاره کردند که استفاده از چنین فیلم‌های آموزشی تخصصی در دنیای واقعی کاربردی ندارد، نویسنده ناندو د فریتاس از نتایج مقاله خود دفاع و اشاره کرد گروهش از مجموعه فیلم‌های دیگری نیز استفاده کرده که بسیار نویزی هستند. د فریتاس نوشت: مطمئن است که با توجه به اطلاعات صحیح استفاده شده این نتایج امری قابل انتظار بوده است.

به گفته جک کلارک از آزمایشگاه هوش مصنوعی OpenAI، برای انجام اینکار در دنیای واقعی سه بهبود عمده باید انجام شود: استفاده از ویدئوهای بسیاری که مردم در موقعیت‌های دنیای واقعی بیان می‌کنند، قابلیت لب خوانی از زوایای متعدد و هوش مصنوعی بتواند انواع گوناگونی از عبارت‌ها را پیش بینی کند. کلارک نوشت: «فناوری چنین ابزاری را دارد، هر چند به نظر می‌رسد که ساخت آن اجتناب ناپذیر است».

آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیت‌های بیشماری می‌تواند استفاده شود. یک سیستم مشابه می‌تواند به ناشنوایان برای درک مکالمات پیرامون کمک کند و یا اشکال دیگری از AI را تقویت کند که به صدای ویدئو گوش میدهد و به سرعت شرح تصاویر را تولید می‌کند.

منبع: QUARTZ

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *