چرا «هوش لمسی» آیندۀ مهارت چنگ زدن در علم رباتیک است؟

زمانی که انسان‌ها سعی می‌کنند شی‌ای را چنگ زده و در دست نگه دارند از ترکیبی از حواس استفاده می‌کنند که مهم‌ترین آن حس بینایی و لامسه است. اما تاکنون بیشترین تلاش برای حل مشکل چنگ زدن در ربات‌ها بر روی استفاده از بینایی به تنهایی متمرکز بوده که منجر به توانایی کامل چنگ زدن رباتیک نمی‌شود. آینده رباتیک افزون بر بینایی به هوش لمسی هم نیاز دارد.

چرا هوش لمسی آینده چنگ زدن رباتیک است؟

نه تنها بینایی بلکه قابلیت‌های لمسی بهبود یافته به ربات‌ها اجازه خواهد داد تا هر شی‌ای را چنگ بزنند. تصویر از آزمایشگاه CoRo

کار ساده برداشتن اشیا به این آسانی که به نظر می‌رسد نیست، نه دست کم برای ربات‌ها. متخصصین رباتیک در تلاشند رباتی توسعه دهند که بتواند هر شی‌ای را بردارد. اما امروزه بیشتر ربات‌ها «چنگ زدن کور» را انجام می‌دهند به این معنی که آنها طوری برنامه‌ریزی شده‌اند تا همیشه یک شی را از یک مکان بردارند. اگر هر چیزی مانند شکل، بافت و یا مکان جسم تغییر کند ربات نمی‌داند چگونه عمل کند و تلاش برای فهمیدن به احتمال زیاد با شکست مواجه خواهد شد.

ربات‌ها برای چنگ زدن هر شی به طور کامل و در نخستین تلاش هنوز راه طولانی در پیش دارند. چرا حالت چنگ زدن چنین مشکل بزرگی است؟ زمانی که افراد سعی می‌کنند چیزی را چنگ بزنند و شیئی را در دست بگیرند از ترکیبی از حواس استفاده می‌کنند که نخستین آنها حواس بصری و لمسی است. اما تاکنون بیشترین تلاش برای حل مشکل چنگ زدن در استفاده از بینایی به تنهایی متمرکز بوده است.

این رویکرد احتمالاً نتایجی که به طور کامل مطابق با قابلیت‌های انسانی باشد، در پی ندارد. زیرا اگر چه بینایی برای چنگ زدن مهم است اما به سادگی نمی‌تواند همه آنچه که برای چنگ زدن لازم دارید را به شما بگوید. ملاحظه کنید که استیون پینکر چگونه همه چیزی که انسان با حس لامسه انجام می‌دهد را توصیف می‌کند: وی در کتاب «چگونه ذهن کار می‌کند» نوشت: «تصور کنید یک پاکت شیر را بلند می‌کنید. اگر بیش از حد آن را شل نگه دارید، می‌افتد و اگر خیلی محکم نگه دارید، له می‌شود. شما حتی می‌توانید با استفاده از نوک انگشتان خود اندازه بگیرید که چه مقدار شیر داخل آن است!». چون ربات فاقد این قابلیت‌های سنجش است، هنوز هم فاصله بسیاری با انسان‌ها در انجام ساده‌ترین کار مانند برداشتن و گذاشتن اشیا دارد.

من مدت طولانی پیشرفت‌های قابل توجه در روش‌های چنگ زدن را دنبال کردم و متقاعد شدم که تمرکز فعلی روی بینایی رباتیک منجر به توانایی کامل چنگ زدن نمی‌شود. آینده رباتیک علاوه بر بینایی نیاز به چیز دیگری دارد: هوش لمسی

به عنوان یک پژوهشگر که گروه لمسی و مکاترونیک در آزمایشگاه رباتیک و کنترل (CoRo) آموزشگاه École de Technologie Supérieure در مونترال کانادا را رهبری می‌کند و به عنوان یکی از بنیانگذاران Robotiq، یک شرکت رباتیک در Québec City، من مدت طولانی پیشرفت‌های قابل توجه در روش‌های چنگ زدن را دنبال کردم و متقاعد شدم که تمرکز فعلی روی بینایی رباتیک منجر به توانایی کامل چنگ زدن نمی‌شود. آینده رباتیک علاوه بر بینایی نیاز به چیز دیگری دارد: هوش لمسی

مطالعات پیشین روی بینایی متمرکز شده‌اند نه هوش لمسی

تاکنون بسیاری از پژوهش‌ها در روش چنگ زدن رباتیک، اطلاعات بازخورد بصری را هدف خود قرار داده‌اند. یکی از راه‌های انجام این کار، از طریق تطبیق با پایگاه داده‌های تصویری است که در چالش میلیون‌ها شی در آزمایشگاه انسان‌ها تا ربات‌های براون مورد استفاده قرار گرفته است. ایده این است که ربات از یک دوربین برای تشخیص شی هدف و نظارت بر حرکات خود زمانی که در تلاش است تا شی را چنگ بزند، استفاده کند. حین انجام این کار، ربات اطلاعات بصری واقعی را با اسکن سه بعدی تصاویر ذخیره شده در پایگاه داده مقایسه می‌کند. هنگامی که ربات تطبیق را پیدا کند درواقع الگوریتم مناسب برای وضعیت فعلی خود را پیدا کرده است.

در حالی که رویکرد براون در تلاش است تا داده‌های بصری برای انواع اشیاء را جمع‌آوری کند، متخصصین رباتیک بعید میدانند که بتوان یک پایگاه داده بصری برای هر موردی که ربات ممکن است با آن روبرو شود، ساخت. علاوه براین، رویکرد تطبیق با پایگاه داده شامل محدودیت‌های محیطی نمی‌شود.

پژوهشگران دیگری از روش یادگیری ماشین برای بهبود چنگ زدن رباتیک استفاده کردند. این روش به ربات‌ها اجازه می‌دهد از تجربیات خود برای یادگیری استفاده کنند، بنابراین در نهایت ربات‌ها می‌توانند بهترین روش برای چنگ زدن اشیا را خود کشف کنند. برخلاف روش تطبیق با پایگاه داده، یادگیری ماشین نیاز به دانش پیشین کمی دارد و لازم نیست ربات به یک پایگاه داده تصویری از پیش ساخته دسترسی داشته باشد بلکه تنها به مقدار زیادی تمرین نیاز دارد.

اوایل سال جاری گزارش شد که گوگل تجربه ترکیب یک سامانه بینایی با یادگیری ماشین داشته است. در گذشته پژوهشگران در تلاش بودند تا بوسیله آموزش ربات‌ها برای دنبال کردن روش‌هایی که انسان‌ها فکر می‌کردند بهترین روش است، توانایی چنگ زدن را بهبود ببخشند. بزرگترین موفقیت گوگل این بود که نشان داد چگونه ربات می‌تواند خودش با استفاده از یک شبکه عمیق عصبی پیچیده، یک سامانه بینایی و مقدار بسیاری از داده‌ها (۸۰۰،۰۰۰ تلاش برای چنگ زدن) بر اساس آنچه از تجارب گذشته به دست آمده، آموزش ببیند.

نتایج آنها بسیار امیدوار کننده به نظر می‌رسد: از آنجا که پاسخ ربات از پیش برنامه‌ریزی نشده بود، می‌توان گفت همه پیشرفت‌ها به طور طبیعی از یادگیری ناشی شده است. اما محدودیت‌هایی در مورد آنچه که بینایی می‌تواند به ربات بگوید وجود دارد و گوگل ممکن است در حال حاضر به آن حد فاصل رسیده باشد.

تمرکز صرفاً بر روی بینایی منجر به مشکلات خاصی می‌شود

گوگل و دیگران به سختی می‌توانند با بینایی به تنهایی بر چالش‌ها غلبه کنند. سه دلیل عمده وجود دارد: نخست بینایی موضوعی است که محدودیت‌های فنی متعددی دارد. حتی سیستم‌های بینایی پیشرفته نیز مشکلاتی برای درک اشیا در شرایط نوری خاص مانند انعکاس و رنگ با کنتراست کم و یا هنگامی که شی بیش از حد نازک است، دارد.

بینایی به تنهایی برای ماهیت این مسئله مناسب نیست: چنگ زدن یک موضوع تماسی و وارد کردن نیرو است که با بینایی به تنهایی نمی‌توان آن را تحت نظارت داشت. در بهترین حالت، بینایی می‌تواند ربات را از تنظیمات و حالت انگشت‌ها آگاه کند که به احتمال زیاد موفق شود اما در نهایت ربات به اطلاعات لمسی نیاز دارد.

دوم، بسیاری از چنگ زدن‌ها شامل حالت‌هایی است که دیدن کل جسم دشوار است، به طوری که بینایی اغلب نمی‌تواند تمام اطلاعاتی که ربات ممکن است نیاز داشته باشد را ارائه دهد. اگر ربات در تلاش باشد تا یک بلوک چوبی را از روی میز بردارد، یک سیستم بینایی ساده فقط بالای بلوک را میبیند و ربات هیچ ایده‌ای برای اینکه آن طرف بلوک چگونه است ندارد.

در نهایت و از همه مهمتر، بینایی به سادگی برای ماهیت این مسئله مناسب نیست: چنگ زدن یک موضوع تماسی و وارد کردن نیرو است که با بینایی به تنهایی نمی‌توان آن را تحت نظارت داشت. در بهترین حالت، بینایی می‌تواند ربات را از تنظیمات و حالت انگشت‌ها آگاه کند که به احتمال زیاد موفق شود اما در نهایت ربات به اطلاعات لمسی نیاز دارد تا مقادیر فیزیکی که با چنگ زدن در ارتباط است را بفهمد.

چگونه هوش لمسی کمک می‌کند

حس لامسه نقش محوری برای انسان حین چنگ زدن اشیا بازی می‌کند. برای افراد قطع عضو که دست خود را از دست داده‌اند یکی از بزرگترین مشکلات، ناتوانی در احساس چیزی است که آنها با استفاده از دستگاه‌های پروتز لمس می‌کنند. افراد قطع عضو بدون حس لامسه باید حین چنگ زدن و برداشتن اشیا از حس بینایی خود استفاده کنند، در صورتی که یک فرد سالم و بدون قطع عضو می‌تواند اشیا را حتی بدون نگاه کردن، بردارد.

آنچه مورد نیاز است یک راه برای تبدیل این داده‌های خام و سطح پایین به اطلاعات سطح بالا که منجر به عملکرد بهتر چنگ زدن خواهد شد. هوش لمسی می‌تواند به ربات توانایی پیش بینی چنگ زدن موفق را با استفاده از لمس کردن، تشخیص لغزش جسم و شناسایی اشیاء بر اساس نشانه‌های لمسی را بدهد.

پژوهشگران از نقش حیاتی حسگر لمسی در چنگ زدن آگاه هستند و در ۳۰ سال گذشته تلاش‌های بسیاری برای ساخت یک حسگر لمسی که بتواند توانایی انسان را تقلید کند، انجام دادند. با این حال سیگنال‌های فرستاده شده توسط یک حسگر لمسی، پیچیده است و ابعاد بسیاری دارد. آنچه مورد نیاز است یک راه برای تبدیل این داده‌های خام و سطح پایین به اطلاعات سطح بالا که منجر به عملکرد بهتر چنگ زدن خواهد شد. هوش لمسی می‌تواند به ربات توانایی پیش بینی چنگ زدن موفق را با استفاده از لمس کردن، تشخیص لغزش جسم و شناسایی اشیاء بر اساس نشانه‌های لمسی بدهد.

من و همکارانم در آزمایشگاه CoRo در حال ایجاد بلوک‌هایی هستیم که هسته اصلی این هوش جدید را تشکیل خواهد داد. یکی از تحولات اخیر، یک الگوریتم یادگیری ماشین است که با استفاده از تصاویر فشار، چنگ زدن موفق و شکست خورده را پیش بینی می‌کند. سیستم توسعه یافته توسط دین کاکبرن و ژان فیلیپ روبرگ یک تلاش برای نزدیک کردن سطح توانایی چنگ زدن ربات به انسان است.

چرا هوش لمسی آینده چنگ زدن رباتیک است؟

اطلاعات لمسی که در طول تلاش برای چنگ زدن اشیا گوناگون به دست می‌آید. این اشیا بر اساس فهرستی که در Amazon برای چالش ۲۰۱۵ Amazon Picking  منتشر شده، انتخاب شده‌اند. تصویر: آزمایشگاه CoRo

این جایی است که به اعتقاد من آزمایشگاه CORO پیروز شده است. با ترکیب یک دست رباتیک از Robotiq با کنترل UR10 از ربات‌های جهانی و اضافه کردن چند حسگر لمسی چند حالته و یک سامانه بینایی مبتنی بر Kinect (تنها با هدف تعیین مرکز هندسی هر شی استفاده شده)، رباتی به دست آمده که قادر به بلند کردن انواع اشیاء و استفاده از این داده‌ها برای یادگیری بود. در نهایت، سامانه‌ای ایجاد شده که ۸۳ درصد مواقع چنگ زدن را به درستی انجام میدهد.

چرا هوش لمسی آینده چنگ زدن رباتیک است؟

یکی از دست‌های رباتیک استفاده شده برای آزمایش‌ها. یک چنگ زن سه انگشتی از Robotiq. تصویر: آزمایشگاه CoRo

در همین زمان یک گروه دیگر در آزمایشگاه CoRo، به رهبری ژان فیلیپ روبرگ، به طور خاص روی تشخیص لغزش متمرکز شده بودند. ما انسان‌ها می‌توانیم زمانی که یک شی در حال لغزیدن از چنگمان است را به سرعت تشخیص دهیم چون انگشتان ما شامل گیرنده‌های مکانیکی سریع تطبیقی هستند. این گیرنده‌ها در پوست ما هستند و تغییرات فشار و ارتعاش را به سرعت تشخیص می‌دهند. اشیا هنگام لغزیدن ارتعاشاتی در سطح دست تولید می‌کنند بنابراین پژوهشگران تصاویر لرزش ورودی (طیف نگاره‌ها) را به جای تصاویر فشار به الگوریتم یادگیری ماشین دادند. با این روش سامانه خود قادر به یادگیری ویژگی‌های تصاویر لرزش است که با لغزش جسم مطابقت دارد و با دقت ۹۲ درصد، لغزش اجسام را شناسایی می‌کرد.

از آنجایی که لغزش تنها یک سری ارتعاش است ممکن است به نظر آسان رسد که ربات متوجه لغزش شود اما چگونه می‌توان به ربات تفاوت بین ارتعاشاتی که هنگام لغزش از دست ربات اتفاق می‌افتد و ارتعاشاتی که به دلیل کشیدن شی روی سطح جسمی مانند میز به وجود می‌آید را آموخت؟ فراموش نکنید که ارتعاشات کوچکی نیز هنگام حرکت دست ربات بوجود می‌آید. این سه رویداد مختلف سیگنال‌های مشابهی دارند اما نیاز به واکنش‌های بسیار متفاوتی از جانب ربات دارد. تمیز دادن بین این حوادث جایی است که از یادگیری ماشین استفاده می‌شود.

چرا هوش لمسی آینده چنگ زدن رباتیک است؟

حسگر لمسی ساخته شده توسط آزمایشگاه CoRo یک حسگر لمسی بسیار حساس چند حالته است که می‌تواند فشار، موقعیت تماس و ارتعاش را اندازه‌گیری کند. در اینجا یک قطره آب روی سطح حسگر قرار دارد و حسگر میتواند حتی وزن کم تولید شده توسط آن را اندازه‌گیری کند

دو گروه CORO هنگامی که از یادگیری ماشین استفاده کردند، یک چیز مشترک داشتند: هیچ یک از آنها از ویژگی‌های دستی برای الگوریتم یادگیری ماشین استفاده نکردند. به عبارت دیگر سیستم خود مشخص می‌کند چه چیزی مربوط به طبقه‌بندی لغزش است. به جای تکیه بر حدس پژوهشگران در مورد آنچه که بهترین شاخص ممکن است.

«ویژگی‌های سطح بالا» در گذشته همیشه دستی بودند به این معنی که پژوهشگران به صورت دستی ویژگی‌هایی را انتخاب می‌کردند که بتواند بین انواع حوادث لغزش تمایز ایجاد کند (یا بین یک چنگ زدن خوب و بد). اما در واقع زمانی که به ربات خود اجازه یادگیری دهند به مراتب دقیق‌تر است چون حدس پژوهشگران همیشه با واقعیت مطابقت ندارد.

به ویژه کدگذاری تنک برای این منظور مفید است. این یک الگوریتم یادگیری ویژگی بدون نظارت است و با ایجاد یک دیکشنری تنک کار می‌کند که برای نشان دادن داده‌های جدید استفاده می‌شود. نخست دیکشنری با در نظر گرفتن تصاویر اولیه فشار به عنوان ورودی یک الگوریتم کدگذاری تنک، ایجاد می‌شود. این دیکشنری ایجاد شده، نمایشی از ویژگی‌های سطح بالا است. سپس هنگامی که داده‌های جدید از تلاش برای چنگ زدن به دست می‌آید، دیکشنری برای تبدیل داده‌های خام جدید به نمایشی از آن داده‌ها، که بردار تنک نامیده می‌شود، استفاده می‌شود. در نهایت، بردارهای تنک بر اساس علل مختلف ارتعاشات (یا یک چنگ زدن خوب و بد) گروه بندی می‌شوند.

چرا هوش لمسی آینده چنگ زدن رباتیک است؟

دیکشنری‌های تنک برای تصاویر فشار از آزمایش پیش‌بینی چنگ زدن (چپ) و طیف نگاره از آزمایش تشخیص لغزش (راست)

دو گروه آزمایشگاه CORO در حال حاضر راه‌هایی برای به روز رسانی خودکار الگوریتم کدگذاری تنک را آزمایش می‌کنند، به طوری که هر تلاش برای چنگ زدن به ربات کمک خواهد کرد تا پیش بینی بهتری انجام دهد. ایده این است که در نهایت ربات قادر به استفاده از این اطلاعات برای تنظیم رفتار خود در طول چنگ زدن خواهد بود. این پژوهش یک نمونه بزرگ از همکاری هوش لمسی و بصری است تا به ربات در یادگیری چگونگی چنگ زدن اشیاء مختلف کمک کند.

آینده هوش لمسی

نکته کلیدی این پژوهش این نیست که بینایی را کنار بگذاریم. بینایی هنوز هم سهم عمده‌ای در چنگ زدن دارد. اما در حال حاضر بینایی مصنوعی به یک سطح معینی از توسعه رسیده است، بهتر است به جای ادامه تأکید روی بینایی به تنهایی، بر روی توسعه جنبه‌های جدیدی از هوش لمسی تمرکز کنیم.

روبرگ از آزمایشگاه CORO پتانسیل پژوهش‌های بینایی را با هوش لمسی طبق قانون ۸۰-۲۰ پارتو مقایسه می‌کند: در حال حاضر که جامعه رباتیک به نخستین ۸۰ درصد هوش بصری تسلط پیدا کرده، بسیار دشوار است تا ۲۰ درصد آخر به انجام رسد و کمک بسیاری نیز به چنگ زدن اشیا نمی‌کند. در مقابل، رباتیک هنوز روی نخستین ۸۰ درصد سنجش لمسی کار می‌کند. بنابراین تکمیل این ۸۰ درصد نخست نسبتاً آسان خواهد بود و پتانسیل ایجاد سهم فوق العاده‌ای در توانایی چنگ زدن ربات‌ها را دارد.

ما هنوز هم ممکن است راه طولانی تا روزی که یک ربات بتواند هر شی را از طریق لمس شناسایی کند داشته باشیم، چه رسد به تمیز کردن اتاق، اما هنگامی که آن روز فرا رسد، ما مطمئناً باید از پژوهشگران هوش لمسی تشکر کنیم.

در زمینه لمس کردن اجسام در رباتیک بیشتر بخوانید

>> حسگر پوستی گرم ربات‌ها را قادر می‌سازد با لمس کردن اجسام را شناسایی کنند

منبع: spectrum.ieee.org

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *