تیمی در دانشگاه توکیو از Alter3 رونمایی کردند، یک ربات انسان نما که می تواند حرکات را با استفاده از مدل زبان بزرگ GPT-4 (LLM) انجام دهد. Alter3 از جدیدترین ابزار استفاده می کند AI را باز کنید برای گرفتن پویا پوزهای مختلف، از ژست سلفی گرفته تا شبح، همه بدون نیاز به ورودی های از پیش برنامه ریزی شده پایگاه داده.

محققان می‌گویند: «پاسخ Alter3 به محتوای محاوره‌ای با استفاده از حالات چهره و حرکات، پیشرفت قابل‌توجهی در رباتیک انسان‌نما است که به راحتی با سایر اندرویدها با حداقل تغییرات سازگار است».

در زمینه ادغام LLM با روبات ها، تمرکز بر بهبود ارتباطات اولیه و مدل سازی پاسخ های واقع بینانه است. محققان همچنین در حال بررسی قابلیت‌های LLM هستند تا ربات‌ها را قادر به درک و اجرای دستورالعمل‌های پیچیده کنند و در نتیجه عملکرد آنها را افزایش دهند.

به طور سنتی، مدیریت سطح پایین روبات ها به سخت افزار گره خورده است و خارج از حوزه اختیارات شرکت های LLM است. این مشکلاتی را برای مدیریت مستقیم آثار مبتنی بر LLM ایجاد می کند. برای حل این مشکل، تیم ژاپنی روشی را برای تبدیل عبارات حرکات انسان به کد قابل درک برای اندروید توسعه داده است. این بدان معنی است که ربات می تواند به طور مستقل دنباله ای از اقدامات را در طول زمان بدون نیاز به برنامه نویسان برای برنامه ریزی جداگانه هر قسمت از بدن ایجاد کند.

در حین تعامل، شخص می تواند دستوراتی مانند “Take a selfie with your iPhone” به Alter3 بدهد. متعاقباً، ربات یک سری درخواست از GPT-4 را برای دریافت راهنمایی در مورد مراحل لازم آغاز می کند. GPT-4 این را به کد پایتون ترجمه می کند که به کار اجازه می دهد تا "درک" و حرکات لازم را انجام دهد. این نوآوری به Alter3 اجازه می دهد تا بالاتنه خود را حرکت دهد در حالی که پایین تنه او ثابت می ماند و به پایه متصل می شود.

Alter3 سومین تکرار از سری ربات‌های انسان‌نمای Alter از سال 2016 است که دارای 43 عملگر است که مسئول حالات چهره و حرکات اندام هستند که توسط هوای فشرده کار می‌کنند. این پیکربندی طیف گسترده ای از حرکات بیانی را ارائه می دهد. این ربات نمی تواند راه برود، اما می تواند حرکات معمولی راه رفتن و دویدن را تقلید کند.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 همچنین توانایی کپی ژست های انسانی را با استفاده از دوربین و چارچوب OpenPose نشان داد. ربات مفاصل خود را با وضعیت های مشاهده شده تنظیم می کند و تقلیدهای موفق را برای استفاده بعدی ذخیره می کند. تعامل با یک انسان منجر به پوسچرهای متنوع تری شد و از این ایده حمایت کرد که حرکات مختلف از تقلید از انسان ناشی می شود، مشابه نحوه یادگیری نوزادان از طریق تقلید.

قبل از LLM، محققان باید تمام 43 محرک را به دقت کنترل می کردند تا ژست یک فرد را بازسازی کنند یا یک رفتار را شبیه سازی کنند، مانند سرو چای یا بازی شطرنج. این نیاز به تنظیمات دستی متعددی داشت، اما هوش مصنوعی به رهایی تیم از این روال کمک کرد. ما انتظار داریم که Alter3 با نمایش حالات چهره و حرکات مرتبط با زمینه، به طور موثر در گفتگو شرکت کند. محققان می‌گویند که این توانایی نشان دادن احساسات، به عنوان مثال، نشان دادن غم یا شادی در پاسخ، و در نتیجه به اشتراک گذاشتن احساسات با ما را نشان می‌دهد.

همچنین بخوانید:

منبعمهندسی جالب

ثبت نام

0 نظرات

بررسی های جاسازی شده

مشاهده همه نظرات

مقالات دیگر

در توکیو، موفقیت های ربات انسان نمای Alter3 بر اساس GPT-4 به نمایش گذاشته شد

نظرات اخیر