توسعه رباتهای انساننما در طول دو دهه با سرعت آهسته پیش رفته است، اما اخیراً شاهد پیشرفتهای بیشتر و بیشتری در این زمینه بودهایم. همانطور که اخیرا نوشتیم، یک ربات هوش مصنوعی در MWC 2024 ارائه شد آمکاو پیشرفت دیگری، Unitree H1، رکورد سرعت را در بین ربات های انسان نما شکست. و اکنون یک نتیجه تماشایی از همکاری بین شرکتهای Figure AI و OpenAI در اینترنت ظاهر شده است - ویدیوی خیرهکننده از یک ربات انساننما که اکنون میتواند با مردم گفتگو کند.
Startup Figure AI ویدیویی را منتشر کرد که نشان میدهد ربات Figure 01 با مدل جدید زبان ویژوال (VLM) کار میکند. در آن، شکل 01 روی میزی ایستاده است که روی آن یک بشقاب، یک سیب و یک فنجان وجود دارد. یک خشک کن در سمت چپ وجود دارد. و به این سوال که ربات در مقابل خود چه چیزی می بیند، او با تشریح جزئیات همه چیزهایی که روی میز است، پاسخ می دهد.
و سپس مرد می پرسد آیا می تواند چیزی بخورد و ربات پاسخ می دهد: "البته" و سپس با یک حرکت نرم و ماهرانه سیب را می گیرد و به مرد می دهد. پس از آن نمایش خیره کننده دیگری وجود دارد - مردی زباله های مچاله شده را از یک سبد در مقابل شکل 01 می ریزد و از ربات می خواهد توضیح دهد که چرا این کار را انجام داده است و در همان زمان زباله های درون سبد را جمع آوری می کند. و در حالی که کاغذ را دوباره در سطل زباله میگذارد، "فکر" خود را توضیح میدهد. ربات گفت: "بنابراین من به شما یک سیب دادم، زیرا این تنها چیزی است که می توانم از روی میز به شما بدهم."
نمایندگان شرکت توضیح دادند که شکل 01 از یک مدل چندوجهی از پیش آموزش دیده استفاده می کند OpenAI, VLM، برای درک تصاویر و متون، و برای تولید پاسخهای خود به پیامهای صوتی متکی است. این با مثلاً GPT-4 OpenAI که بر روی اعلانهای نوشته شده تمرکز دارد متفاوت است.
همچنین از چیزی که شرکت آن را "دستکاری های دو دستی سطح پایین آموخته شده" می نامد استفاده می کند. این سیستم کالیبراسیون دقیق تصویر (تا سطح پیکسل) را با شبکه عصبی خود برای کنترل حرکت هماهنگ می کند. Figure AI در بیانیه ای گفت: «این شبکه ها تصاویر را با فرکانس 10 هرتز دریافت می کنند و عملکردهای 24-DOF (حالت مچ دست و زوایای مفصل انگشتان) را با فرکانس 200 هرتز تولید می کنند.
این شرکت ادعا میکند که هر رفتاری در ویدیو مبتنی بر یادگیری سیستمی است، بنابراین هیچکس در پشت صحنه، رشتههای شکل 01 را نمیکشد. البته، یک تفاوت ظریف وجود دارد - مشخص نیست که ربات چند بار این روش را طی کرده است. شاید این صدمین بار بود که حرکات دقیق او را توضیح می دهد. اما در هر صورت این دستاورد دیدنی و کمی خارق العاده به نظر می رسد.
شکل 01 اکنون در حال تکمیل وظایف دنیای واقعی است
همه چیز مستقل است:
ناوبری خودکار و دستکاری مبتنی بر نیرو
- مدل دید آموخته شده برای تشخیص و اولویت بندی سطل
- دستکاری سطل واکنشی (مقاوم در تغییر وضعیت)
-قابل تعمیم به سایر وظایف انتخاب / مکان عکسtwitter.com/0wFmYnq0GC- شکل (@Figure_robot) فوریه 26، 2024
همچنین بخوانید: