Root Nationاخباراخبار فناوری اطلاعاتFigure AI مهارت های جدید ربات هوش مصنوعی انسان نما خود را نشان داد

Figure AI مهارت های جدید ربات هوش مصنوعی انسان نما خود را نشان داد

-

توسعه ربات‌های انسان‌نما در طول دو دهه با سرعت آهسته پیش رفته است، اما اخیراً شاهد پیشرفت‌های بیشتر و بیشتری در این زمینه بوده‌ایم. همانطور که اخیرا نوشتیم، یک ربات هوش مصنوعی در MWC 2024 ارائه شد آمکاو پیشرفت دیگری، Unitree H1، رکورد سرعت را در بین ربات های انسان نما شکست. و اکنون یک نتیجه تماشایی از همکاری بین شرکت‌های Figure AI و OpenAI در اینترنت ظاهر شده است - ویدیوی خیره‌کننده از یک ربات انسان‌نما که اکنون می‌تواند با مردم گفتگو کند.

Figure AI و OpenAI یک ربات انسان نمای جدید با هوش مصنوعی معرفی کردند

Startup Figure AI ویدیویی را منتشر کرد که نشان می‌دهد ربات Figure 01 با مدل جدید زبان ویژوال (VLM) کار می‌کند. در آن، شکل 01 روی میزی ایستاده است که روی آن یک بشقاب، یک سیب و یک فنجان وجود دارد. یک خشک کن در سمت چپ وجود دارد. و به این سوال که ربات در مقابل خود چه چیزی می بیند، او با تشریح جزئیات همه چیزهایی که روی میز است، پاسخ می دهد.

و سپس مرد می پرسد آیا می تواند چیزی بخورد و ربات پاسخ می دهد: "البته" و سپس با یک حرکت نرم و ماهرانه سیب را می گیرد و به مرد می دهد. پس از آن نمایش خیره کننده دیگری وجود دارد - مردی زباله های مچاله شده را از یک سبد در مقابل شکل 01 می ریزد و از ربات می خواهد توضیح دهد که چرا این کار را انجام داده است و در همان زمان زباله های درون سبد را جمع آوری می کند. و در حالی که کاغذ را دوباره در سطل زباله می‌گذارد، "فکر" خود را توضیح می‌دهد. ربات گفت: "بنابراین من به شما یک سیب دادم، زیرا این تنها چیزی است که می توانم از روی میز به شما بدهم."

نمایندگان شرکت توضیح دادند که شکل 01 از یک مدل چندوجهی از پیش آموزش دیده استفاده می کند OpenAI, VLM، برای درک تصاویر و متون، و برای تولید پاسخ‌های خود به پیام‌های صوتی متکی است. این با مثلاً GPT-4 OpenAI که بر روی اعلان‌های نوشته شده تمرکز دارد متفاوت است.

همچنین از چیزی که شرکت آن را "دستکاری های دو دستی سطح پایین آموخته شده" می نامد استفاده می کند. این سیستم کالیبراسیون دقیق تصویر (تا سطح پیکسل) را با شبکه عصبی خود برای کنترل حرکت هماهنگ می کند. Figure AI در بیانیه ای گفت: «این شبکه ها تصاویر را با فرکانس 10 هرتز دریافت می کنند و عملکردهای 24-DOF (حالت مچ دست و زوایای مفصل انگشتان) را با فرکانس 200 هرتز تولید می کنند.

این شرکت ادعا می‌کند که هر رفتاری در ویدیو مبتنی بر یادگیری سیستمی است، بنابراین هیچ‌کس در پشت صحنه، رشته‌های شکل 01 را نمی‌کشد. البته، یک تفاوت ظریف وجود دارد - مشخص نیست که ربات چند بار این روش را طی کرده است. شاید این صدمین بار بود که حرکات دقیق او را توضیح می دهد. اما در هر صورت این دستاورد دیدنی و کمی خارق العاده به نظر می رسد.

همچنین بخوانید:

منبعtechradar
ثبت نام
اطلاع رسانی در مورد
مهمان

0 نظرات
بررسی های جاسازی شده
مشاهده همه نظرات
برای به روز رسانی مشترک شوید