هوش مصنوعی ImageBind متا می تواند ادراک انسان را تقلید کند

متا کد را در هوش مصنوعی دسترسی باز تحت نام منتشر می کند imagebind، که روابط بین داده ها را شبیه به نحوه درک یا تصور افراد از محیط خود پیش بینی می کند. در حالی که تولیدکننده‌های تصویر مانند Midjourney، Stable Diffusion و DALL-E 2 کلمات را به تصاویر متصل می‌کنند و به شما امکان می‌دهند صحنه‌های بصری را فقط بر اساس یک توصیف متنی ایجاد کنید، ImageBind فراتر از آن است. این می‌تواند متن، تصاویر یا ویدیو، صدا، اندازه‌گیری‌های سه بعدی، داده‌های دما و داده‌های حرکت را پیوند دهد - و این کار را بدون نیاز به پیش‌آموزش در هر فرصتی انجام می‌دهد. این مرحله اولیه یک چارچوب است که در نهایت می‌تواند محیط‌های پیچیده را از ورودی‌های ساده مانند دستور متن، تصویر یا صدا (یا ترکیبی از آنها) ایجاد کند.

شما می توانید ImageBind را به عنوان تقریبی از یادگیری ماشینی به یادگیری انسان در نظر بگیرید. به عنوان مثال، اگر در یک محیط پویا مانند یک خیابان شهری شلوغ ایستاده اید، مغز شما (بیشتر ناخودآگاه) مناظر، صداها و سایر احساسات حسی را جذب می کند تا اطلاعاتی در مورد اتومبیل های در حال عبور، ساختمان های بلند، آب و هوا و غیره به دست آورد. . انسان ها و سایر حیوانات برای پردازش این داده ها برای مزایای ژنتیکی ما تکامل یافته اند: بقا و انتقال DNA ما. (هرچه بیشتر در مورد محیط اطراف خود بدانید، بیشتر می توانید از خطر جلوگیری کنید و با محیط خود سازگار شوید تا بهتر بقا و شکوفا شوید). همانطور که کامپیوترها به تقلید از اتصالات چندحسی حیوانات نزدیک می شوند، می توانند از این اتصالات برای تولید صحنه های کاملاً واقعی بر اساس داده های محدودی استفاده کنند.

بنابراین، در حالی که ممکن است از Midjourney برای ایجاد «یک سگ تازی در لباس گاندالف در حال تعادل روی توپ ساحلی» استفاده کنید و عکسی نسبتاً واقعی از آن صحنه عجیب بگیرید، یک ابزار هوش مصنوعی چندوجهی مانند ImageBind ممکن است در نهایت ویدیویی را با سگ مربوطه ایجاد کند. صداها، از جمله اتاق نشیمن دقیق، دمای اتاق و محل دقیق سگ و هر کس دیگری که در صحنه است. محققان Meta در وبلاگ توسعه‌دهنده خود خاطرنشان می‌کنند: «این یک فرصت عالی برای ایجاد انیمیشن‌ها از تصاویر ثابت با ترکیب آن‌ها با پیام‌های صوتی ایجاد می‌کند». به عنوان مثال، یک خالق می‌تواند یک تصویر را با ساعت زنگ دار و یک خروس در حال بانگ زدن ترکیب کند و از یک نشانه صوتی برای بخش‌بندی خروس یا صدای زنگ ساعت برای تقسیم ساعت استفاده کند و هر دو را در یک دنباله ویدیویی متحرک کند.»

در مورد اینکه چه کارهای دیگری می‌توان با این اسباب‌بازی جدید انجام داد، به وضوح به یکی از جاه‌طلبی‌های متا اشاره می‌کند: واقعیت مجازی، واقعیت ترکیبی و متاس‌فضا. به عنوان مثال، یک هدست آینده را تصور کنید که می تواند صحنه های کاملاً سه بعدی (با صدا، حرکت و غیره) را در حال ساخت بسازد. یا توسعه دهندگان بازی های مجازی در نهایت می توانند از آن برای صرفه جویی در بخش قابل توجهی از کار پر زحمت در فرآیند طراحی استفاده کنند. به همین ترتیب، سازندگان محتوا می‌توانند ویدیوهای همهجانبه‌ای را با موسیقی متن و حرکت واقعی و بر اساس متن، تصاویر یا صدا ایجاد کنند. تصور اینکه چگونه ابزاری مانند ImageBind با ایجاد توضیحات چندرسانه‌ای بلادرنگ برای کمک به افرادی که دارای اختلالات بینایی یا شنوایی هستند، درهای جدیدی را در دسترس‌پذیری باز می‌کند تا به درک بهتر محیط خود کمک کند.

همچنین جالب: بهترین ابزار مبتنی بر هوش مصنوعی

متا می‌گوید: «در سیستم‌های هوش مصنوعی معمولی، تعبیه خاصی (یعنی بردارهایی از اعداد که می‌توانند داده‌ها و روابط آنها را در یادگیری ماشین نشان دهند) برای هر روش مرتبط وجود دارد. «ImageBind نشان می‌دهد که می‌توان یک فضای جاسازی مشترک برای چندین روش بدون نیاز به آموزش داده‌ها با هر ترکیب مجزا از روش‌ها ایجاد کرد. این مهم است زیرا محققان نمی‌توانند مجموعه داده‌هایی را با نمونه‌هایی ایجاد کنند که برای مثال حاوی داده‌های صوتی و داده‌های حرارتی از یک خیابان شلوغ شهر، یا داده‌های عمقی و توصیف متنی یک صخره کنار دریا باشد.»

متا معتقد است که این فناوری در نهایت از شش "حس" فعلی فراتر خواهد رفت. اگرچه ما شش روش را در مطالعه فعلی خود بررسی کردیم، اما معتقدیم که معرفی روش‌های جدیدی که حواس زیادی را به هم متصل می‌کنند - مانند لامسه، گفتار، بویایی و سیگنال‌های مغزی fMRI - به مدل‌های هوش مصنوعی انسان محور غنی‌تر اجازه می‌دهد. توسعه دهندگان علاقه مند به کاوش در این جعبه شنی جدید می توانند با غواصی در کد منبع باز متا شروع کنند.

همچنین بخوانید:

منبعEngadget

ثبت نام

0 نظرات

بررسی های جاسازی شده

مشاهده همه نظرات

مقالات دیگر

هوش مصنوعی ImageBind متا می تواند ادراک انسان را تقلید کند

نظرات اخیر