متا کد را در هوش مصنوعی دسترسی باز تحت نام منتشر می کند imagebind، که روابط بین داده ها را شبیه به نحوه درک یا تصور افراد از محیط خود پیش بینی می کند. در حالی که تولیدکنندههای تصویر مانند Midjourney، Stable Diffusion و DALL-E 2 کلمات را به تصاویر متصل میکنند و به شما امکان میدهند صحنههای بصری را فقط بر اساس یک توصیف متنی ایجاد کنید، ImageBind فراتر از آن است. این میتواند متن، تصاویر یا ویدیو، صدا، اندازهگیریهای سه بعدی، دادههای دما و دادههای حرکت را پیوند دهد - و این کار را بدون نیاز به پیشآموزش در هر فرصتی انجام میدهد. این مرحله اولیه یک چارچوب است که در نهایت میتواند محیطهای پیچیده را از ورودیهای ساده مانند دستور متن، تصویر یا صدا (یا ترکیبی از آنها) ایجاد کند.
شما می توانید ImageBind را به عنوان تقریبی از یادگیری ماشینی به یادگیری انسان در نظر بگیرید. به عنوان مثال، اگر در یک محیط پویا مانند یک خیابان شهری شلوغ ایستاده اید، مغز شما (بیشتر ناخودآگاه) مناظر، صداها و سایر احساسات حسی را جذب می کند تا اطلاعاتی در مورد اتومبیل های در حال عبور، ساختمان های بلند، آب و هوا و غیره به دست آورد. . انسان ها و سایر حیوانات برای پردازش این داده ها برای مزایای ژنتیکی ما تکامل یافته اند: بقا و انتقال DNA ما. (هرچه بیشتر در مورد محیط اطراف خود بدانید، بیشتر می توانید از خطر جلوگیری کنید و با محیط خود سازگار شوید تا بهتر بقا و شکوفا شوید). همانطور که کامپیوترها به تقلید از اتصالات چندحسی حیوانات نزدیک می شوند، می توانند از این اتصالات برای تولید صحنه های کاملاً واقعی بر اساس داده های محدودی استفاده کنند.
بنابراین، در حالی که ممکن است از Midjourney برای ایجاد «یک سگ تازی در لباس گاندالف در حال تعادل روی توپ ساحلی» استفاده کنید و عکسی نسبتاً واقعی از آن صحنه عجیب بگیرید، یک ابزار هوش مصنوعی چندوجهی مانند ImageBind ممکن است در نهایت ویدیویی را با سگ مربوطه ایجاد کند. صداها، از جمله اتاق نشیمن دقیق، دمای اتاق و محل دقیق سگ و هر کس دیگری که در صحنه است. محققان Meta در وبلاگ توسعهدهنده خود خاطرنشان میکنند: «این یک فرصت عالی برای ایجاد انیمیشنها از تصاویر ثابت با ترکیب آنها با پیامهای صوتی ایجاد میکند». به عنوان مثال، یک خالق میتواند یک تصویر را با ساعت زنگ دار و یک خروس در حال بانگ زدن ترکیب کند و از یک نشانه صوتی برای بخشبندی خروس یا صدای زنگ ساعت برای تقسیم ساعت استفاده کند و هر دو را در یک دنباله ویدیویی متحرک کند.»
در مورد اینکه چه کارهای دیگری میتوان با این اسباببازی جدید انجام داد، به وضوح به یکی از جاهطلبیهای متا اشاره میکند: واقعیت مجازی، واقعیت ترکیبی و متاسفضا. به عنوان مثال، یک هدست آینده را تصور کنید که می تواند صحنه های کاملاً سه بعدی (با صدا، حرکت و غیره) را در حال ساخت بسازد. یا توسعه دهندگان بازی های مجازی در نهایت می توانند از آن برای صرفه جویی در بخش قابل توجهی از کار پر زحمت در فرآیند طراحی استفاده کنند. به همین ترتیب، سازندگان محتوا میتوانند ویدیوهای همهجانبهای را با موسیقی متن و حرکت واقعی و بر اساس متن، تصاویر یا صدا ایجاد کنند. تصور اینکه چگونه ابزاری مانند ImageBind با ایجاد توضیحات چندرسانهای بلادرنگ برای کمک به افرادی که دارای اختلالات بینایی یا شنوایی هستند، درهای جدیدی را در دسترسپذیری باز میکند تا به درک بهتر محیط خود کمک کند.
همچنین جالب: بهترین ابزار مبتنی بر هوش مصنوعی
متا میگوید: «در سیستمهای هوش مصنوعی معمولی، تعبیه خاصی (یعنی بردارهایی از اعداد که میتوانند دادهها و روابط آنها را در یادگیری ماشین نشان دهند) برای هر روش مرتبط وجود دارد. «ImageBind نشان میدهد که میتوان یک فضای جاسازی مشترک برای چندین روش بدون نیاز به آموزش دادهها با هر ترکیب مجزا از روشها ایجاد کرد. این مهم است زیرا محققان نمیتوانند مجموعه دادههایی را با نمونههایی ایجاد کنند که برای مثال حاوی دادههای صوتی و دادههای حرارتی از یک خیابان شلوغ شهر، یا دادههای عمقی و توصیف متنی یک صخره کنار دریا باشد.»
متا معتقد است که این فناوری در نهایت از شش "حس" فعلی فراتر خواهد رفت. اگرچه ما شش روش را در مطالعه فعلی خود بررسی کردیم، اما معتقدیم که معرفی روشهای جدیدی که حواس زیادی را به هم متصل میکنند - مانند لامسه، گفتار، بویایی و سیگنالهای مغزی fMRI - به مدلهای هوش مصنوعی انسان محور غنیتر اجازه میدهد. توسعه دهندگان علاقه مند به کاوش در این جعبه شنی جدید می توانند با غواصی در کد منبع باز متا شروع کنند.
همچنین بخوانید: