OpenAI مدل جدیدی را معرفی کرد هوش مصنوعی Sora که قادر به تولید ویدیوهای با کیفیت بالا تا یک دقیقه بر اساس درخواست های متنی است. Sora که در زبان ژاپنی به معنای "آسمان" است، به این زودی در دسترس عموم قرار نخواهد گرفت، اما این شرکت آن را در اختیار گروه کوچکی از دانشمندان و محققان قرار خواهد داد تا آسیب و احتمال سوء استفاده را ارزیابی کنند.
وبسایت این شرکت میگوید: «سورا میتواند صحنههای پیچیده با شخصیتهای متعدد، انواع حرکتهای خاص و جزئیات دقیق شی و پسزمینه تولید کند». "مدل نه تنها آنچه را که کاربر در درخواست پرسیده است، بلکه چگونگی وجود این چیزها در دنیای فیزیکی را نیز درک می کند."
یکی از ویدیوهای تولید شده توسط Sora، زوجی را نشان میدهد که در میان توکیوی برفی قدم میزنند و شکوفههای گیلاس و دانههای برف در اطراف آنها میچرخند، در حالی که ویدیوی دیگر ماموتهای پشمالوی واقعی را نشان میدهد که در یک چمنزار پوشیده از برف در پس زمینه رشتههای کوه پوشیده از برف قدم میزنند.
معرفی سورا، مدل تبدیل متن به ویدیوی ما.
Sora میتواند ویدیوهای حداکثر 60 ثانیهای ایجاد کند که صحنههای بسیار دقیق، حرکات پیچیده دوربین و شخصیتهای متعدد با احساسات پر جنب و جوش را نشان میدهد. https://t.co/7j2JN27M3W
اعلان: «زیبا، برفی… عکسtwitter.com/ruTEWn87vf
- OpenAI (OpenAI @) فوریه 15، 2024
OpenAI می گوید این مدل با "درک عمیق زبان" کار می کند که به آن اجازه می دهد سرنخ های متن را تفسیر کند. با این حال، تقریباً مانند تمام تولیدکنندگان تصویر و ویدیو با هوش مصنوعی، Sora کامل نیست. OpenAI همچنین هشدار میدهد که علت و معلول کردن این مدل ممکن است دشوار باشد - برای مثال، میتواند ویدیویی از یک فرد در حال خوردن یک کوکی تولید کند، اما ممکن است علامت گاز گرفتن نداشته باشد.
سورا اولین مدل تبدیل متن به ویدئو نیست. شرکت های دیگر، از جمله متا، گوگل و Runway، یا به ابزارهای تبدیل متن به ویدیو اشاره کرده اند یا آنها را در دسترس عموم قرار داده اند. با این حال، هیچ ابزار دیگری در حال حاضر قادر به تولید یک ویدیوی 60 ثانیه ای نیست. سورا همچنین بهجای جمعآوری فریم به فریم آنها مانند سایر مدلها، کل ویدیوها را یکباره تولید میکند، بنابراین اشیاء در ویدیو حتی زمانی که به طور موقت از دید ناپدید میشوند، دست نخورده باقی میمانند.
اعلان: «چند ماموت غول پیکر پشمالو نزدیک می شوند و از میان یک چمنزار برفی قدم می زنند، خز پشمی بلندشان هنگام راه رفتن به آرامی در باد می وزد، درختان پوشیده از برف و کوه های پوشیده از برف چشمگیر در دوردست، نور نیمه بعدازظهر با ابرهای تند و خورشید در بالا. فاصله… عکسtwitter.com/Um5CWI18nS
- OpenAI (OpenAI @) فوریه 15، 2024
ظهور ابزارهای تبدیل متن به ویدیو نگرانی هایی را در مورد پتانسیل آنها برای ایجاد آسان تر ویدیوهای جعلی با ظاهر واقعی ایجاد کرده است. و هوش مصنوعی مولد به طور گستردهتر با واکنش هنرمندان و کارگران خلاق مواجه شده است که نگران این هستند که این فناوری به طور بالقوه جایگزین آنها شود.
OpenAI گفت که در حال کار با کارشناسان در زمینه هایی مانند اطلاعات نادرست، محتوای نفرت انگیز و سوگیری است تا ابزار را قبل از در دسترس قرار دادن آن برای عموم آزمایش کند. این شرکت همچنین در حال توسعه ابزارهایی است که می تواند ویدیوهای ایجاد شده توسط Sora را شناسایی کند و متادیتا را در ویدیوهای ایجاد شده قرار دهد تا کشف آنها را آسان تر کند. این شرکت از بیان نحوه آموزش سورا خودداری کرد، اما گفت که از «ویدیوهای دامنه عمومی» و ویدیوهای دارای مجوز از صاحبان حقوق استفاده می کند.
همچنین بخوانید: