Root Nationاخباراخبار فناوری اطلاعاتیک تولید کننده تصویر هوش مصنوعی برای ایجاد موسیقی آموزش داده شد

یک تولید کننده تصویر هوش مصنوعی برای ایجاد موسیقی آموزش داده شد

-

موسیقی تولید شده توسط هوش مصنوعی (AI) در حال حاضر به واقعیت تبدیل شده است. ابزارهای هوش مصنوعی اکنون می توانند موسیقی را با چیزی جز یک پیام متنی ایجاد کنند و نتایج فراتر از همه انتظارات باشد.

با این حال، این بدان معنا نیست که ابزارهای هوش مصنوعی می توانند مستقیماً موسیقی ایجاد کنند. در عوض، موسیقی از طریق مولدهای تصویر هوش مصنوعی که طیف‌نگاری از موسیقی را ایجاد می‌کنند، می‌گذرد. سپس می توانید این طیف نگارها را به کلیپ های صوتی تبدیل کنید. آیا این بدان معناست که موسیقی تولید شده توسط هوش مصنوعی در آینده جایگزین موسیقی ساخت بشر خواهد شد؟

پراکندگی

هوش مصنوعی مبتنی بر تصویر به الگوریتم های کامپیوتری می آموزد که تصاویر مکان ها و اشیاء را تشخیص دهند. پس از آن، الگوریتم هایی برای بازتولید تصاویر مشابه اما منحصر به فرد استفاده می شود. DALL-E و Stable Diffusion نمونه های خوبی هستند. در حال حاضر، می توانید کاری کنید که این برنامه ها هر چیزی را که می خواهید رندر کنند. همه از طریق متن!

بنابراین، ابزار هوش مصنوعی که می تواند طیف نگاری ایجاد کند، Riffusion نامیده می شود. این جدیدترین پروژه هوش مصنوعی است و در اصل تولید کننده تصاویر از متن بر اساس انتشار پایدار (Stable Diffusion) است. اما چگونه او قادر به تولید موسیقی شد؟

پراکندگی

پشت Riffusion رباتیک Heik Martiros و توسعه نرم افزار Seth Forsgren هستند. آنها می خواستند آزمایش کنند که آیا برنامه های مدرن هوش مصنوعی می توانند در زمینه صوتی کار کنند یا خیر. بدین ترتیب سفر موسیقی ریفیوژن آغاز شد. فورسگرن در مورد این فناوری اینگونه صحبت می کند: «من و هیک در یک گروه کوچک با هم می نوازیم و پروژه را فقط به این دلیل که عاشق موسیقی هستیم شروع کردیم. پس از دیدن نتایج خیره کننده Stable Diffusion برای تولید تصویر، از خود پرسیدیم که استفاده از رویکرد انتشار برای ایجاد موسیقی چگونه به نظر می رسد؟

برای پی بردن به این موضوع، یک تیم دو نفره، انتشار پایدار منبع باز را بر روی تصاویر طیف‌نگاری آموزش دادند. آنها با متن ترکیب شدند. پس از آن، برنامه توانست بر اساس سرنخ های خاصی طیف نگاری از موسیقی ایجاد کند.

در ابتدا، آنها نمی دانستند که آیا معماری مدل Stable Diffusion می تواند یک تصویر طیف نگاری با دقت کافی برای تبدیل به صدا ایجاد کند یا خیر، اما معلوم شد که می تواند این کار و بیشتر را انجام دهد. Martiros و Forsgren نتایج خود را در وب سایت رسمی Riffusion منتشر کردند. در ابتدا این یک پروژه سرگرمی بود. اما اکنون بازدیدکنندگان می توانند نکات متنی خود را اضافه کنند. این امر Riffusion را مجبور به تولید یک طیف نگار می کند. بعداً بازدیدکنندگان می توانند از آن به عنوان یک کلیپ صوتی استفاده کرده و در سایت پخش کنند.

نتایج در این مرحله ممکن است کیفیت چندان بالایی نداشته باشند. اما قطعا آنقدرها هم که فکر می کنید بد نیست.

Riffusion همچنین ممکن است سعی کند آهنگ هایی را پخش کند که شامل رپ به سبک امینم و کی پاپ اما کارکرد تولید اشعار چندان خوب نیست. به‌جای متن، هذیان‌های آهنگین انسانی را خواهید شنید. اما جالب‌ترین چیز این است که این هذیان همچنان با لحن آهنگ مطابقت دارد.

این فناوری هنوز برای جایگزینی موسیقی ساخت بشر آماده نیست. اما این پروژه به ما نشان داد که الگوریتم‌های پردازش تصویر هوش مصنوعی هنوز پتانسیل بالایی دارند. به زودی می تواند به دستیار نویسندگان موسیقی تبدیل شود. شاید برای الهام گرفتن برای نوشتن یک آهنگ.

شما می توانید به اوکراین در مبارزه با مهاجمان روسی کمک کنید. بهترین راه برای انجام این کار، کمک مالی به نیروهای مسلح اوکراین است Savelife یا از طریق صفحه رسمی NBU.

منبعgizchina
ثبت نام
اطلاع رسانی در مورد
مهمان

0 نظرات
بررسی های جاسازی شده
مشاهده همه نظرات