Refusion’ın yapay zekası, görsel sonogramlar kullanarak metinden müzik oluşturur

Yakınlaştır / Bir bilgisayar monitöründen fışkıran müzik notalarının yapay zeka tarafından oluşturulmuş bir görüntüsü.

Ars Teknik

Perşembe günü, bir çift teknik şovmen tanıtıldı çatırtı, sesin görsel bir temsilini oluşturup sese dönüştürerek metinden müzik oluşturan bir AI modeli. İnce ayarlı bir sürüm kullanır Sabit difüzyon 1.5 Görüntü seti modeli sahneyi kullanır gizli difüzyon Yenilikçi bir şekilde ses işleme.

Seth Forskren ve Hack Martiros tarafından bir hobi projesi olarak oluşturulan Refusion, sesi iki boyutlu bir görüntüde depolayan sonogramlar oluşturarak çalışır. Bir sonogramda, X ekseni zamanı (frekansların soldan sağa çalınma sırası) ve Y ekseni seslerin frekansını temsil eder. Bu arada, görüntüdeki her pikselin rengi, o andaki sesin genliğini temsil eder.

Bir sonogram bir tür görüntü olduğundan, standart difüzyon onu işleyebilir. Forskren ve Martiros, temsil ettikleri seslerin veya müzik türlerinin açıklamalarına bağlı örnek sonogramlarla özel bir statik difüzyon modeli geliştirdiler. Bu bilgiyle Refusion, “caz”, “rock” veya klavyede yazma gibi, duymak istediğiniz müzik türünü veya sesi tanımlayan metin istemlerine dayalı olarak anında yeni müzik oluşturabilir.

Sonogram görüntüsü oluşturulduktan sonra kırılma uygulanır. meşale Sonogramı sese dönüştürmek için tekrar sese oynatın.

Bir sonogram, iki boyutlu bir görüntüde zamanı, frekansı ve genliği temsil eder.
Yakınlaştır / Bir sonogram, iki boyutlu bir görüntüde zamanı, frekansı ve genliği temsil eder.

Refusion’ın yaratıcıları, “Bu, metne eklenmiş spektrogramların görüntülerinde herhangi bir değişiklik olmaksızın ince ayar yapılmış v1.5 Kararlı Difüzyon Modelidir” diye yazıyor. Açıklama sayfası. “Çekirdeği değiştirerek bir bilgi isteminin sonsuz varyasyonlarını oluşturabilir. Aynı web kullanıcı arayüzleri ve img2img, iç boyama, olumsuz istemler ve enterpolasyon gibi teknikler kutunun dışında çalışır.”

Riffusion web sitesini ziyaret edenler şunları yapabilir: Bir yapay zeka modeliyle deneme yapın Spektrogramı sayfanın sol tarafında sürekli olarak görüntülerken gerçek zamanlı enterpolasyonlu sonogramlar (kesintisiz oynatma için birbirine eklenmiş) oluşturan etkileşimli bir web uygulaması sayesinde.

READ  Kaynak, Xander Bogaerts ve Padres'in 11 yıllık, 280 milyon dolarlık bir sözleşme üzerinde anlaştığını söyledi.
Ortaya çıkan sonogramları yazıp dinlemenizi sağlayan Refusion web sitesinin ekran görüntüsü.
Yakınlaştır / Ortaya çıkan sonogramları yazıp dinlemenizi sağlayan Refusion web sitesinin ekran görüntüsü.

Ayrıca stilleri birleştirebilir. Örneğin, “pürüzsüz tropikal dans caz” yazmak, stilleri karıştırarak denemeyi teşvik eden yeni bir sonuç için farklı türlerin unsurlarını bir araya getirir.

Elbette, Riffusion yapay zeka destekli ilk müzik üreteci değil. Bu senenin başlarında, uyma Yayınlanan Dans yayılması, yapay zeka destekli üretken bir müzik modeli. OpenAI’ler müzik kutusu2020 yılında duyurulan , sinir ağları ile yeni müzikler de yaratıyor. ve bu tür web siteleri saundra Anında kesintisiz müzik yapın.

Daha akıcı AI müzik çabalarıyla karşılaştırıldığında, Refusion daha çok bir eğlence projesi gibi geliyor. Ürettiği müzik, ilginçten anlaşılmazlığa kadar değişir, ancak görsel bir alanda sesi manipüle eden dikkate değer bir gizli difüzyon teknolojisi uygulamasıdır.

İade Örneği Kontrol Noktası ve Kodu GitHub’da mevcut.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.