Ars Teknik
Perşembe günü, bir çift teknik şovmen tanıtıldı çatırtı, sesin görsel bir temsilini oluşturup sese dönüştürerek metinden müzik oluşturan bir AI modeli. İnce ayarlı bir sürüm kullanır Sabit difüzyon 1.5 Görüntü seti modeli sahneyi kullanır gizli difüzyon Yenilikçi bir şekilde ses işleme.
Seth Forskren ve Hack Martiros tarafından bir hobi projesi olarak oluşturulan Refusion, sesi iki boyutlu bir görüntüde depolayan sonogramlar oluşturarak çalışır. Bir sonogramda, X ekseni zamanı (frekansların soldan sağa çalınma sırası) ve Y ekseni seslerin frekansını temsil eder. Bu arada, görüntüdeki her pikselin rengi, o andaki sesin genliğini temsil eder.
Bir sonogram bir tür görüntü olduğundan, standart difüzyon onu işleyebilir. Forskren ve Martiros, temsil ettikleri seslerin veya müzik türlerinin açıklamalarına bağlı örnek sonogramlarla özel bir statik difüzyon modeli geliştirdiler. Bu bilgiyle Refusion, “caz”, “rock” veya klavyede yazma gibi, duymak istediğiniz müzik türünü veya sesi tanımlayan metin istemlerine dayalı olarak anında yeni müzik oluşturabilir.
Sonogram görüntüsü oluşturulduktan sonra kırılma uygulanır. meşale Sonogramı sese dönüştürmek için tekrar sese oynatın.

Refusion’ın yaratıcıları, “Bu, metne eklenmiş spektrogramların görüntülerinde herhangi bir değişiklik olmaksızın ince ayar yapılmış v1.5 Kararlı Difüzyon Modelidir” diye yazıyor. Açıklama sayfası. “Çekirdeği değiştirerek bir bilgi isteminin sonsuz varyasyonlarını oluşturabilir. Aynı web kullanıcı arayüzleri ve img2img, iç boyama, olumsuz istemler ve enterpolasyon gibi teknikler kutunun dışında çalışır.”
Riffusion web sitesini ziyaret edenler şunları yapabilir: Bir yapay zeka modeliyle deneme yapın Spektrogramı sayfanın sol tarafında sürekli olarak görüntülerken gerçek zamanlı enterpolasyonlu sonogramlar (kesintisiz oynatma için birbirine eklenmiş) oluşturan etkileşimli bir web uygulaması sayesinde.

Ayrıca stilleri birleştirebilir. Örneğin, “pürüzsüz tropikal dans caz” yazmak, stilleri karıştırarak denemeyi teşvik eden yeni bir sonuç için farklı türlerin unsurlarını bir araya getirir.
Elbette, Riffusion yapay zeka destekli ilk müzik üreteci değil. Bu senenin başlarında, uyma Yayınlanan Dans yayılması, yapay zeka destekli üretken bir müzik modeli. OpenAI’ler müzik kutusu2020 yılında duyurulan , sinir ağları ile yeni müzikler de yaratıyor. ve bu tür web siteleri saundra Anında kesintisiz müzik yapın.
Daha akıcı AI müzik çabalarıyla karşılaştırıldığında, Refusion daha çok bir eğlence projesi gibi geliyor. Ürettiği müzik, ilginçten anlaşılmazlığa kadar değişir, ancak görsel bir alanda sesi manipüle eden dikkate değer bir gizli difüzyon teknolojisi uygulamasıdır.
İade Örneği Kontrol Noktası ve Kodu GitHub’da mevcut.