Sukūrė dirbtinį intelektą, kuris pagal tekstinį aprašymą kuria muziką Kviečiame išbandyti!

Praeitą savaitę pora technologijų mėgėjų publikavo „Riffusion“ – dirbtinio intelekto modelį, kuris generuoja muziką iš tekstinės užklausos, sukurdamas vaizdinį garso atvaizdą ir konvertuodamas jį į atkuriamą garsą. Šiame DI modelyje naudojama patikslinta „Stable Diffusion 1.5“ vaizdų sintezės modelio versija, kurioje vizualinė latentinė difuzija naujoviškai taikoma garso apdorojimui.

Sukūrė DI, kuris pagal tekstinį aprašymą kuria muziką.<br> 123rf iliustr.
Sukūrė DI, kuris pagal tekstinį aprašymą kuria muziką.<br> 123rf iliustr.
„Riffusion“ pagal tekstinį aprašymą kuria muziką.<br> Ekrano nuotr.
„Riffusion“ pagal tekstinį aprašymą kuria muziką.<br> Ekrano nuotr.
Daugiau nuotraukų (2)

Lrytas.lt

Dec 22, 2022, 2:40 PM

Setho Forsgreno ir Hayko Martiroso sukurtas projektas „Riffusion“ veikia generuodamas sonogramas, kuriose garsas įrašomas į dvimatį vaizdą. Sonogramoje X ašis rodo laiką (dažnių atkūrimo eiliškumą iš kairės į dešinę), o Y ašis – garsų dažnį. Tuo tarpu kiekvieno vaizdo pikselio spalva atspindi garso amplitudę tam tikru laiko momentu.

Kadangi sonograma yra tam tikros rūšies vaizdas, Stabilioji difuzija gali jį apdoroti. S.Forsgrenas ir H.Martirosas apmokė pasirinktą Stabiliosios difuzijos modelį naudodami sonogramų pavyzdžius, susietus su juose vaizduojamų garsų ar muzikos žanrų aprašymais.

Turėdamas šias žinias, „Riffusion“ gali momentaliai sukurti naują muziką, remdamasi vartotojo įvesta tekstine užklausa, apibūdinančia norimą išgirsti muzikos ar garso tipą – pavyzdžiui, „jazz“, „rock“ ir pan. (aprašymai turi būti pateikti anglų kalba). Taip galima sintezuoti ir netikėtus, originalius hibridus – pavyzdžiui „thrash metal trumpet“ ar „hard house norwegian fiddle“.

Sukūręs sonogramos vaizdą, „Riffusion“ naudodamas „Torchaudio“ sonogramą pakeičia į garsą.

„Riffusion“ svetainės lankytojai gali eksperimentuoti su dirbtinio intelekto modeliu naudodamiesi interaktyvia programa, kuri realiuoju laiku generuoja interpoliuotas sonogramas (sklandžiai sujungtas, kad būtų galima nepertraukiamai groti) – o kairėje puslapio pusėje nuolat vizualizuojama spektrograma.

Parengta pagal „Ars Technika“.

UAB „Lrytas“,
A. Goštauto g. 12A, LT-01108, Vilnius.

Įm. kodas: 300781534
Įregistruota LR įmonių registre, registro tvarkytojas:
Valstybės įmonė Registrų centras

lrytas.lt redakcija news@lrytas.lt
Pranešimai apie techninius nesklandumus pagalba@lrytas.lt

Atsisiųskite mobiliąją lrytas.lt programėlę

Apple App Store Google Play Store

Sekite mus:

Visos teisės saugomos. © 2024 UAB „Lrytas“. Kopijuoti, dauginti, platinti galima tik gavus raštišką UAB „Lrytas“ sutikimą.