極客號(Xqh8.com) 7月21日 消息:一項來自意大利的新的人工智能研究介紹了一種基于擴散的生成模型,能夠同時進行音樂合成和源分離。這種模型使用了源的聯(lián)合概率密度作為先驗分布進行訓練,通過對先驗進行采樣來進行生成任務,通過將先驗分布與混合物進行條件化并從結果的后驗分布中進行采樣來進行分離任務。
研究人員使用了 Slakh2100數(shù)據(jù)集進行實驗,該數(shù)據(jù)集包含2100個音軌,是一個用于源分離的標準數(shù)據(jù)集。研究人員使用基于擴散的生成模型和得分匹配進行訓練,并引入了一種基于 Dirac delta 函數(shù)的采樣方法。
實驗結果表明,該模型在分離任務上的性能與其他先進的回歸模型相當。研究人員表示,當前可用的上下文數(shù)據(jù)量限制了算法的性能,并考慮使用預先分離的混合物作為數(shù)據(jù)集來解決這個問題。
總而言之,這項由 GLADIA Research Lab 提供的多源擴散模型在音樂領域的分離和總體以及部分生成方面是一種新的范例。研究人員希望他們的工作能夠鼓勵其他學者在音樂領域進行更深入的研究。