Consigli per la creazione del dataset
Sommario
- Isolamento di strumentali / rumore
Innanzitutto, trova il materiale di origine su cui desideri addestrare un modello vocale. Questo sarà il dataset su cui addestrerai il tuo modello. Preferibilmente, ottieni il materiale nella massima qualità possibile (preferibilmente .flac o estrazioni di Deezer in caso di canzoni invece di mp3 o estrazioni da YouTube, poiché il .flac ha una qualità senza perdite, ma anche materiale di qualità inferiore sarà utilizzabile, anche se non consigliato). Idealmente, avresti bisogno delle vere acapella ufficiali, ma queste sono estremamente difficili da reperire per la maggior parte della musica.
Per isolare le voci dalla musica, avrai bisogno di utilizzare uno dei seguenti metodi:
- UltimateVocalRemover (può essere eseguito localmente su PC potenti o all'interno delle pagine RVC di Google Colab alla fine). La versione 438 è il miglior modello "generale", il modello Voc FT a volte isola parti non vocali, ma può suonare meglio nel complesso (puoi eseguirlo e quindi il modello UVR-Denoise successivamente per gestire questo). La versione 438 è uno dei modelli VIP, puoi trovare il codice VIP su Patreon di UVR gratuitamente.
Guida approfondita su UVR, in Italiano fatta da Ilaria
Video di spiegazione breve su UVR, in Inglese fatta da Kalomaze - MVSEP.com (app web completamente gratuita, ma la coda può essere lunga. Mi è stato detto che MDX B è l'opzione migliore per l'isolamento delle voci, ma non l'ho usato personalmente).
- Vocalremover.org o X-minus.pro; queste opzioni non sono di alta qualità ma permetteranno di ottenere risultati più rapidamente. Vocalremover.org non ha un'opzione per rimuovere il riverbero e, se non erro, X-minus.pro nemmeno. Sconsiglio di creare dataset per modelli vocali utilizzando questi siti a causa della loro qualità inferiore.
- Rimozione del riverbero / eco
È necessario rimuovere il riverbero / eco dal dataset per ottenere i migliori risultati. Idealmente, si dovrebbe avere il minor riverbero possibile in origine, poiché isolare il riverbero può ridurre la qualità della voce. Se necessario, io consiglio UVR-De-Echo-DeReverb di VR Architecture. In alternativa, c'è Reverb HQ di MDX-Net che è meno aggressivo rispetto a UVR-De-Echo-DeReverb.
C'è anche un colab per i modelli VR Arch oppure nel colab per trainare i modelli, scorrendo giù, trovi i modelli MDX-Net se non vuoi o non puoi eseguire UVR localmente. Non so come funziona esattamente ma dovrebbe essere molto semplice. Senza una buona GPU sul tuo PC (io ho una GTX 1660 SUPER con 6GB di VRAM e mi gira benissimo), UVR funzionerà ancora in locale nella maggior parte dei casi, ma sarà abbastanza lento; se questo non è un problema per te, va bene. Ma se hai un dataset lungo, preparati a farlo funzionare durante la notte...
- Riduzione del rumore per eliminare il silenzio
Il modo più comodo per rimuovere il rumore nei periodi di 'silenzio' dell'audio è farlo con Audacity con l'effetto Tronca silenzio . Per favore scarica Audacity: https://www.audacityteam.org/download/
Per usarlo basta cliccare CTRL+A per selezionare l'intero dataset, e poi andare su Effetti > Speciali > Tronca silenzio.
(In inglese è: Effect > Special > Truncate Silence)
Di solito -40db è una buona soglia per questo.
Adobe Audition ha probabilmente strumenti più avanzati per farlo automaticamente (non so come utilizzarlo), ma questa è una buona impostazione predefinita per chi usa Audacity per un mixaggio di base. Se taglia a metà una frase, rifallo aumentando il valore del parametro "Soglia"/"Threshold".
- Isolamento delle armonie di sottofondo / doppia voce
Nella maggior parte dei casi, queste sono troppo difficili da isolare per scopi di creazione del dataset senza compromettere la qualità. Ma se vuoi provare comunque, i migliori modelli UVR per farlo sarebbero 5HP Karaoke (VR Architecture) o Karaoke 2 (MDX-Net). 6HP dovrebbe essere una versione più aggressiva di 5HP, se non erro. Prova le altre opzioni karaoke a meno che non funzionino davvero, indipendentemente da cosa provi.
- È necessario suddividere l'audio in pezzi?
In teoria, la risposta è no, almeno per RVC V2. Puoi avere un enorme file di 10 minuti come unico file nel tuo dataset e RVC lo dividerà correttamente, secondo i miei test. RVC suddivide in parti di circa 4 secondi, quindi assicurati che i tuoi campioni siano lunghi almeno 4 secondi per motivi di coerenza (oppure unisci i campioni più brevi in un unico file lungo).
Nel caso tu abbia un dataset più lungo di un'ora, potresti suddividerlo in parti di 30 minuti, anche se io ho fatto dei test con dataset dalla durata di più di un'ora e non mi ha dato problemi, ma se vuoi rimanere al sicuro, potresti farlo (la funzione di etichette a intervalli regolari di Audacity è ottima per questo).
- Quanto audio ho realmente bisogno per il dataset?
In realtà, non molto. Ovviamente più è meglio, ma non vedo un enorme vantaggio nell'addestrare un modello con più di un'ora di dati. Puoi ottenere modelli con dataset DAVVERO limitati su RVC V2, ma meno dati hai, più l'IA dovrà "indovinare" come dovrebbe suonare la tua voce a certe tonalità. Un intervallo ragionevole di alta qualità sarebbe da 10 a 45 minuti.
Ecco un esempio di un modello di 10 secondi di JID che fa rap:
https://cdn.discordapp.com/attachments/945486970883285045/1114502593503305798/JID_BOB_Verse.mp3
Sembra buono anche se gli ho fornito solo 10 secondi di rap come dataset, giusto?
Ma ecco cosa succede se provo a farlo cantare:
https://cdn.discordapp.com/attachments/945486970883285045/1114502868813238342/jid_is_balling.mp3
Non è molto accurato.
Il suggerimento dagli sviluppatori di RVC è di avere almeno 10 minuti per modelli di alta qualità che possono gestire una varietà di tonalità e intonazioni, ma ricorda: Qualità > Quantità.
Ecco un esempio di un modello di 5 minuti addestrato su clip di alta qualità.
E questo è un modello addestrato su 7 secondi di suoni del Villager di Minecraft. Incredibilmente, funziona.
- Scarica più modelli in UVR
Vai sulle impostazioni (rappresentate da una chiave inglese) e poi su 'Download Center' per trovare la scheda dove puoi trovare tutti i modelli di cui ho parlato nella guida che non sono ancora stati scaricati.
Riconsiglio la guida approfondita su UVR, in Italiano fatta da Ilaria.