Voice Changer in tempo reale (Locale)

Sommario

Installare il VoiceChanger
Installazione di VAC (Virtual-Audio-Cable)
Avvia il VoiceChanger
Impostazioni Avanzate consigliate
Caricamento di modelli audio RVC personalizzati nel VoiceChanger.
Convertire .pth in .onnx

Il Voice Changer di W-Okada è un incredibile strumento per utilizzare la conversione vocale in tempo reale (RVC) con la tua voce. Al momento, supporta i f0Detectors dio, harvest e crepe, crepe-tiny e rmvpe.

Installare il VoiceChanger

Per fare ciò, devi visitare il repository GitHub del Voice Changer di W-Okada e scorrere verso il basso fino alle tabelle delle versioni.

‎

‎

Trova l'ultima versione, seleziona quella per il tuo sistema operativo.

A seconda della tua GPU, devi selezionare:
PER GPU NVIDIA quella con (cpu, cuda)
PER GPU AMD quella con (cpu, DirectML)

SE HAI UNA GPU AMD:
Non dimenticare di convertire tutti i modelli che stai usando da PTH a ONNX, la tua GPU supporterà solo modelli ONNX.

Clicca sul collegamento "hugging face".

Ti porterà a questa pagina.

‎

Trova la versione che hai scelto (ad esempio v.1.5.3.7) e clicca sull'icona di download accanto ad essa.
Nota: al momento la versione più stabile è attualmente v1.5.3.10.
Questo ti scaricherà un archivio .zip con una cartella "MMVCServerSIO" al suo interno. Estrai questa cartella.

Installazione di VAC (Virtual-Audio-Cable)

VAC è necessario per emettere l'audio sul microfono virtuale per inviarlo a Discord o qualsiasi altro software.

Scaricalo dal sito ufficiale.
Estrai l'archivio ZIP in una cartella vuota.
Esegui setup.exe [32-BIT] o setup64.exe [64-BIT].
Procedi con l'installazione, attiva "Sono un utente esperto, dammi opzioni aggiuntive" se vuoi configurare il driver (la versione di base funziona bene).
Clicca su Installa.

Potresti non dover nemmeno riavviare il PC affinché i driver audio appaiano.
I dispositivi audio per input e output si chiameranno "Linea 1".

Avvia il VoiceChanger

Trova il file "start_http.bat" e avvialo.

‎

‎

Comparirà la finestra del prompt dei comandi (cmd). Se l'hai installato correttamente, inizierà a scaricare i modelli di base.

Dopo un po' di tempo, l'app dovrebbe aprirsi e apparire così.

Impostazioni consigliate da usare:

‎
‎
‎
Fai attenzione all'opzione "Extra", maggiore è il valore, maggiore è la potenza di elaborazione della CPU utilizzata.

Il numero di "chunk" influisce sul tempo prima che l'audio elaborato dalla RVC venga emesso attraverso VB-Cable.

Impostazioni audio

Seleziona l'audio del server, poiché è più veloce rispetto all'audio del client.
Successivamente, seleziona i tuoi dispositivi audio:
Seleziona il tuo microfono principale per l'input.
Seleziona il dispositivo audio di VB-Cable ["Speakers 2-VB-Audio Virtual Cable"] per l'output.
Monitor viene utilizzato per ascoltare l'audio in uscita dalle cuffie.

Selezione del f0Detector per la conversione vocale

Questo dipende dal modo in cui lo utilizzerai (ad esempio, cantare, parlare, fare rap).
RMVPE è buono per tutto, è di alta qualità ed è molto più veloce sia di harvest che di Crepe.
Harvest è buono per parlare di base e fare rap con tonalità più basse.
Dio è buono per parlare di base e fare rap con tonalità medie/alte.
Crepe/Crepe-full è buono per parlare e cantare con qualsiasi tonalità.
Crepe-tiny è essenzialmente il migliore di tutti. È Crepe ma molto più veloce e meno pesante per la potenza di elaborazione.

L'utilizzo dei file .index non è consigliato.

I file di feature degli indici aumentano l'utilizzo della CPU di circa il 500%.
Questo problema potrebbe essere risolto nelle versioni successive del voicechanger.

Riduzione del rumore

Puoi attivare e disattivare la funzione di riduzione del rumore, ma è disponibile solo in modalità Client Device. Tuttavia, è molto più lenta rispetto alla modalità Server Device.
Per abilitarla, clicca sulla casella vicino a Sup1 o Sup2.
Questa impostazione riduce significativamente il rumore.
Questo potrebbe influire sulla qualità dell'audio e aumentare la potenza di elaborazione della CPU.

Impostazioni Avanzate consigliate

Queste impostazioni sono semplicemente le migliori, ed è tutto.

Dopo aver configurato tutto, seleziona il modello vocale da questa lista cliccandoci sopra.

Clicca su Start e attendi messaggi come questi nell'output del prompt dei comandi (CMD).

Caricamento di modelli audio RVC personalizzati nel VoiceChanger.

Clicca sul pulsante Edit nell'elenco dei modelli. Questo aprirà questo menu.

Clicca su "Carica" e seleziona il file .pth del modello.
Dopo averlo caricato, puoi cliccare sul testo "no image" a sinistra per impostare un'immagine per il modello.

Non caricare file .index, al momento sono buggati.

Nota: non puoi rimuovere i modelli RVC già caricati, puoi solo caricarne uno nuovo al loro posto.
ONNX al posto di PTH
Per la RVC in tempo reale puoi anche utilizzare versioni ONNX dei modelli vocali RVC. Basta importare il file .onnx anziché il file .pth quando carichi un modello personalizzato.
Non ci sono molte informazioni su quale sia effettivamente migliore tra .onnx e .pth, ma ci sono alcuni test che mostrano un vantaggio di velocità di .onnx rispetto a .pth nella conversione vocale in tempo reale.

Convertire .pth in .onnx

Se hai solo il file .pth e vuoi convertirlo in .onnx, puoi farlo attraverso l'interfaccia grafica di W-Okada's Voice Changer.

Seleziona il modello che vuoi convertire in .onnx e clicca su "esporta in onnx".

Dopo questo, comparirà questa finestra. Aspetta un po' affinché la conversione si completi.

Ed è fatto. Seleziona il percorso in cui salvarlo e caricalo nell'elenco dei modelli proprio come un normale file .pth.