Comment utiliser DiffSinger

Millefeuille utilise DiffSinger, un système de synthèse vocale basé sur l’entraînement d’une intelligence artificielle (IA) dont le but est l’imitation d’un chant naturel avec une haute fidélité. Attention cependant, un DiffSinger n’est pas simplement un modificateur de voix que l’on peut appliquer sur le chant d’autres personnes (comme le permettent RVC ou Diff-SVC) , cela s’apparente davantage à une banque de voix Synthesizer V AI ou ce qu’on pourrait qualifier “d’UTAU AI”.

Le guide suivant montrera comment utiliser DiffSinger et les banques vocales de ce format dans OpenUTAU.

Historique

Depuis l’existence du système IA “NNSVS”, créé par Ryuichi Yamato (r9y9), une implémentation de cette technologie dans l’utilisation UTAU/OpenUTAU a mise en place. Les premières banques vocales disponibles dans ce genre utilisent le plugin ENUNU, qui est depuis également implémenté nativement dans OpenUTAU. 

Le système NNSVS a partiellement été remplacé par la technologie plus récente de DiffSinger, mais le fonctionnement des deux technologies est très similaire, pour simplifier, ce sont deux algorithmes différents pour créer des chanteurs et chanteuses virtuelles à l’aide de l’IA.

Ci-dessous un exemple du même chanteur sur UTAU, ENUNU et DiffSinger (Namine Ritsu)

Introduction

Ce tutoriel assume que l’utilisation des fonctionnalités de base d’OpenUTAU est connue.

Vous pouvez trouver des banques vocales DiffSinger (Millefeuille) dans la catégorie Diffsinger > Voicebanks du site ou visiter le site de LYSE, doublée par la chanteuse valshamr!

Installer OpenUTAU
Découvrir Millefeuille

Pour Commencer

Installer une banque vocale DiffSinger

L’installation fonctionne de la même manière que les banques vocales UTAU classiques. Une fois que vous avez téléchargé le .zip (ou autre dossier compressé), allez dans Outils > Installer une voicebank.

Sélectionner la banque via “Select Singer” > onglet “DiffSinger …”

Si la banque vocale DiffSinger n’apparaît pas dans l’onglet Diffsinger, assurez que l’installation s’est bien faite.

Le phonemizer approprié DiffSinger est automatiquement sélectionné

Si le phonemizer DIFFS ne s’affiche pas, veuillez le sélectionner avant de jouer la piste. Vous pouvez également sélectionner le phonemizer DIFFS FR (plus d’information ci-dessous).

Plus d'informations sur les Phonemizers

Pour Commencer

Par rapport aux UTAU classiques, les mots sont décomposés phonème par phonème. Pour changer les points d’attaque des différentes parties des notes, il suffit de modifier l’emplacement des lignes roses. Cela permet de facilement ajuster la prononciation du DiffSinger. Vous pouvez utiliser la saisie phonétique entre crochet (ex: [l ih z]) comme pour un phonemizer classique et remplacer les phonèmes par d’autres en les sélectionnant sur la piste du bas.

Le format Millefeuille utilise le système phonétique “petit mot”. Pour les mots empruntés des autres langues (anglais, japonais, espagnol), les symboles correspondant sont disponibles dans la table phonétique à la fin de cette page.

Pour le tuning de la voix, les outils habituels (de pitch bends et dessin du pitch) sont à votre disposition. Vous pouvez changer les différentes voice colors phonème par phonème avec le paramètre COLOR (CLR) dans le panneau horizontal du bas.

utiliser diffsinger

Astuce

Parfois les voyelles de début de chant peuvent être légèrement en retard. Dans ce cas l’ajout d’une petite note précédente [q], [vf], [AP] ou [SP] peut aider ! Jouer avec le timing des [y], [w] et [uy] pour les faire démarrer plus tard peut aussi aider afin d’avoir une prononciation plus fluide.

Utiliser le phonemizer

Les banques vocales Millefeuille peuvent utiliser le phonemizer propriétaire DIFFS FR qui offre une utilisation accélérée de l’input de mots. Par défaut, elles utiliseront un dictionnaire classique qui peut rendre l’utilisation de DiffSinger plutôt lente. Mais vous pouvez dès maintenant installer une version externe que vous pouvez télécharger ci-dessous ou retrouver dans un dossier « phonemizer » dans les différentes banques vocales.

Installez le phonemizer

Il suffit de glisser et déposer MillefeuillePhonemizer.dll directement dans la fenêtre de Open UTAU. Quand le message confirmant l’installation s’affiche en bas à gauche du logiciel, fermez et ré-ouvrez Open UTAU. Vous pouvez à présent choisir le phonemizer DIFFS FR disponible dans la catégorie FR.

Et voilà ! Vous pouvez utiliser le phonemizer DIFFS FR MILLE

Ce phonemizer utilise un dictionnaire G2p qui devinera la prononciation des mots. Il a tout récemment appris le français donc il peut parfois se tromper. Si c’est le cas, n’hésitez pas à enlever des lettres silencieuses de l’orthographe du mot ou à écrire les choses phonétiquement.

Si vous souhaitez revenir à l’autre système ou si vous avez besoin de supprimer le phonemizer, vous avez simplement à supprimer le .dll de votre dossier Plugins à la racine de Open UTAU.

Cette section est en construction !

Le phonemizer et le projet Millefeuille sont encore en beta et nous mettrons les astuces au fur et à mesure que nous améliorerons le système.

Options

DiffSinger peut s’avérer lent sur des ordinateurs moins puissants et certaines options pour accélérer le rendu des pistes sont disponibles dans les préférences d’OpenUTAU. Ici, l’option pour utiliser une carte graphique pour le rendu des pistes peut être sélectionnée, ainsi que la vitesse des rendus.

Pour les Render Steps ou la Render Depth, un nombre plus élevé peut ralentir le rendu, alors qu’un nombre plus petit peut réduire le temps nécessaire au rendu mais impactera sa qualité.

Astuce

Un nouveau wav sera automatiquement généré en fonction de vos changements (tuning, phonétique, timing…). Si aucun son ne se joue, n’hésitez pas à réappuyer sur Play ! Vous devriez voir la barre de progression du rendu se jouer en bas à gauche du logiciel.

Support Phonétique

Millefeuille est avant tout un support français dont vous pouvez retrouver le guide phonétique ci-dessous. Cependant, quelques sons supplémentaires permettent l’émulation d’autres langues, notamment l’anglais, le japonais et l’espagnol! Vous pouvez facilement écrire des paroles en hiragana pour activer la prononciation japonaise (si vous n’avez pas de clavier japonais, vous pouvez utiliser l’option Paroles > Romaji à Hiragana). De même, en changeant le phonemizer en “DIFFS EN” et en modifiant quelques phonèmes vous pouvez faire chanter n’importe quelle banque vocale Millefeuille en anglais.

Attention cependant, cela ne veut pas dire qu’il n’y aura pas un petit accent français !

Cette section est en construction! 

Elle se trouve sur cette page pour vous faciliter le démarrage avec Millefeuille, mais sera retravaillée très bientôt pour améliorer l’expérience UFR !

Vous pouvez trouver un tableau phonétique ci-dessous mais également de plus amples informations sur le GitHub de Millefeuille.

Tableau des phonèmes

IPA X-SAMPA
Voyelles
ah a/ɑ a/A
eh e e
ae ɛ/ɛː E
ee ə/ø 2
oe œ 9
ih i i
oh o o
oo ɔ O
ou u u
uh y y
en ɑ̃ a~
in ɛ̃/(œ̃) e~/(9~)
on ɔ̃ o~
un œ̃ 9~
Semi-voyelles
y j j
w w w
uy ɥ H
Consonnes
b b b
d d d
f f f
g g g
k k k
l l l
m m m
n n n
p p p
r ʁ R
s s s
sh ʃ S
t t t
v v v
z z z
j ʒ Z
Extras
q ʔ
vf
cl
exh
axh
ctrash
vtrash
pau
sil
AP
SP
Anglais IPA X-SAMPA
Voyelles
ax ə @
ay aI
ey eI
ow oU
aa ɑ~ɒ A
ae1 æ {
ah1 ʌ V
ao ɔ O
eh1 ɛ E
er ɝ 3`
ih1 ɪ I
iy i i
oy ɔɪ OI
uh1 ʊ U
uw u u
aw aU
Consonnes
tr
tx
dh
dr
dz
h
ch
th
ng
rh
jh
Japonais IPA X-SAMPA
a a a
i i i
e e e
o o o
u ɯ M
nn n n
dx ɾ 4
Espagnol IPA X-SAMPA
Consonnes
rr