Millefeuille utilise le système de DiffSinger qui base son sampling sur de l’entraînement à l’aide d’intelligence artificielle. Il vise ainsi à répliquer le chant selon le spectrogramme des enregistrements afin de reproduire la voix fidèlement. Pour cela, les voicebanks DiffSinger sont basées sur des audios de chant naturel, par rapport aux systèmes traditionnels UTAU à base d’enregistrements de syllabes et phrases phonétiques.
Attention cependant, Diffsinger n’est pas un modificateur de voix que l’on peut appliquer sur le chant d’autres personnes (comme le permettent RVC ou Diff-SVC) mais bien un synthétiseur vocal similaire à VOCALOID AI ou Synthesizer V AI.
Ainsi, enregistrer pour créer un chanteur ou une chanteuse DiffSinger se résume seulement à chanter ce que l’on veut ! Néanmoins certains points peuvent aider à améliorer la qualité et réduire le temps de nettoyage des enregistrements.
Le moins de bruit ambiant, le mieux
Ceci est généralement aussi conseillé pour les enregistrement classiques pour UTAU, mais a un impact encore plus important sur DiffSinger.
Rajouter des éléments qui atténuent le son comme des couettes ou coussins dans la pièce où vous enregistrez peut aider!
L’IA imite le “son” d’une voix basé sur le spectrogramme et la fréquence. Des bruits parasites ajoutent des fréquences qui peuvent brouiller la voix pour l’IA.
Ne pas faire clipper le microphone
Également une astuce conseillé pour UTAU, importante pour DiffSinger. Le “clipping” correspond à un volume trop élevé qui réduit la qualité de votre enregistrement.
Vérifiez bien le gain de votre micro.
Les clips vont êtes reproduits par l’IA. SI l’IA ne sait pas à quoi ressemble une note correcte, elle ne peut pas la reproduire!
Au moins 1 seconde de vide au début et à la fin du fichier audio
Afin d’éviter d’avoir une respiration ou une consonne coupée.
Éviter les pauses trop longues
Un silence trop long peut brouiller l’entraînement.
L’IA risque d’apprendre et reproduire le bruit ambiant de votre lieu d’enregistrement.
Nettoyez vos enregistrement
Pensez à retirer tous les bruits parasites (se cogner, tousser, clics, clavier…). L’IA risque d’apprendre ces sons et les placer dans les moment de silence.
COMBIEN DE CHANSONS ENREGISTRER ?
Pour un chanteur DiffSinger, on parle souvent de taille de corpus/database en minutes. Il est conseillé d’enregistrer au moins 30 minutes pour une voicebank de bonne qualité, cependant on peut déjà avoir de bons résultats à partir de 5-10 minutes. On voit rarement d’amélioration en qualité une fois la barre des 2h de chant passée (vocal modes inclus – par exemple on peut enregistrer 1h de “normal”, 10 min de “doux”, 10 min de “puissant” etc.). Aussi, il vaut mieux privilégier la qualité du chant, de l’audio et la constance du timbre de la voix entre chaque enregistrement à la quantité de temps enregistrée.
Pour connaître la durée réelle des fichiers audio enregistrés, il faut utiliser un programme comme Audacity. Après avoir chargé tous vos fichiers dans le logiciel, vous pouvez utiliser l’option Tronquer le silence (attention à utiliser des paramètres qui ne coupent pas le chant ou qui laissent trop de silence).
Après avoir aligné les pistes bout à bout, vous pouvez facilement voir combien de temps vous avez enregistré !