May 26, 2019

Modele de note de synthese

Nous conditionnons le décodeur vanille WaveNet avec cette incorporation en le suréchantillonnant à la résolution temporelle d`origine, en appliquant une convolution 1×1, et en ajoutant finalement ce résultat comme un biais à chacune des trente couches du décodeur. Notez que ce conditionnement n`est pas externe car il est appris par le modèle. Depuis les incorporations biais le système autorégressive, nous pouvons l`imaginer agissant comme une fonction de conduite pour un oscillateur non linéaire. Cette interprétation est corroborée par le fait que les contours de magnitude des incorporations imitent ceux de l`audio lui-même. Les notes de synthèse sont une stratégie pour prendre et utiliser des notes de lecture qui rassemblent — synthétiser — ce que nous lisons avec nos réflexions sur notre sujet d`une manière qui nous permet d`intégrer nos notes de façon transparente dans le processus d`écriture d`un premier brouillon. Six étapes nous feront passer de la lecture des sources à une première ébauche. Nous voulions développer un outil créatif pour les musiciens et aussi fournir un nouveau défi pour la communauté de machine learning pour galvaniser la recherche dans les modèles génératifs pour la musique. Pour répondre à ces deux objectifs, nous avons construit le jeu de données NSynth, une grande collection de notes musicales annotées échantillonnées à partir d`instruments individuels à travers une gamme de hauteurs et de vélocités. Avec ~ 300k notes de ~ 1000 instruments, c`est un ordre de grandeur plus grand que les jeux de données publics comparables. Vous pouvez le télécharger ici. L`avantage principal de la synthèse basée sur l`échantillon par rapport à d`autres méthodes de synthèse numérique telles que la synthèse de modélisation physique ou la synthèse additive est que les exigences de puissance de traitement sont beaucoup plus faibles. C`est parce que la plupart des nuances des modèles sonores sont contenues dans les échantillons pré-enregistrés plutôt que calculés en temps réel.

Outre les exemples de musique et le jeu de données, nous publions également le code pour l`autocodeur WaveNet alimentant NSynth ainsi que notre meilleur modèle d`autocodeur spectral de base. En outre, nous libérons les poids formés comme un point de contrôle TensorFlow et un script pour enregistrer des incorporations à partir de vos propres fichiers WAV. Vous pouvez trouver tout le code dans notre référentiel et le point de contrôle tarball peut être téléchargé ici. En outre, les incorporations apprises ne capturent qu`un contexte local, un peu comme un spectrogramme, ce qui leur permet de généraliser dans le temps.

Comments are closed.