Quantification optimisée de l'espace latent en codage audio neuronal

Thomas Muller; Stéphane Ragot; Quentin Lemesle; Pierrick Philippe; Pascal Scalart

Communication Dans Un Congrès Année : 2023

Quantification optimisée de l'espace latent en codage audio neuronal

(1, 2, 3, 4, 5) , (1) , (1) , (1) , (2, 4, 3, 5)

1
2
3
4
5

Thomas Muller

Fonction : Auteur
PersonId : 1308545
IdHAL : thomas-muller-22

Orange Innovation

Institut de Recherche en Informatique et Systèmes Aléatoires

Université de Rennes

École Nationale Supérieure des Sciences Appliquées et de Technologie

Algorithmes et architectures adaptatifs pour les systèmes sans-fils efficaces en énergie

Stéphane Ragot

Fonction : Auteur
PersonId : 1084546

Orange Innovation

Quentin Lemesle

Fonction : Auteur

Orange Innovation

Pierrick Philippe

Fonction : Auteur

Orange Innovation

Pascal Scalart

Fonction : Auteur
PersonId : 931413

Institut de Recherche en Informatique et Systèmes Aléatoires

École Nationale Supérieure des Sciences Appliquées et de Technologie

Université de Rennes

Algorithmes et architectures adaptatifs pour les systèmes sans-fils efficaces en énergie

Résumé

This article focuses on audio coding based on artificial neural networks. We propose to analyze and transform the latent space based on an eigenvalue decomposition, in order to modify or even replace the residual vector quantization (RVQ) used in recent codecs such as SoundStream and EnCodec. In particular, the proposed approach brings about 37% of reduction in storage and computational complexity for EnCodec, with no quality degradation.

Cet article se concentre sur le codage audio par réseaux de neurones artificiels. Nous proposons d'appliquer une analyse et une transformation de l'espace latent par décomposition en valeurs propres, afin de modifier voire remplacer la quantification vectorielle résiduelle (RVQ) actuellement utilisée par des codecs récents tels que SoundStream ou EnCodec. L'approche proposée permet en particulier une réduction du stockage et de la complexité d'environ 37% pour EnCodec sans dégrader la qualité audio.

Mots clés

codage audio quantification espace latent réseaux de neurones

Domaines

Traitement du signal et de l'image [eess.SP] Intelligence artificielle [cs.AI] Théorie de l'information et codage [math.IT]

Fichier principal

Article_GRETSI23_MULLER_Thomas_final.pdf (526.35 Ko)

Origine : Fichiers produits par l'(les) auteur(s)
licence : CC BY ND - Paternité - Pas de modifications

Thomas Muller : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04286552

Soumis le : mercredi 15 novembre 2023-10:45:29

Dernière modification le : mercredi 27 mars 2024-03:14:02

Dates et versions

hal-04286552 , version 1 (15-11-2023)

Identifiants

HAL Id : hal-04286552 , version 1

Citer

Thomas Muller, Stéphane Ragot, Quentin Lemesle, Pierrick Philippe, Pascal Scalart. Quantification optimisée de l'espace latent en codage audio neuronal. XXIXème Colloque Francophone de Traitement du Signal et des Images GRETSI 2023, GRETSI, Aug 2023, Grenoble, France. pp.693-696. ⟨hal-04286552⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC IRISA-D3 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

37 Consultations

22 Téléchargements

Quantification optimisée de l'espace latent en codage audio neuronal

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager