LE LOGICIEL VOX PROTECT :
COMMENT PROTEGER VERI TABLEMENT LA VOIX DES TEMOINS ?
Notre voix est l’un de nos » biens » les plus précieux. Mals c’est aussi une donnée, un moyen de reconnaissance qu’il nous faut protéger. Le logiciel Vox Protect développé par Christophe Henrotte, directeur de studio MAIA vise justement à renforcer la protection des témoins. Retour sur les enjeux autour de cette innovation.
Témoignages télévisés, conversations privées, appels téléphoniques, notes vocales … toutes ces situations, pour la plupart quotidiennes, peuvent être exploitées à notre insu.
Parce que oui, aujourd’hui, il est possible de reconnaître l’identité, l’âge, le sexe, l’état de santé d’une personne grâce à sa signature vocale.
La protéger est donc un enjeu majeur de notre société.
UN RISQUE DE CINQ ANS D’EMPRISONNEMENT
D’ailleurs, le Règlement général sur la protection de données (RGPD), protège justement, à l’article 4¹ « la data personnelle», dont fait partie notre voix.
Comme le droit à l’image d’une personne, le« droit à sa voix » fait partie, depuis un procès de 1982, de ce qu’on appelle en France « les droits de la personnalité», explique l’article² de la Commission nationale de l’informatique et des libertés (CNIL). La CNIL a d’ailleurs rappelé dans un article³ publié le 4 janvier 2022, que la non ou mauvaise protection d’un témoin est
« punie de 5 ans de prison et de 75 000€ d’amende ». Ainsi établie comme une donnée juridiquement et légalement protégée, le témoignage anonyme d’une personne doit rester anonyme, doit rester irréversible.
LE PITCH:
LA FAUSSE PROTECTION
Protéger et garantir l’anonymat de la voix des témoins se doit donc d’être une priorité. Mais les nombreux effets linéaires, comme le pitch très majoritairement utilisé par les professionnels du son, ne protègent en rien les témoins, leur voix étant facilement retraçable. L’effet utilisé de pitch est « une mesure de protection extrêmement faible », assure la CNIL. « il n’est pas compliqué techniquement de modifier {la voix} dans le sens inverse pour se rapprocher rapidement de la voix réelle et ainsi pouvoir ré-identifier la personne». En prenant l’exemple de représentation spectrale ci-dessous, l’analyse avant et après du pitch montre que le signal n’a pas été modifié, puisqu’il n’y a aucune différence sur les harmoniques du signal.
L’année 2013, en France, a prouvé à quel point il était facile d’identifier la signature vocale d’un individu, avec comme simples outils un enregistrement et un logiciel de reconnaissance vocale. C’est l’affaire« Cahuzac », mettant en cause l’ex-ministre du Budget, qui met en avant ce risque.
Le fameux enregistrement téléphonique, instrument de sa chute, dévoilé par Mediapart, a été nettoyé par les experts du Service central de l’informatique et des traces technologiques (SCITT), puis convertie en courbes afin d’établir une signature vocale. Ensuite, entre en jeu le logiciel Batvox, qui a permis de comparer l’enregistrement à des discours de l’ancien ministre Jérôme Cahuzac, et d’établir un degré de ressemblance. Aucun doute, donc, sur la possibilité de reconnaître l’identité d’une personne grâce à sa voix.
Cependant, le risque est largement plus important pour les personnes témoignant dans des affaires dites «sensibles» ou souhaitant conserver leur anonymat pour leur sécurité.
En clair, une voix de témoin pitchée peut être facilement identifiable en inversant le processus.
La voix des témoins n’est pas protégée.
1.https://www.servicesmobiles.fr/la-voix-est-une-donnee-personnelle-sensible-que-dit-le-rgpd-45787
2. https://linc.cnil.fr/fr/les-droits-de-la-voix-12-quelle-ecoute-pour-nos-systemes
3. https://linc.cnil.fr/protection-des-temoins-casser-la-voix-et-limage
VOX PROTECT:
UNE SOLUTION POUR GARANTIR L’ANONYMAT DES TÉMOINS
Nous avons travaillé plus de quatre ans avec des chercheurs du CNRS et de l’INRIA pour développer un plug-in qui garantit la protection de la voix des témoins. Ces travaux étant concluants, nous avons créé la société Swealink et développé le produit Vox Protect afin de le commercialiser.
Nous avions envisagé plusieurs pistes de réflexion, notamment la resynthèse vocale, qui est l’une des pistes couramment envisagées de nos jours.
Le principe de la resynthèse vocale est assez simple. D’une part, on récupère le texte dit par le témoin par une brique de Speach2text et, d’autre part, on analyse la prosodie de la voix afin d’en conserver les émotions. Le texte et les informations de prosodies sont alors analysés et on reconstitue la nouvelle voix à partir d’un corpus distinct de voix existante.
Cette approche pré- sente plusieurs inconvénients, dont certains sont rédhibitoires dans le cas qui nous occupe, où l’on cherche que la voix du témoin soit protégée, mais également entendue par un spectateur (lors d’un journal télévisé ou sur un documentaire).
Pour reconstituer l’émotion de la voix initiale, il est nécessaire de réunir un corpus très important, avec plusieurs gigaoctets de voix disponibles.
Ce corpus est également sensible à la langue, en fonction de l’accent de l’ancienne ou de la nouvelle voix. Il est donc probable qu’il faille stocker ce corpus en dehors de la machine de l’ordinateur sur lequel est fait le traitement, d’une part, et/ou qu’il faille envoyer les informations: voix originale, texte original, dans le cloud pour un traitement distant, ce qui crée une faille de sécurité. La puissance nécessaire pour faire fonctionner un tel process en temps réel impose des ressources machines également très importantes, parfois incompatibles avec ce qu’autorisent les outils de montages sons sur lesquels serait branché le plug-in. Une quête de performance viendrait à simplifier la prosodie, voire à créer des erreurs d’interprétation, ce qui pose des questions sur le plan déontologique.
Par ailleurs, dans un contexte sensible de protection d’un témoin, nous pourrions rencontrer des limites en termes de droits d’auteurs et de droit moral du comédien qui a enregistré le corpus de. A-t-il donné son autorisation pour que sa voix soit utilisée pour évoquer une attaque terroriste ?
Pour l’ensemble de ces raisons, nous avons cherché à concilier une approche plus classique, mais avec une originalité dans le traitement aléatoire qui rend la transformation indétectable.
Nous avons donc retenu l’option d’un traitement par modulation aléatoire qui permet de travailler en temps réel. Il s’agit de faire subir au signal trois variations indépendantes les unes des autres. Ces variations fonctionnent sur un temps très court, de moins d’une seconde et rendent impossible la réversibilité. Par ailleurs, le logiciel ne gardant aucune trace, la protection du témoin est ainsi assurée : si on passe la même voix deux fois à travers ce processus de transformation, la voix transformée sera donc différente.
Comme il s’agit d’une adjonction de transformations linéaires, on conserve la prosodie et donc l’émotion du témoignage.
Si on reprend la comparaison entre la voix originale et la voix traitée, nous constatons que le signal a bel et bien subi des transformations importantes, protégeant donc le témoin d’une reconnaissance vocale par analogie des signaux.
DES NIVEAUX DE PROTECTION ADAPTÉS AUX BESOINS
Deux niveaux de protection ont été mis en place pour s’adapter au mieux au besoin de chaque témoin.
Le premier est le « Low Level of Protection » qui correspond à un niveau bas de protection, soit un témoignage sur des affaires courantes sans risque majeur autre que la réversibilité du processus : il protège d’une réversion effectuée par un pitch.
On peut le renforcer par une légère variation des modulations. En revanche, ce niveau ne protègera pas d’une attaque par des services « spécialisés » qui ont accès à des outils beaucoup plus perfectionnés comme la reconnaissance vocale assistée par ordinateur.
Le second, le « High Level of Protection », permet, comme son nom l’indique, d’atteindre un niveau de protection plus important. Il est donc conseillé pour des cas comme le témoignage dans une affaire terroriste.
En revanche, ce niveau nécessite un ajustement pour trouver le meilleur compromis entre protection et lisibilité du message.
Nous avons la volonté de proposer des améliorations au fil de l’eau par des mises à jour régulières et des changements de versions, a priori tous les deux ans.
N’hésitez pas à nous contacter si vous souhaitez plus d’informations. Les premiers retours seront in- dispensables pour nous assurer que cet outil remplit parfaitement sa vocation.
Pour plus d’informations: www.voxprotect.com
Christophe Henrotte