Partant de l’« enjeu majeur » que constitue la protection de la voix de protagonistes interrogés dans des reportages et interviews, notamment en matière criminelle, la société Swealink a développé Vox Protect, un logiciel garantissant la protection des témoins, selon un communiqué de son président Christophe Henrotte. Fruit de quatre années de travail conduit par cet ingénieur du son, avec plusieurs chercheurs, et soutenu par le Riam, le CNC, la BPI et l’Inria, cette solution utilise un algorithme aléatoire et, par son mode de fonctionnement, permet de « protéger à la fois la voix du témoin, l’utilisateur (le technicien), et le logiciel lui-même notamment grâce à une clé antipiratage », est-il expliqué.
Jusqu’à présent, l’un des moyens de protéger les témoins consiste à modifier leur voix par des « effets linéaires » à l’instar de « l’effet de « pitch” » qui consiste en une « transformation de la tonalité d’un signal traité » sans toutefois dégrader le son, est-il expliqué. Concrètement, cet effet ne modifie « aucunement » les fondamentaux du signal sonore. La méthode datant de « l’ère analogique » apparaît ainsi dépassée à l’heure où de « simples fonctions inverses », accessibles sur internet, contribuent à rendre tous les effets audio existants réversibles et, dès lors, ne garantissent plus l’anonymat des témoins.
Un constat corroboré par la Cnil qui relève, dans un article du 4 janvier, que la technique de « pitch shifting » apporte une « protection extrêmement faible » à l’aune des nouveaux logiciels du son disponibles sur le marché. « Cette technique pouvait avoir de l’intérêt quand les coûts de rétro-ingénierie étaient importants et accessibles qu’à un nombre limité de personnes il y a quelques dizaines d’années, ce qui n’est plus le cas avec le passage au format numérique et l’accessibilité des logiciels », conclut-elle.
LE LOGICIEL VOX PROTECT :
COMMENT PROTEGER VERI TABLEMENT LA VOIX DES TEMOINS ?
Notre voix est l’un de nos » biens » les plus précieux. Mals c’est aussi une donnée, un moyen de reconnaissance qu’il nous faut protéger. Le logiciel Vox Protect développé par Christophe Henrotte, directeur de studio MAIA vise justement à renforcer la protection des témoins. Retour sur les enjeux autour de cette innovation.
Témoignages télévisés, conversations privées, appels téléphoniques, notes vocales … toutes ces situations, pour la plupart quotidiennes, peuvent être exploitées à notre insu.
Parce que oui, aujourd’hui, il est possible de reconnaître l’identité, l’âge, le sexe, l’état de santé d’une personne grâce à sa signature vocale.
La protéger est donc un enjeu majeur de notre société.
UN RISQUE DE CINQ ANS D’EMPRISONNEMENT
D’ailleurs, le Règlement général sur la protection de données (RGPD), protège justement, à l’article 4¹ « la data personnelle», dont fait partie notre voix.
Comme le droit à l’image d’une personne, le« droit à sa voix » fait partie, depuis un procès de 1982, de ce qu’on appelle en France « les droits de la personnalité», explique l’article² de la Commission nationale de l’informatique et des libertés (CNIL). La CNIL a d’ailleurs rappelé dans un article³ publié le 4 janvier 2022, que la non ou mauvaise protection d’un témoin est
« punie de 5 ans de prison et de 75 000€ d’amende ». Ainsi établie comme une donnée juridiquement et légalement protégée, le témoignage anonyme d’une personne doit rester anonyme, doit rester irréversible.
LE PITCH:
LA FAUSSE PROTECTION
Protéger et garantir l’anonymat de la voix des témoins se doit donc d’être une priorité. Mais les nombreux effets linéaires, comme le pitch très majoritairement utilisé par les professionnels du son, ne protègent en rien les témoins, leur voix étant facilement retraçable. L’effet utilisé de pitch est « une mesure de protection extrêmement faible », assure la CNIL. « il n’est pas compliqué techniquement de modifier {la voix} dans le sens inverse pour se rapprocher rapidement de la voix réelle et ainsi pouvoir ré-identifier la personne». En prenant l’exemple de représentation spectrale ci-dessous, l’analyse avant et après du pitch montre que le signal n’a pas été modifié, puisqu’il n’y a aucune différence sur les harmoniques du signal.
L’année 2013, en France, a prouvé à quel point il était facile d’identifier la signature vocale d’un individu, avec comme simples outils un enregistrement et un logiciel de reconnaissance vocale. C’est l’affaire« Cahuzac », mettant en cause l’ex-ministre du Budget, qui met en avant ce risque.
Le fameux enregistrement téléphonique, instrument de sa chute, dévoilé par Mediapart, a été nettoyé par les experts du Service central de l’informatique et des traces technologiques (SCITT), puis convertie en courbes afin d’établir une signature vocale. Ensuite, entre en jeu le logiciel Batvox, qui a permis de comparer l’enregistrement à des discours de l’ancien ministre Jérôme Cahuzac, et d’établir un degré de ressemblance. Aucun doute, donc, sur la possibilité de reconnaître l’identité d’une personne grâce à sa voix.
Cependant, le risque est largement plus important pour les personnes témoignant dans des affaires dites «sensibles» ou souhaitant conserver leur anonymat pour leur sécurité.
En clair, une voix de témoin pitchée peut être facilement identifiable en inversant le processus.
La voix des témoins n’est pas protégée.
1.https://www.servicesmobiles.fr/la-voix-est-une-donnee-personnelle-sensible-que-dit-le-rgpd-45787
2. https://linc.cnil.fr/fr/les-droits-de-la-voix-12-quelle-ecoute-pour-nos-systemes
3. https://linc.cnil.fr/protection-des-temoins-casser-la-voix-et-limage
VOX PROTECT:
UNE SOLUTION POUR GARANTIR L’ANONYMAT DES TÉMOINS
Nous avons travaillé plus de quatre ans avec des chercheurs du CNRS et de l’INRIA pour développer un plug-in qui garantit la protection de la voix des témoins. Ces travaux étant concluants, nous avons créé la société Swealink et développé le produit Vox Protect afin de le commercialiser.
Nous avions envisagé plusieurs pistes de réflexion, notamment la resynthèse vocale, qui est l’une des pistes couramment envisagées de nos jours.
Le principe de la resynthèse vocale est assez simple. D’une part, on récupère le texte dit par le témoin par une brique de Speach2text et, d’autre part, on analyse la prosodie de la voix afin d’en conserver les émotions. Le texte et les informations de prosodies sont alors analysés et on reconstitue la nouvelle voix à partir d’un corpus distinct de voix existante.
Cette approche pré- sente plusieurs inconvénients, dont certains sont rédhibitoires dans le cas qui nous occupe, où l’on cherche que la voix du témoin soit protégée, mais également entendue par un spectateur (lors d’un journal télévisé ou sur un documentaire).
Pour reconstituer l’émotion de la voix initiale, il est nécessaire de réunir un corpus très important, avec plusieurs gigaoctets de voix disponibles.
Ce corpus est également sensible à la langue, en fonction de l’accent de l’ancienne ou de la nouvelle voix. Il est donc probable qu’il faille stocker ce corpus en dehors de la machine de l’ordinateur sur lequel est fait le traitement, d’une part, et/ou qu’il faille envoyer les informations: voix originale, texte original, dans le cloud pour un traitement distant, ce qui crée une faille de sécurité. La puissance nécessaire pour faire fonctionner un tel process en temps réel impose des ressources machines également très importantes, parfois incompatibles avec ce qu’autorisent les outils de montages sons sur lesquels serait branché le plug-in. Une quête de performance viendrait à simplifier la prosodie, voire à créer des erreurs d’interprétation, ce qui pose des questions sur le plan déontologique.
Par ailleurs, dans un contexte sensible de protection d’un témoin, nous pourrions rencontrer des limites en termes de droits d’auteurs et de droit moral du comédien qui a enregistré le corpus de. A-t-il donné son autorisation pour que sa voix soit utilisée pour évoquer une attaque terroriste ?
Pour l’ensemble de ces raisons, nous avons cherché à concilier une approche plus classique, mais avec une originalité dans le traitement aléatoire qui rend la transformation indétectable.
Nous avons donc retenu l’option d’un traitement par modulation aléatoire qui permet de travailler en temps réel. Il s’agit de faire subir au signal trois variations indépendantes les unes des autres. Ces variations fonctionnent sur un temps très court, de moins d’une seconde et rendent impossible la réversibilité. Par ailleurs, le logiciel ne gardant aucune trace, la protection du témoin est ainsi assurée : si on passe la même voix deux fois à travers ce processus de transformation, la voix transformée sera donc différente.
Comme il s’agit d’une adjonction de transformations linéaires, on conserve la prosodie et donc l’émotion du témoignage.
Si on reprend la comparaison entre la voix originale et la voix traitée, nous constatons que le signal a bel et bien subi des transformations importantes, protégeant donc le témoin d’une reconnaissance vocale par analogie des signaux.
DES NIVEAUX DE PROTECTION ADAPTÉS AUX BESOINS
Deux niveaux de protection ont été mis en place pour s’adapter au mieux au besoin de chaque témoin.
Le premier est le « Low Level of Protection » qui correspond à un niveau bas de protection, soit un témoignage sur des affaires courantes sans risque majeur autre que la réversibilité du processus : il protège d’une réversion effectuée par un pitch.
On peut le renforcer par une légère variation des modulations. En revanche, ce niveau ne protègera pas d’une attaque par des services « spécialisés » qui ont accès à des outils beaucoup plus perfectionnés comme la reconnaissance vocale assistée par ordinateur.
Le second, le « High Level of Protection », permet, comme son nom l’indique, d’atteindre un niveau de protection plus important. Il est donc conseillé pour des cas comme le témoignage dans une affaire terroriste.
En revanche, ce niveau nécessite un ajustement pour trouver le meilleur compromis entre protection et lisibilité du message.
Nous avons la volonté de proposer des améliorations au fil de l’eau par des mises à jour régulières et des changements de versions, a priori tous les deux ans.
N’hésitez pas à nous contacter si vous souhaitez plus d’informations. Les premiers retours seront in- dispensables pour nous assurer que cet outil remplit parfaitement sa vocation.
Christophe Henrotte
Protection des témoins : casser la voix et l’image
Rédigé par Martin Biéri & Alexis Léautier
–
04 janvier 2023
La question de la protection des témoins n’est pas récente : il existe dans le droit des dispositions permettant de protéger leur anonymat, notamment lorsque pèse sur eux un risque d’atteinte à leur intégrité (ou à celle de leurs proches). Pour autant, les mesures techniques censées garantir cet anonymat par la modification des informations audio et vidéo ont certaines limites, sans cesse repoussées par les progrès technologiques.
La protection de l’identité des témoins
Alors que la protection des lanceurs d’alertes a connu un renforcement avec la loi Waserman en 2022 et la transposition de la directive européenne datant de 2019, la question de la protection de l’anonymat dans les contextes juridiques ou journalistiques reste un enjeu, surtout au regard des progrès de la technologie.
Si des mesures permettant de protéger les témoins étaient présentes en France depuis plusieurs années – pour les protéger d’influence extérieure, comme la subordination de témoin ou d’autres moyens de pression, mais également dans l’usage, comme dans le fait de protéger l’identité des « indics » de la police dans les procès-verbaux –, elles ont été renforcées depuis 2001, permettant notamment d’organiser le cadre légal du témoignage anonyme, « une importante nouveauté inspirée par les procédures accusatoires des pays de common law » (Citoyens et délateurs, 2005). Ainsi, on y trouve de nouvelles dispositions permettant de cacher certaines informations qui présentent des risques pour les témoins. Ces derniers peuvent – par exemple – donner l’adresse du commissariat plutôt que la leur pour ne pas risquer de représailles de la personne qu’ils seraient en train d’incriminer.
Ce renforcement s’est poursuivi en 2016, faisant notamment apparaître quelques précisions techniques. En effet, dans le cadre d’une procédure judiciaire (dans le cadre d’un crime ou d’un délit puni d’au moins trois ans de prison), le témoin peut être amené à comparaître, avec des mesures qui permettent de le protéger d’une réidentification : « Dans certaines circonstances (par exemple si sa sécurité n’est plus assurée), le témoin peut être autorisé à utiliser un nom d’emprunt. S’il est confronté au suspect, cette confrontation se fera à distance. Le témoin ne sera pas visible et sa voix sera masquée. La révélation de l’identité ou de l’adresse est punie de 5 ans de prison et de 75 000 € d’amende » (service-public). Ces nouveaux ajouts sont à comprendre dans le contexte de la lutte contre le terrorisme, et notamment à la suite des attentats de l’année 2015, comme l’indique l’intitulé du texte.
Ainsi, outre le fait de garder secrète l’identité de l’individu (nom, prénom, adresse, etc.), c’est-à-dire de la conserver en dehors ou en parallèle de la procédure, il existe deux manières de le protéger : en « enlevant » son image (le fait d’être visible) et en « masquant » sa voix. Dans le premier cas, le fait de ne pas être présent (à distance) est une mesure assez simple et évidente : l’absence physique de l’individu de l’enceinte du tribunal (par exemple, dans la confrontation) le protège de manière évidente. Il existe ensuite d’autres mesures permettant de dégrader l’image afin qu’elle ne transmette aucune information directement identifiante (floutage ou pixellisation par exemple).
En ce qui concerne la voix, les mesures techniques utilisées sont également assez connues : il s’agit généralement d’opérer une modification de la voix, en la décalant vers les aigus ou vers les graves. Il ne s’agit donc pas spécialement ici d’une dégradation du son, mais bien d’une transposition, ce qu’on appelle le « pitch shifting » (voir également plus bas).
Ces techniques se retrouvent également dans le cadre de reportages télévisés, dans lequel des personnes témoignent en échange d’une protection de leur anonymat, sur des sujets plus ou moins sensibles. Plusieurs dispositifs existent : la personne peut être hors champ ou dans l’ombre, ce qui permet de n’avoir qu’une vague silhouette ; la personne peut être « floutée » (on ajoute un filtre par-dessus l’image ou au contraire, on dégrade plus ou moins la qualité de l’image dans l’optique de masquer ce qui est considéré comme le plus identifiant, à savoir le visage) ; la personne peut être anonymisée par un bandeau noir sur les yeux ; elle peut également être remplacé par un acteur ou un journaliste lisant ses propos – ou ses propos peuvent être simplement écrits sur un carton.
Des limites inhérentes à la technique
La voix
Ces mesures techniques sont-elles pour autant suffisamment efficaces ? D’abord, dans le cadre de la voix, il n’est pas compliqué techniquement de modifier dans le sens inverse pour se rapprocher rapidement de la voix réelle et ainsi pouvoir réidentifier la personne. Cette manœuvre est disponible dans la plupart des logiciels d’édition du son, d’enregistrement ou de création musicale, y compris gratuits. Le « pitch shifting», cette fameuse modulation linéaire du signal, semble donc une mesure de protection extrêmement faible dans le cadre de la protection d’un témoin ou dans celui de la protection des sources. Cette technique pouvait avoir de l’intérêt quand les coûts de rétroingénierie étaient importants et accessibles qu’à un nombre limité de personnes il y a quelques dizaines d’années, ce qui n’est plus le cas avec le passage au format numérique et l’accessibilité des logiciels.
Démonstration d’un pitch shifting : le premier enregistrement est l’original ; le second est l’enregistrement après « déplacement » de 7 demi-tons vers les graves, grâce à un logiciel accessible gratuitement en ligne. Pour autant, l’inversion n’est pas compliquée : en tâtonnant, il est assez simple de revenir à (ou de s’approcher de) l’enregistrement original.
Par ailleurs, la voix est une donnée à géométrie variable (voir le Livre blanc sur les assistants vocaux et nos articles Les droits de la voix) : en plus d’être une caractéristique propre à chaque individu, elle est le support du message transmis. La manière de parler, les tics de langage, l’accent… sont autant d’indices pour pouvoir réidentifier la personne. Et, par extension, nous retrouvons tous les enjeux classiques liés à l’anonymisation des données : enlever les attributs directement identifiants n’est pas forcément suffisant. Il est possible de réidentifier une personne (par inférence ou recoupement) grâce aux informations contextuelles fournies dans l’enregistrement.
L’illustration la plus célèbre de ces failles est la réidentification de Sonia (qui est nom d’emprunt). Cette personne qui avait fourni des informations sur un terroriste et permis d’éviter un attentat en 2015 avait vu son identité révélée. Suite à cela, elle avait été obligée de changer de nom, d’adresse, etc. Cet incident avait par ailleurs mené au projet de loi « Lutte contre le crime organisé, le terrorisme et leur financement, et améliorant l’efficacité et les garanties de la procédure pénale » en 2015, mentionné plus haut.
En parallèle, il est aussi à noter que les liens entre analyse vocale et justice se multiplient : il existe de nouveaux acteurs spécialisés pour épauler les enquêteurs, par exemple. Ainsi, l’entreprise Agnitio, dont le logiciel Batvox est utilisé dans plusieurs services de police en Europe, avait notamment permis d’authentifier la voix de Jérôme Cahuzac dans les enregistrements dévoilés par Mediapart en 2013 et réutilisés par la justice.
Par ailleurs, cet épisode avait suscité des réactions dans la communauté scientifique sur la fiabilité des recours à de tels dispositifs dans le cadre de procédure judiciaire : « Malgré les progrès permanents de la Science, les chercheurs du domaine considèrent quasi unanimement que les méthodes actuelles de comparaison vocale sont imprécises » selon J.-F. Bonastre, professeur au Laboratoire d’Informatique d’Avignon et spécialiste du traitement de la parole et de l’authentification vocale (dont vous pouvez trouver l’interview donnée au LINC en 2017 ici). Il rappelle également dans un article intitulé « 1990-2020 : retours sur 30 ans d’échanges autour de l’identification de voix en milieu judiciaire » que les fondements scientifiques des expertises vocales sont contestés par les chercheurs académiques, et qu’une position de la communauté scientifique francophone sur le sujet n’a pas changé depuis le vote d’une motion en 1990. Il est intéressant de noter que des chercheurs participants à des procès le font sous le label de témoins scientifiques et non d’experts judiciaires.
Article disponible ici !
Notre voix est unique.
Cependant avec l’avènement du numérique et la prolifération de technologies tels que le Deepfake audio, la voix peut être désormais synthétisée, modifiée et reconnue. La protection de la voix est ainsi devenue un enjeu majeur à l’instar de l’image.
Pour visualiser le communiqué multimédia de presse, rendez-vous sur: https://www.multivu.com/players/uk/9057251-voxprotect-witness-voice-is-not-protected/
Malheureusement de nos jours, un des moyens clés de la protection des témoins utilisé dans l’ensemble des reportages et affaires criminelles reste la modification de la voix par des effets linéaires existants sur le marché comme l’effet de « pitch » : une transformation de la tonalité d’un signal traité.
Ces méthodes de travail datent de l’ère analogique. Le fait qu’aujourd’hui de simples fonctions inverses soient à disposition sur internet et que la recherche ait pu accéder à la représentation spectrale d’un signal, l’équivalent d’une empreinte digitale de la voix rendent tous les effets audio existants réversibles.
Ces méthodes sont donc toutes devenues obsolètes et dangereuses et ne garantissent en rien l’anonymat des témoins.
Une faille de protection que peu de services officiels, notamment la Justice, semblent connaître.
Concrètement, si on prend un exemple de représentation spectrale l’analyse avant et après du pitch ne modifie aucunement les fondamentaux du signal.
Aucune modification n’est observée. C’est dès lors la confirmation de la NON-PROTECTION de la voix des témoins par traitement simple de « pitch » ou autre effet linéaire.
Forts de ce constat que nous ne sommes pas les seuls à dénoncer*, après 4 ans de recherche et développement avec des chercheurs spécialisés et le soutien du RIAM, du CNC, de la BPI et l’INRIA, la société SWEALINK propose la seule protection sécurisée pour la voix des témoins, un plug-in sous le nom de VOX PROTECT.
Pour preuve de son irréversibilité, si nous reprenons la comparaison entre la voix originale et la voix traitée par VOX PROTECT, nous apercevons que le signal a bel et bien subi des transformations importantes, protégeant donc le témoin d’une reconnaissance vocale par analogie des signaux.
Par son mode de fonctionnement innovant, VOX PROTECT est le seul logiciel qui protège le témoin, l’utilisateur du plug-in et le logiciel lui-même.
Pour en savoir plus : VOXPROTECT.COM
Pour recevoir le dossier de presse: contact@voxprotect.com
Our voice is unique.
However, with digital technology’s advent and the proliferation of technologies such as DEEPFAKE AUDIO, the voice can now be synthesized, modified, andrecognized.
Unfortunately, nowadays, one of the necessary means of witness protection used in all news reports and criminal cases remains the voice modification by linear effects existing on the market, such as the « pitch » effect: a transformation of the tone of a processed signal.
These working methods date back to the analog era. Today, simple inverse functions are available on the internet. That research access to a signal’s spectral representation, the equivalent of a voice fingerprint, reverse all existing audio effects.
These methods have become obsolete and dangerous and do not guarantee the anonymity of witnesses.
A protection flaw that few official services, especially the Justice, seem to know.
In concrete terms, if we take an example of spectral representation, the analysis before and after the pitch does not modify the fundamentals of the signal.
Spectral representation of the original voice:
Spectral representation of the « pitched » voice:
No modification is observed. This confirms the NON-PROTECTION of the voice of the witnesses by simple treatment of « pitch » or other linear effects.
Based on this observation, which we are not the only ones to denounce*, after four years of research and development with specialized researchers and the support of RIAM, CNC, BPI, and INRIA, SWEALINK offers the only secure protection for the voice of witnesses, a plug-in under the name VOX PROTECT.
As proof of its irreversibility, if we compare the original voice and the voice processed by VOX PROTECT, we can see that the signal has indeed undergone essential transformations, thus protecting the witness from a voice recognition by the analogy of signals.
Original voice:
Voice processed by the VOX PROTECT software:
VOX PROTECT is the only software that protects the witness, the plug-in user, and the software itself by its innovative operating model.
*For more information: www.voxprotect.com
To receive the press kit: contact@voxprotect.com