[Stage] Extraction d’informations spécifiques au locuteur pour la mise en place de systèmes explicables / interprétables.

[Stage] Extraction d’informations spécifiques au locuteur pour la mise en place de systèmes explicables / interprétables.


DISPONIBILITÉ

Immédiate

DURÉE

6 Mois

RÉMUNÉRATION

Selon grilles en applications

 

Description du stage :

Ce stage vise à construire un système d’extraction d’informations des caractéristiques d’un locuteur, basé sur les technologies d’intelligence artificielle neuronale. Il s’agit de déterminer un ensemble de caractéristiques vocales, chacune d’entre elles étant spécifique à un sous-groupe donné de la population.

Une authentification de personne basée sur la voix sera effectuée d’une manière simple inspirée de l’identification ADN : pour chacune des caractéristiques spécifiques au locuteur observées dans les échantillons, la fiabilité de cette observation et sa typicité (c’est-à-dire le pourcentage de personnes dans la population présentant cette caractéristique) seront combinées. Toutes les observations seront accumulées pour produire la décision finale.

La méthode proposée utilise l’apprentissage profond pour mieux gérer les différentes variabilités de la parole : type de parole, bruits, canaux de transmission, etc. De plus, la méthode va estimer conjointement la présence des caractéristiques afin de bénéficier de la somme des connaissances extraites par les réseaux de neurones utilisés.

Ce stage sera adossé à une thèse sur une thématique proche concernant le développement de l’approche BA-LR, intrinsèquement interprétable/explicable pour la reconnaissance du locuteur. Cette thèse est actuellement en cours et permettra au candidat de travailler en collaboration avec la doctorante impliquée.

Contexte et challenge :

La reconnaissance des individus par la voix est un domaine en plein développement avec des répercussions sociétales importantes. De nombreuses applications sont disponibles, dans le contexte bancaire, les assistants vocaux ou l’IoT par exemple. La reconnaissance vocale est également utilisée pour des applications de sécurité, privées ou nationales. Enfin, elle touche également le système judiciaire, avec l’expertise judiciaire de comparaison de voix dans les tribunaux.

Bien que les systèmes de reconnaissance du locuteur montrent un très haut niveau de performance lors des évaluations scientifiques, ils souffrent encore de plusieurs défauts. Tout d’abord, comme tout système d’apprentissage automatique, ils peuvent admettre des biais d’apprentissage qui conduisent à des décisions inappropriées (par exemple, l’absence d’un accent régional dans la base d’apprentissage peut conduire à une confusion entre caractéristiques individuelles et caractéristiques régionales). De plus, les systèmes fonctionnent sous la forme d’une boîte noire : ils renvoient un score numérique en réponse à un stimulus et ce en toutes circonstances, même si l’enregistrement sonore contient peu d’informations caractéristiques du locuteur. Enfin, les scores proposés par les systèmes de reconnaissance du locuteur n’ont aucune signification en tant que telle. Pour prendre une décision, il est encore nécessaire de normaliser, ou « calibrer » le score, pour tenir compte du contexte de l’application et des conditions locales d’utilisation. Un défaut dans ce calibrage, dû par exemple à des conditions non encore rencontrées, peut donner au système un comportement erratique.

Ce stage se concentrera sur le module d’extraction des caractéristiques vocales au sein de l’approche BA-LR. Les aspects “explicabilité” seront privilégiés.

Il se déroulera dans le cadre de la chaire partenariale LIAvignon, au sein du Laboratoire Informatique d’Avignon (LIA) qui fournira toutes les connaissances et ressources nécessaires (logiciels, bases de données et calculateurs) pour mener à bien le travail proposé.

Informations complémentaires et candidature :