La Chaire LIAvignon organise le challenge IA, intitulé “The battle of series and characters”, dédié aux étudiants d’Avignon Université. Il s’agit de reconnaître quel personnage d’une série a prononcé une réplique courte, sur la base de la transcription orthographique de celle-ci et/ou à partir de l’enregistrement audio de la réplique. Reconnaître la série et non seulement le personnage fait également partie du challenge.
Ce challenge vise deux objectifs :
1. Mettre en œuvre des solutions open source de l’IA, au sens du machine learning, dans le domaine du traitement automatique du langage, avec deux angles d’approche, le NLP et l’audio. | 2. Illustrer l’esprit des valeurs fondamentales de la chaire LIAvignon que sont la transparence, l’éthique et la fiabilité. |
Modalités de participation (Challenge terminé) :
Ce challenge est ouvert à tous les étudiants d’Avignon Université. Les participants peuvent être des personnes seules ou des équipes allant jusqu’à quatre étudiants.
La déclaration d’intention d’un participant se fait par un mail à contact@liavignon.fr, contenant les noms, prénoms et numéros étudiants du ou des participants de l’équipe, ainsi que le nom de l’équipe. Les organisateurs inscrivent le participant, après avoir vérifié les informations données.
La participation est gratuite et volontaire : les participants peuvent se retirer à tout moment.
Les participants s’engagent à respecter les règles du challenge et, en particulier, à ne pas diffuser les données qui leur seront distribuées. Ces données sont protégées par copyright et seuls quelques extraits courts de moins de 3s peuvent être diffusés à des fins d’illustration. Les participants s’engagent également à détruire ces données après la fin du challenge.
Les organisateurs s’engagent à visibiliser de manière pérenne le challenge, auprès des partenaires industriels et institutionnels de la chaire LIAvignon ainsi qu’à plus large échelle. Un certificat de participation sera remis à chaque participant ayant terminé le challenge.
La participation consiste en trois phases :
1. Une phase de mise au point des systèmes, collaborative et compétitive.
Il s’agit de développer les systèmes en utilisant uniquement les corpus fournis et de tester ceux-ci sur le jeu de développement, le résultat des tests étant partagé par l’ensemble des participants. Un suivi/soutien sera réalisé par les permanents du LIA sur toute la durée de cette phase.
2. Une phase de test, très courte.
Elle consiste à appliquer les systèmes en mode aveugle sur des jeux de tests fournis par l’organisation. Chaque système ne doit être exécuté qu’une fois par jeu de test (l’optimisation des systèmes durant cette phase est interdite).
3. Une phase d’analyse, de documentation et de présentation.
Une analyse de votre solution vous sera demandée, en termes d’explicabilité des décisions de votre système et de découverte des éventuels biais qui affectent ces décisions. Ce rapport d’analyse est un résultat important qui devra être retourné dans les temps aux organisateurs du challenge. Enfin, une présentation de vos résultats, essentiellement axée sur cette analyse, vous sera demandée lors de la réunion de rendu des résultats.
Description des tâches :
Le challenge est composé de deux tâches principales, la détection de personnage et la détection de la série.
1. Détection du personnage
La tâche 1 consiste à détecter quel est le personnage qui a prononcé un extrait audio donné.
Cet extrait audio, Ei, a les caractéristiques suivantes :
- il est monolocuteur (un seul locuteur est présent sur l’enregistrement)
- il a une durée variant entre 0.5 et 10 secondes de parole
- la présence de bruit et ou de musique est possible
- il est accompagné par sa transcription orthographique
Deux sous-tâches sont définies :
1.1 Détection binaire :
un test se présente sous la forme (Ei, X, Y). Ei a été prononcé soit par le personnage X, soit par le personnage Y. La réponse attendue est de la forme (ID_segment, décision, score), score étant la sortie numérique du système sous la forme où plus le score est grand, plus la confiance en la décision est grande, décision est le personnage, X ou Y.
1.2 Identification parmi un ensemble ouvert N :
un test se présente sous la forme (Ei, P1, P2,…,PN). P1 à PN sont les identités des N personnages qui ont potentiellement prononcé Ei (N = 6; respectivement [cersei_lannister, daenerys_targaryen, jesse_pinkman, skyler_white, tyrion_lannister, walter_white]). Attention : Ei a pu être prononcé par un personnage autre que les N soumis. La réponse attendue est de la forme (Ei, ID, S0, S1,…SN) où ID est le personnage qui a prononcé l’extrait, soit pris parmi P1 à PN, soit “Null” pour dire que c’est un personnage autre que ceux proposés qui a prononcé l’extrait. S1 à Sn sont les scores correspondant aux personnages P1 à PN, S0 est le score attaché à l’hypothèse “Null”.
2. Identification de la série
Il s’agit de déterminer à quelle série parmi les N proposées appartient l’extrait Ei. Un test se présente sous la forme (Ei, F1, F2,…,FN). F1 à FN sont les identités des N séries auxquelles appartient potentiellement le personnage qui a prononcé Ei (N = 2; respectivement [breaking_bad, game_of_throne]).
Attention : Ei a pu être prononcé par un personnage n’appartenant pas aux N séries proposées. La réponse attendue est de la forme (Ei, ID, S0, S1,…SN) où ID est la série parmi F1, FN ou “Null” si le personnage n’appartient pas aux séries proposées. S1 à Sn sont les scores correspondant aux personnages F1 à FN, S0 est le score attaché à l’hypothèse “Null”.
Contraintes :
- Pour un test donné, les données des autres tests de l’évaluation en cours ne doivent pas être utilisées (hormis les données d’entraînement, seules les données du test en cours sont autorisées).
- Dans le cas de la tâche 1b pour un test donné (Ei, P1, P2,…,PN), seule la connaissance des personnages P1 à PN est autorisée (aucune donnée venant d’autres personnages ne peut être utilisée). De même, seules les séries F1 à FN sont autorisées pour la tâche 2.
Suivi et participation
Le suivi des participants est effectué par l’intermédiaire de plusieurs réunions en présentielle. Ces réunions ont pour objectif d’effectuer le suivi technique des participants, ainsi que d’apporter des éléments de réponses aux questions des participants. Elles sont au nombre de 3 et sont prévues les vendredi 15 octobre 2021, 22 octobre et 5 novembre. Les modalités d’heures et de salle seront définies ultérieurement.
Pour faciliter le suivi et la participation des étudiants, un cours e-UAPV est mis à disposition : « Challenge IA » . La clef d’inscription au cours sera fournie par réponse au mail d’inscription des équipes participantes.
Il permet le téléchargement des ressources mises à dispositions, ainsi que le dépôt des participations. Il servira également pour la diffusion d’informations au fil du challenge. Il est important pour les participants de s’inscrire à ce cours.
La participation sera prise en compte par d’un jeu de test à l’aveugle qui sera à disposition pour l’ensemble de la phase 1. de mise au point des systèmes. L’évaluation des performances des systèmes sur ce jeu de test sera réalisée par les organisateurs sur dépôt d’un fichier de prédiction respectant la forme indiquée dans la description des tâches. Il n’y a pas de limitation du nombre d’envoie de fichier de prédiction sur ce test à l’aveugle. Les résultats sur cet ensemble de test à l’aveugle alimentent un leaderboard. Il s’agit d’un ensemble test différent de celui exploité lors de la phase 2. très courte de test.
La phase 3. d’analyse fait également partie de la participation et prend une part importante de la notation finale des participations. Elle débutera après la phase courte de test et un rapport d’analyse devra être rendu aux organisateurs au plus tard 3 jours avant la date de présentation au jury prévue le vendredi 19 novembre 2021.
L’ensemble des dépôts doivent être réalisés sur la page e-upav dédiée au challenge IA.
Ressources mises à disposition
L’ensemble des ressources mises à dispositions sont disponibles sur la page e-upav dédiée au challenge IA.
Initialement, deux ensembles de données sont fournis, un ensemble d’apprentissage d’une durée de 150 minutes et un ensemble de développement d’une durée de 30 minutes. Ils sont composées de dialogues issus des séries “Breaking Bad” et “Game of Throne”, pour les personnages suivants : Cersei Lannister, Daenerys Targaryen, Jesse Pinkman, Skyler White, Tyrion Lannister et Walter White.
Les données sont composées du segment audio, ainsi que de la transcription textuelle des dialogues prononcés. Ces segments ont une durée moyenne d’environ 3 secondes. L’ensemble de développement contient environ 630 segments, tandis que l’ensemble d’apprentissage en contient environ 3200.
Ces données sont au format JSON et un exemple issu de l’ensemble de développement est fourni ci-dessous :
{
"bb_23509": {
"audio_path": "data/bb/jesse_pinkman/23509.wav",
"cat_id": 4,
"doc_id": "23509",
"end": 941.71,
"part_id": 6,
"spk_label": "jesse_pinkman",
"start": 935.06,
"video_id": 5,
"video_paths": [
"data/bb/jesse_pinkman/23509"
],
"video_start": 935.04,
"words": "So if I 'm out here in a guard - type capacity to watch over the money , that means I need , like , a gun , right ?"
},
"got_00613": {
"audio_path": "data/got/tyrion_lannister/00613.wav",
"cat_id": 1,
"doc_id": "00613",
"end": 351.419,
"part_id": 4,
"spk_label": "tyrion_lannister",
"start": 350.219,
"video_id": 2,
"video_paths": [
"data/got/tyrion_lannister/00613"
],
"video_start": 350.2,
"words": "Do you understand ?"
}
}
Ces données seront mises à disposition par un lien de téléchargement fourni par mail aux participants. L’usage de ces données est strictement réservé au cadre du challenge IA de la chaire LIAvignon. Elles ne peuvent ni être partagées à des tiers, ni conservées à l’issue du challenge.
En plus des données, deux systèmes baseline sont mis à disposition de l’ensemble des participants :
- Une baseline textuelle exploitant un classifier “Random Forest” et des vecteurs “TF-IDF”.
- Une baseline audio exploitant un réseau neuronal de type “resnet”, ainsi qu’une classification “softmax”.
Chacune des baselines est fournie avec un modèle pré-entraîné pouvant être immédiatement ré-exploité. Les performances, sur l’ensemble de développement, sont fournies dans le tableau ci-dessous :
Type de baseline |
Accuracy |
Textuelle |
40,90 % |
Audio |
91,64 % |
Évaluation et classement
Le classement se fera suivant trois catégories, suivant le niveau d’étude des participants (Licence, Master, Doctorat). Si l’équipe est composé de plusieurs personnes, le niveau le plus élevé sera retenu.
L’évaluation est composée de trois parties :
1
Le suivi (25%), basé sur le nombre d’éléments inscrits au leaderboard et sur l’évolution de la solution proposée.
2
La performance (25%), estimée à partir du jeu d’évaluation distribué en “mode aveugle” et pour une durée courte.
3
La qualité de la documentation fournie et de l’analyse des résultats dans une logique “explicabilité” (50%).
Jury
L’évaluation est pilotée par un jury composé de :
- Vincent Labatut (Président, AU)
- Corinne Fredouille (AU)
- Marie-Jean Meurs (Humania/UQAM)
- Xavier Bost (Orkis)
- Olivier Galibert (LNE)
Et s’appuie sur un comité d’experts composé de :
- Antoine Caubrière (LIAvignon)
- Yannick Estève (AU)
- Jean-François Bonastre (AU)
- Tania Jimenez (AU)
- Orange AI
- Airbus D&S
- Bertin IT
- Validsoft
- CERCO