ALS - Magazine 4 - Janvier 2013

ALS Mag / 25 L’image comme contre-réaction visuelle Le contexte est celui de l’éducation ou réédu- cation vocale pour les sujets en difficulté, particu- lièrement les déficients auditifs pour qui l’accès aux sons, à la parole et à la langue ne peut se faire que partiellement à travers le canal de l’audition. Une situation similaire est celle de l’apprentissage des langues ; il est connu qu’une difficulté souvent rencontrée est en quelque sorte la surdité que l’on présente vis-à-vis des sons et de la prosodie d’une langue étrangère. Dès les années 1975-80, les chercheurs en traitement automatique de la parole se sont penchés vers un champ d’application potentiel : l’apprentissage fondé sur une contre-réaction visuelle. L’image est ici un moyen de présenter sur des images dynamiques des caractéristiques de la voix, dans un environnement d’apprentissage adapté. De tels travaux ne peuvent être menés que dans une collaboration avec les professionnels du domaine, ici des thérapeutes voix-parole [8]. La progression naturelle correspond à la chaîne de production de la parole : souffle, équilibre souffle- voix, intensité, intonation et débit (ce sont les paramètres dits prosodiques), articulation des sons puis des mots (paramètres articulatoires). Nos illustrations sont tirées du système SIRENE/ ISAEUS, aboutissement de nos propres travaux et d’un projet européen terminé en l’an 2000 pour les langues française, espagnole et allemande. Le système est destiné à la gestion de la chaîne d’activités suivante : évaluation des performances vocales, aide à l’établissement du programme d’entraînement, lancement et conclusion des exercices, présentation en temps réel des perfor- mances durant l’apprentissage, analyse en différé. L’image numérique constitue ici la traduction d’une double expertise professionnelle, celle des orthophonistes et celle des chercheurs en traitement du signal. Elle constitue une réponse aux besoins requis par ces différents modules. Les images numériques en jeu correspondent ainsi aux classes suivantes : J images prédéfinies insérées à l’instant de leur usage dans les affichages de lancement d’exer- cice, les conseils et les explications, les résultats d’évaluation ; J images dépendant du locuteur construites dynamiquement en temps réel et jouant le rôle souhaité de retour visuel, adaptées au sujet, adulte sourd, enfant, apprenant en apprentissage des langues. C’est là la situation réelle d’apprentissage phonatoire et articulatoire avec retour visuel à partir de la saisie vocale au microphone (et/ou autre dispositif de capture, comme un accéléro- mètre de contact au niveau du larynx pour les aspects liés à la phonation). Deux écrans d’exercices sont présentés. Il s’agit pour le premier (figure 4) de maîtriser le passage du souffle à la vocalisation en contrôlant en même temps l’intensité de la production. Pour le second, l’image (figure 5) montre en temps réel la proximité de la performance aux voyelles du français, avec des indicateurs de souffle et de timbre. Nous pouvons y repérer des conventions de repré- sentation dont le choix doit être étudié avec soin afin qu’elles soient bien intégrées par l’élève. Les notions de temps, de débit, d’intensité et de hauteur, par exemple, seront représentées de façon systématique avec le même type de code : sens gauche-droite, segments, remplissage, ligne fluide ; Figure 4 J images issues en direct de l’analyseur de parole pour consultation par le maître en mode différé, permettant éventuellement la réorientation du programme d’entraînement. La figure 6 montre l’image spectrographique des syllabes [vo] et [fo]. Ces dernières se distinguent par les phonèmes d’attaque [v] et [f] qui possèdent le même lieu d’articulation, dit labial, et diffèrent par le mode, vibration ou pas des cordes vocales ; J images construites en différé à partir de l’analyse du son ou du mot produit, en conclusion d’exercice à destination de l’élève. C’est ainsi que, dans l’exercice de différenciation de mots isolés comme veau et faux , un vumètre peut montrer une proximité d’appartenance de la performance au résultat attendu et permet à l’apprenant de se situer par rapport aux attentes. Selon ce résultat, la page adéquate tirée d’un cours hypermédia sur la parole spécialement constitué peut s’afficher automatiquement ou à la demande (figure 7). Nous avons ici mis en valeur différentes catégories d’images numériques, chacune d’elles nécessitant de prendre en compte avec soin le destinataire, le contenu de connaissance, les conventions de représentation, l’instant et le mode de sa construc- tion et la pertinence du message pour une bonne appréhension de son contenu. Figure 5 Figure 6 Figure 7