Degré d'expertise du FLE, durée et perception de voyelles par des lusophones

Introduction

L’approche communicative ainsi que l’évolution croissante de l’intérêt pour la communication sur le marché mondial amènent bien souvent à favoriser les productions spontanées des apprenants dans le parcours d’enseignement- apprentissage de la langue étrangère, au détriment, parfois, de l’attention qui pourrait être réservée à la conformité de la parole produite à la langue ciblée par les activités d’enseignement-apprentissage. La définition de compétences communicatives à des fins spécifiques axées sur les objectifs professionnels laisse ainsi souvent floue la frontière entre ce qui est acceptable de ce qui ne l’est pas. L’évaluation phonétique prend alors toute son importance dans un contexte où le multilinguisme est au centre des réformes et de la question des ressources acoustiques. Grâce au Cadre européen commun de référence pour les langues, inscrit dans la politique linguistique du Conseil de l’Europe, les niveaux de compétences susceptibles d’être atteints par les apprenants au cours de leur apprentissage sont définis, créant ainsi un lien étroit avec la maîtrise langagière de l’individu.

Pendant de nombreuses années, nos travaux se sont attachés à l’observation de phénomènes phonétiques liés à la production, essentiellement de voyelles orales, allant de la qualité vocalique (Harmegnies, B., Esling, J., Delplancq, V., 1989; Esling, J.H., Harmegnies, B., Delplancq, V., 1991), aux styles de parole (Harmegnies, B., Delplancq, V., Esling, E., Bruyninckx, M., 1994 ; Delplancq, V., Harmegnies, B., Poch-Olivé, D., 1996 ; Delplancq, V., Harmegnies, B., 1997) et à l’évaluation phonétique à travers la recherche d’indicateurs de progression (Harmegnies, B., Delplancq, V., 2001 ; Delplancq, V., Harmegnies, B. , 2002 ; Delplancq, V., Harmegnies, B., 2005 ; Delplancq, V., Harmegnies, B., 2006). Les données sur l’interaction complexe entre la production et la perception, les observations réalisées au cours de nos recherches ainsi que les expériences professionnelles nous ont amenés à nous questionner sur la manière d’objectiver la différenciation de la perception d’apprenants lusophones de français langue étrangère (FLE), en fonction de leur parcours linguistique et compte tenu des spécificités phonologiques accentuelles du portugais européen.

La confrontation de structures phonologiques comme celles des langues française et portugaise souligne à quel point la gestion des aspects durationnels participe de l’établissement de structures phoniques contrastées. Par le rôle spécifique qu’elle joue pour l’établissement de l’accent et du fait de la fonction contrastive primordiale de l’accent en portugais, la durée fait figure de paramètre incontournable dans le cadre d’une approche contrastive du français et du portugais, que cette approche ressortisse à une démarche empirique à caractère descriptif - comme c’est le cas en recherche fondamentale - ou, qu’au contraire, elle participe d’une dynamique centrée sur l’action, dynamique caractérisant toute action à caractère pédagogique.

Cadre théorique

Nos recherches se focalisent sur les processus d’identification des sons (Nguyen, N., 2005). Liberman, lors de ses premières études dans les années 40, émet l’hypothèse que l’identification simple de chaque phonème permet de décoder la parole. Un phénomène n’étant pas indépendant de son contexte à cause de la coarticulation, cette théorie a évolué vers la «Théorie Motrice de la Perception de la Parole» : l’auditeur identifierait les phonèmes en associant les gestes articulatoires aux sons de la parole qu’ils ont produits (Liberman & al., 1985).

Les études centrées sur la perception de la parole en langue étrangère (LE) soulignent toutes l’influence de la langue maternelle (LM), l’importance du degré d’exposition à la LE, et le rôle déterminant que joue dans les tâches d’identification (Muthusamy & al., 1994 ; Vasilescu & al., 2000) le développement de compétences communicatives dans au moins une LE.

Des expériences concernant la perception de voyelles, plusieurs conclusions semblent se dégager. L’auditeur perçoit les différences entre les voyelles, qu’elles soient variantes ou non d’une même catégorie phonémique comme le montre Fry (1962). Il existerait une corrélation entre le nombre de voyelles dans le système vocalique et la perception vocalique comme le montrent Meunier & al. (2004) dans les résultats d’une expérience d’identification dans les langues française, anglaise et espagnole : moins il y a de voyelles, plus les sujets catégorisent facilement des stimuli absents de leur espace de production. Le rôle des indices segmentaux dans les tâches de reconnaissance et/ ou d’identification des langues est moins systématiquement observé que celui des indices suprasegmentaux (Barkat & al., 2003). Dans ce domaine, les segments vocaliques ont un rôle pourtant essentiel, à cause, notamment, des informations véhiculées par leur durée (Cole & al., 1996 ; Barkat, 2001). Le rôle des facteurs temporels est souvent négligé. Dans les recherches les plus classiques, les paradigmes utilisés conduisent à convier un grand nombre d’auditeurs à identifier une suite de stimuli sonores généralement de durée brève, parfois après une phase d’apprentissage, proposée dans le but d’habituer le sujet au matériel acoustique et au plan expérimental. La durée de l’extrait et la familiarité des sujets avec les langues testées sont les paramètres qui influencent significativement les scores d’identification. La variabilité est donc de double nature : acoustique et perceptive, comme le montrent Meunier & al. (1997) dans une expérience d’identification de voyelles en fonction du style de parole : dans une tâche de perception, si un rôle essentiel est tenu par la modalité de parole, le type de voyelle constitue également un facteur déterminant. Les voyelles sont toujours mieux identifiées que les consonnes comme le constatent Jacquier & al., en 2005, dans une série d’expérimentations basées sur la compression temporelle ; le délai d’établissement du voisement et la transition du deuxième formant ont été accélérés dans l’objectif d’observer la variabilité de reconstruction cognitive inter-individuelle, performances qui montrent une grande variabilité inter-individuelle au niveau de la perception auditive de non-mots.

Le caractère catégoriel de la perception est souvent le point central des travaux depuis les années 60. Classiquement, les conclusions montrent que les adultes non-natifs témoignent de difficultés sensibles à maîtriser des distinctions qui n’ont pas un caractère contrastif dans leur langue d’origine. Cette performance est cependant variable en fonction d’effets systématiques d’expériences. Ainsi, dans son «modèle de l’acquisition de la parole», Flege (1995) défend l’idée que l’apprenant classe un son de la LE voisin d’un son de sa LM dans une catégorie phonique perceptuelle préexistante. Un tel son serait donc représenté dans une catégorie que l’apprenant possède de sa LM, les autres pouvant s’acquérir sans trop de difficultés selon Kuhl (2000). Cet auteur a développé, en 1991, la «théorie des aimants perceptifs» selon laquelle la catégorisation des sons de la parole se fait à partir d’éléments centraux (les prototypes) qui sont à la base de la structuration perceptive de l’espace phonétique. Les auditeurs procèdent ainsi à une réanalyse influencée par leur environnement langagier.

L’entraînement et la motivation (voir par exemple Birdsong, 2003) permettent d’acquérir la perception des sons de la parole non maternelle, conséquence de la plasticité du cerveau. Toutefois, une exposition précoce et durable à une LE ne suffit pas toujours pour atteindre les compétences des natifs (Pallier & al., 1997). Dupoux & al. (2007) posent l’hypothèse que le code phonologique, représentation abstraite et hiérarchique propre à la LM, entraîne un recodage du son perçu, influençant de la sorte la capacité individuelle de discrimination de ce son.

Si un grand nombre d’études ont été menées dans le cadre de recherche sur la perception, bien peu ont eu pour but de décrire les aspects phonétiques du processus de perception/discrimination par des apprenants adultes, en langues romanes, pour des sons vocaliques produits en isolation, à durée variable, analysés en fonction de la maîtrise langagière des auditeurs. Nos recherches se prétendent être une contribution en la matière.

Expérimentation

Cadre de la recherche

Les langues romanes considérées ici sont le français et le portugais européen.

Le français n’est pas une langue à accent lexical. Il est caractérisé par un allongement final des groupes rythmiques. La réduction vocalique ne peut donc se noter que faiblement. Le système vocalique oral du français comporte 12 éléments [i, y, u, e, ε, ø, o, ɔ, ə, œ, a, ɑ] Les différences de durée vocalique n’y ont de valeur distinctive que sporadiquement.

En portugais européen, la situation est bien différente. L’accent, d’intensité, y a une valeur phonologique (Delgado-Martins, 1988); son changement de position s’accompagne d’un changement des caractéristiques vocaliques. C’est le phénomène de réduction vocalique. Le système de voyelles orales compte 7 unités : [i, e, ɛ, ɔ, o, u, ɐ] (Mateus & al., 2000). Il se divise en 3 sous-systèmes : le tonique (avec 8 unités), le pré-tonique (qui compte 5 voyelles) et le post-tonique (composé de 3 éléments). La description du système vocalique est compliquée par le caractère évanescent de certaines réalisations sous l’effet de l’accent.

Les auditeurs qui ont été conviés à participer à l’expérience sont au nombre de 41, tous lusophones, habitant Viseu ou sa région (Beira Alta), poursuivant des études à l’école Supérieure d’éducation de Viseu (Portugal). Lors de la prise de données, 13 fréquentent la 4ième année de la licence en vue de devenir professeurs de portugais/français dans le 2ième cycle de l’enseignement basique. Les 28 autres sont inscrits en 2ième année de la licence en Communication Sociale.

Les stimuli vocaliques proposés aux auditeurs font partie du système accentuel des voyelles du portugais européen (Delgado-Martins, 1988 ; Mateus & Andrade, 2000 ; Delplancq, Harmegnies, 1997). Il s’agit des voyelles : [i, e, ɛ, u, o, ɔ] qui existent dans les deux inventaires phonologiques.

L’enregistrement digital d’un échantillon de chacune des 6 voyelles produites en isolation a ensuite été normalisé en amplitude par le logiciel Audacity ; des fichiers tests ont enfin été créés.

Pour cette expérience, nous avons retenu comme durées 20, 40 et 60 ms c’est-à-dire que nous avons eu recours à des sons tests de durée comparable aux plus brèves durées observables en parole spontanée (consulter par exemple Gendrot & al., 2005). Néanmoins, pour habituer le sujet à la tâche, nous avons également créé des sons tests d’une durée de 150 ms.

Protocole expérimental

Recueil de données

Sous la responsabilité du professeur de FLE, chaque étudiant a rempli une fiche d’identification personnelle relative à son contact avec la langue française. Il en ressort que 3 des sujets sont nés en France et y ont résidé entre 18 et 20 ans avant de rentrer au Portugal ; 2 autres ont vécu plusieurs années (5 et 6 ans) dans un pays francophone (France et Suisse). Le reste du groupe a effectué toutes les études au Portugal et n’a eu de contact avec le français que dans le cadre du cursus (parfois, rarement, lors de séjours touristiques brefs en France et/ou dans le cadre familial et/ou amical).

Une évaluation du niveau de maîtrise de la langue de chaque auditeur a également été menée au cours de laquelle les diverses compétences en français (compréhension et expression) ont été classées selon les niveaux (en ordre ascendant de compétence : A1, A2, B1, B2, C1, C2) du Cadre européen commun de référence pour les langues (2001) par un panel de 3 experts.

Nous avons proposé aux sujets 24 sons tests (6 voyelles et 4 durées), disposés dans une série dont les 6 premiers éléments sont les sons à 150 ms, en ordre aléatoire et cela à 6 reprises différentes. Cette dernière mesure, dont ils ne sont pas informés, permet d’étudier la stabilité du comportement durant l’expérimentation.

Le travail a été divisé en trois phases, avec une possibilité de repos entre les phases. Chaque étudiant est installé devant un ordinateur et est autonome dans la procédure d’audition et d’identification des sons. Plus de 50000 données ont ainsi été encodées en excel.

Les auditeurs sont donc confrontés à un jugement de typicalité, prise de décision qui repose sur une catégorisation cognitive face à une situation de choix complexe. L’évaluation rapide du son et la comparaison avec un élément de référence permettent la structuration de l’ensemble des alternatives possibles dans l’objectif de réduire l’incertitude et le temps de traitement du stimulus émis. La perception des sons est une conséquence directe de ce principe d’économie cognitive.

Traitement des données et résultats

Dans un premier temps, nous avons procédé à une étude des scores de reconnaissance correcte des stimuli par les locuteurs:
Nombre de réponses données (colonne) en fonction du stimulus (ligne), tous les locuteurs confondus
[i] est la voyelle la mieux reconnue (sur 984 sons proposés pour tous les sujets, 879 ont été correctement reconnus) tandis que le [u] est la moins bien identifiée : moins du quart des réponses sont correctes (sur 984 [u] produits, l’identification correcte est réalisée dans 221 des cas).
Synthèse du nombre de réponses données (colonne) pour les stimuli proposés (ligne) compte tenu de leurs durées (dur), tous locuteurs confondus
Tous locuteurs confondus, outre ce qui vient d’être dit, le score de reconnaissance le plus faible pour [e] et [o] s’observe pour les durées de 20 ms, le [o] se reconnaissant de mieux en mieux lorsque la durée augmente. Cette tendance est, par contre, complètement inversée pour [u] qui est d’autant mieux identifié qu’il est court. Cette voyelle est majoritairement confondue avec [o]. Le taux de confusion avec ce dernier son vocalique augmente avec la durée.

Cette procédure limite cependant l’analyse au constat binaire de succès ou de l’échec de la tâche d’identification. Afin de différencier les erreurs en fonction de l’ampleur de l’écart de la réponse par rapport au stimulus, nous avons mis au point une procédure d’objectivation basée sur le calcul d’une distance non paramétrique dans l’espace bidimensionnel discret formé par les axes d’aperture et de lieu, sur lesquels les distances entre, respectivement, types de lieu consécutifs et types d’aperture consécutifs sont unitaires. Elle se définit comme suit :

Distance = [(différence d’aperture)² + (différence de lieu)²]½

Cette distance est d’autant plus faible que les sujets identifient correctement les voyelles qui leur sont présentées.

Les sujets les plus compétents (C2) à l’écrit réalisent les scores les plus médiocres dans la tâche de reconnaissance des stimuli brefs et sont moyens dans l’identification des sons à 60 et 150 ms [Fig. 1].
Moyenne des distances en fonction des durées des stimuli vocaliques en fonction des compétences à la compréhension à l’écrit (en fonction du Cadre Européen de compétences)
Les étudiants de niveau le plus faible dans cette compétence présentent un comportement plus constant, leurs difficultés se situant plus dans l’identification des voyelles de courtes durées. Les mêmes observations peuvent être faites pour les sujets les plus compétents à l’audition.[Figure 2]
Moyenne des distances en fonction des durées des stimuli vocaliques et des compétences à la compréhension à l’audition (en fonction du Cadre Européen de Compétences)

La moyenne des distances obtenues en fonction des durées de stimuli, toutes voyelles confondues, a été calculée pour deux groupes d'auditeurs constitués: le groupe «0» dans lequel les étudiants n'ont eu de contacts avec le français qu'au cours de leur cursus et le groupe «1» qui rassemble les experts.

Il semblerait que le groupe de sujets considérés comme experts de la langue française rencontrent plus de problèmes à identifier correctement les sons vocaliques de durées brèves (20 et 40 ms) et les plus longues (150 ms) que l’autre groupe.

Nous avons procédé à une analyse de variance à deux dimensions croisées (expertise du sujet et durée du stimulus) dans laquelle la variable dépendante est la distance. Comme on pouvait s’y attendre, la variable durée exerce un effet significatif sur la distance entre le stimulus réel et le stimulus identifié (F = 24,465, ∝ <.001). Néanmoins, on ne constate qu’un faible effet de la variable d’expertise (F = 3,418, ∝ = .065) mais pas de l’interaction expertise/durée (F = 1,619, ∝ = .183).

Discussion

Ces premiers résultats contribuent à remettre en question les relations existant entre l'identification correcte de sons vocaliques, la variation en durées de ces stimuli et la maîtrise du FLE.

Les tendances observées lors d’une expérience préliminaire (à citer) sont ici confirmées : les auditeurs classés comme étant des experts de la langue française selon le Cadre européen commun de référence pour les langues ne sont pas ceux qui accomplissent nécessairement le mieux les tâches d'identification, surtout lorsque les durées des stimuli vocaliques s’éloignent des durées généralement compatibles avec des sons de la parole. Diverses théories rappelées dans l’introduction sont de la sorte remises en question et le débat est ouvert quant aux multiples interprétations que ces résultats suscitent. Faut-il évoquer un manque d'attention dans certaines phases de l'expérimentation chez les sujets aux compétences proches de celles des natifs ou s'agit-il plutôt d'un problème de non reconnaissance de sons beaucoup trop brefs que pour être perçus comme sons de la parole ? Des analyses supplémentaires des données ainsi recueillies ainsi qu'un traitement de l'information basé sur un échantillon d'auditeurs plus diversifié, notamment de natifs francophones, sont nécessaires pour cerner la problématique.

Conclusions

Dans le phénomène de perception, plusieurs paramètres interagissent entre eux de façon complexe et encore sujette à de nombreuses controverses. Les membres d’un même groupe linguistique développent des compétences propres à l’utilisation de leur langue, compétences qui sont mises à l’épreuve lors de l’acquisition d’une LE. Les apprenants se doivent, dans ce cas, de développer des capacités cognitives qui leur permettent de restaurer des paramètres potentiellement manquants de par les caractéristiques de leur LM.

Il est manifeste que la durée, de par le rôle qu’elle joue dans la perception du timbre, est un élément primordial à prendre en compte dans les expériences à caractère perceptuel. Les perspectives sont multiples, notamment au niveau pédagogique, la recherche contribuant aux réflexions sur les sources d’interférences à l'audition de sons de la parole chez les bilingues et à la proposition d’exercices ciblés de correction phonétique.

Références bibliographiques

BARKAT, M. «Vers l’identification automatique des parlers arabes», Revue Langue, Revue internationale de Linguistique, 2001, 7, pp.47-73.

BARKAT, M. & al. «Stratégies perceptuelles et identification automatique des langues», 2003, Parole, 25/26, pp.1-44.

BIRDSONG, D. «Authenticité de prononciation en français L2 chez des apprenants tardifs anglophones : analyses segmentales et globales», Acquisition et interaction en langue é trangère, 2003, 18, pp.17-36.

COLE, R.A. & al. «The contribution of consonants versus vowels in word recognition of fluent speech», Proceedings of International Conference on Acoustics, Speech and Signal Processing, 1996, pp.853-856.

DELGADO MARTINS, M.R. Ouvir Falar; Introdução à Fonética do Português. Lisboa, Caminho, Colecção Universitária, Linguística, 1988, 190 pp.

DELPLANCQ, V., HARMEGNIES, B., POCH-OLIVÉ, D., «Variabilités vocaliques en portugais sous l'effet du style de parole», Actas do IX°Encontro da A.P.L. , Faculdade de Letras da Universidade de Coimbra, 1993, pp.165-179.

DELPLANCQ, V., HARMEGNIES, B., POCH-OLIVE, D., «Effets du style de parole sur la réduction vocalique en portugais», Verbum, XVIII, 2, Publications Scientifiques de l’Université de Nancy 2, U.F.R. Nancy, 1996.

DELPLANCQ, V., HARMEGNIES, B. «Les phonétiques et les phonologies du vocalisme portugais», Paroles, 1997, 1, pp.41-58.

DELPLANCQ, V., HARMEGNIES, B., «Une modélisation à base angulaire pour l’étude de la réduction vocalique», Actes du 4ème Congrès Français d’Acoustique, 1997, Marseille, Société Française d’Acoustique, CNRS, vol.1, pp.389-392.

DELPLANCQ, V., HARMEGNIES, B., «Évolution des structures de l’oral en formation de formateurs de FLE», Actas das « Journées d’étude sur la parole », Nancy, 2002, pp. 181-184.

DELPLANCQ, V., HARMEGNIES, B., «Évolution de l’organisation du rapport de durée vocalique chez des apprenants lusophones de FLE», Intercompreensão, Revista de Didáctica das Línguas, Edições Colibri, 2005, 12, pp. 53-62.

DELPLANCQ, V., HARMEGNIES, B., «Discrimination de sons vocaliques isolés français, de durée variable, par des non-natifs», Actas do XXIIº Encontro da Associação Portuguesa de Linguística, Universidade de Coimbra, 2006.

DUPOUX, E. & al. «Persistent stress ‘deafness’: the case of French learners of Spanish», Cognition (sous presse).

FLEGE, J.E. «Second-Language speech learning: theory, findings and problems», Speech perception and linguistic experience: theoretical and methodological issues, pp.233-273.

FRY, D. & al. «The identification and discrimination of synthetic vowels», Language and speech, 1962, 5, pp.171-189.

GENDROT, C. & al. «Impact of duration on F1/F2 formant values of oral vowels : an automatic analysis of large broadcoast news corpora in French and German», Actes Eurospeech, Lisboa, 2005, pp.2453-2456.

HARMEGNIES, B., ESLING, J., DELPLANCQ, V., «Quantitative study of the effects of setting changes on the LTAS», Proceedings of Eurospeech'89 (Paris): European Conference on Speech Communication and Technology, J.P.Tubach and J.J.Mariani Eds., Edinburgh: CEP Consultants, 1989, pp.139-142.

HARMEGNIES, B., DELPLANCQ, V., ESLING, E., BRUYNINCKX, M., «Effets sur le signal vocal de changements délibérés de qualité globale en anglais et français», Revue de Phonétique Appliquée, 1994, 111, pp.139-153.

HARMEGNIES, B., DELPLANCQ, V., «Evolution des structures de l'oral en formation de formateurs de FLE; une étude longitudinale de l'organisation du système vocalique français chez les lusophones», Actas do XIº Congresso da Associação Portuguesa de Professores de Língua Estrangeirano Ensino Superior (Aprolínguas) “Línguas: mais que perfeito?”, Universidade de Aveiro, 2001, pp.123-132.

JACQUIER, C. & al. «Corrélats auditifs et cognitifs à la capacité de restauration de la parole accélérée», Actes des XXVIèmes Journées d’étude de la Parole, 2005, pp.445-448.

KUHL, P.K. «Human adults and human infants show a ‘perceptual magnet effect’ for the prototypes of speech categories, monkeys do not», Perception and psychophysics, 1991, 50, pp.93-107.

KUHL, P.K. «A new view of language acquisition», Proceedings of the National Academy of Science, 2000, 97, pp.11850-11857.

LIBERMAN, A. & al. «The motor theory of speech perception revised», Cognition, 1985, 21, pp.1-36.

MATEUS, M. H. & al. The phonology of Portuguese. Oxford, Oxford University Press, 2000, 178 pp.

MEUNIER, C. & al. «La spécificité des types de parole pour la perception de la voyelle», Actes des Journées d’études Linguistiques, 1997, pp.158-168.

MEUNIER, C. & al. «La perception des systèmes vocaliques étrangers: une étude inter-langues», Actes des Journées d’étude sur la Parole, 2004, pp.377-380.

MUTHUSAMY, I.K. & al. «Perceptual benchmarks for automatic language identification», Proceedings ICASSP, 1994, pp.333-336.

NGUYEN, N. «La perception de la parole», Phonologie et phonétique : forme et substance, 2005, Paris: Hermès, pp.147-168.

PALLIER, C. & al. «A limit on behavioral plasticity in speech perception», Cognition, 1997, 64, pp.9-17.

SCHOUTEN, M.E.H. & al. «Vowel segments in consonantal context», Journal of Phonetics, 1979, 7 (1), pp.1-23.

VASILESCU, I. & al. «Détermination expérimentale d’indices linguistiques pour la discrimination des langues romanes», Actes des XXIIIèmes Journées d’étude sur la Parole, 2000, pp.337-340.