Vous avez dit Traitement automatique du langage naturel?

Avec plus de 40 000 recherches mensuelles sur Google, l’intelligence artificielle est devenue un sujet de poids dans le panorama des tendances à suivre et à décrypter. C’est effectivement un vaste sujet mais dont les différentes composantes suscitent des intérêts très inégaux. Si le Deep Learning génère plus de 12 000 recherches chaque mois, le traitement automatique du langage naturel (TALN) n’en suscite … qu’une petite centaine.

Le TALN est pourtant l’innovation en passe de modifier en profondeur notre relation aux machines, logiciels, outils, assistants, … en somme à peu près tout ce qui comporte un processeur. Comme tout sujet technique, il est assez logique que le traitement automatique du langage naturel soit mal-aimé, incompris, ou sous-estimé. Et si nous tentions ici de comprendre, avec des mots simples, en quoi le TALN est en passe de tout changer en profondeur ?

 

robot TALN et Dashboard

 

TALN : Une même innovation, beaucoup d’appellations

Traitement automatique du langage naturel, ingénierie linguistique, TALN, Natural Language Processing (NPL)… tous ces termes renvoient à une même démarche : s’affranchir de la technicité du langage informatique qui est le code. Vous l’aurez compris, le traitement du langage naturel vise principalement à analyser, traiter et reproduire le langage humain de manière automatique. L’objectif du TALN est de comprendre le langage humain dit « naturel » – qu’il soit écrit ou oral - afin qu’une machine puisse répondre de façon pertinente à une requête.

Il s’agit d’un domaine de recherche multidisciplinaire qui combine à la fois les connaissances de l’informatique, de la linguistique et de l’intelligence artificielle et qui utilise des algorithmes spécifiques du Machine Learning (ML) et du Deep Learning (DL) pour permettre aux machines d’interpréter et reproduire le langage parlé.

 

Banner-580-100-V3

 

Si la démarche technologique a été initiée dès les années 50, elle connait aujourd’hui un fort regain d’intérêt grâce aux possibilités nouvelles offertes par le développement de l’intelligence artificielle. Loin d’être un sujet limité aux laboratoires, le traitement automatique du langage naturel est par exemple présent derrière les chatbots et leur permet de répondre à environ 80% des questions des clients. Ainsi, dès aujourd’hui, des systèmes de questions-réponses reconnaissent automatiquement la parole et synthétisent des réponses vocales, nous laissant entrevoir un futur très proche où les machines seront enfin capables de nous comprendre parfaitement.

 

Le traitement automatique du langage naturel est déjà partout

Historiquement tourné vers des applications de traduction automatique, le TALN est aujourd’hui présent dans de nombreuses applications du quotidien et plus particulièrement au niveau de l’extraction d’informations comme dans les moteurs de recherche qui analysent et traitent les questions des utilisateurs.


Cependant ce sont les assistants personnels vocaux (Siri, Alexa, Cortana, Google Assistant,…) ou les assistants virtuels (chatbot) qui sont certainement les application de TALN les plus connues. A un bout de la chaîne, ces logiciels répondent aux besoins des individus en effectuant des tâches déclenchées par le traitement de la parole ou par la compréhension automatique des textes. A l’autre bout, ils s’appuient sur la génération automatique de textes (GAT) pour générer des énoncés en langage naturel qui améliorent la compréhension des informations par l’utilisateur.

 

chatbot  et Dashboard

 

D’une manière moins perceptible, le traitement automatique du langage est également présent dans le filtrage des mails non désirés qui s’appuie sur une analyse syntaxique et une représentation textuelle. En effet, grâce à l’analyse du langage naturel il est possible d’améliorer les performances des systèmes de filtrage en associant les profils des utilisateurs avec la sémantique des textes.

Ainsi le traitement du langage naturel tend progressivement vers l’analyse des sentiments clés de l’individu afin d’assurer un traitement optimal de son verbatim et y associer une réponse adaptée à ses besoins réels, au-delà même des mots utilisés.

Comment en est-on arrivé à un tel degré de sophistication ?

 

Une brève histoire du TALN

Jusqu’aux années 1980, les recherches en TALN étaient concentrées sur la traduction automatique dans un contexte politique de Guerre Froide où ces travaux visaient la traduction instantanée des « écoutes » des adversaires. Dès 1954, « Le cerveau » a été le premier programme informatique capable de traduire une soixantaine de phrases du russe vers l’anglais dans le cadre de l’expérience Georgetown-IBM.  Les années 60 ont été témoins de l’apparition des premiers chatbots de l’histoire, avec par exemple ELIZA en 1964 qui était capable de simuler une psychothérapie (reformulation des phrases du « patient » et questions contextuelles). L’approche du TALN était alors dite « symbolique » car le savoir linguistique était codé sous forme de grammaire et de bases de données lexicales développées manuellement.

 

Reeport580x100mars2019

 

A partir des années 1980, l’approche du langage naturel est devenue «statistique», c’est-à-dire basée sur des algorithmes et non plus des listes de mots. Pour rendre la modélisation mathématique possible, il a fallu transformer le texte en input numérique c’est-à-dire représenter le texte sous forme de vecteurs en comptant les occurrences des mots ou groupes de mots. C’est notamment en raison de cette approche que l’introduction des algorithmes de Machine Learning dans le traitement du langage a donné un nouveau souffle au TALN :  la machine est devenue capable de créer ses propres règles, déterminées par son auto-apprentissage.

Les années 1990 appartiennent au Deep Learning. Les travaux de Yann LeCun sur l’apprentissage profond au sein des laboratoires Bells ont donné naissance au premier système basé sur les réseaux de neurones convolutifs entrainés à la reconnaissance de la parole puis à celle des caractères. Si le premier champ d’application a été la lecture des chèques bancaires, Yann LeCun et ses collaborateurs ont tout simplement initié le fonctionnement des assistants vocaux comme Siri d’Apple.

 

Yann LeCun Deep Learning et Dashboard

 Yann LeCun

 

De nos jours, grâce à la puissance de calcul exponentielle des ordinateurs, la disponibilité massive des données en open source et le perfectionnement continu des algorithmes de machine learning, le TALN évolue à un rythme impressionnant.

 

Comment fonctionne le traitement automatique du langage naturel ?

Les difficultés que rencontre le TALN avant d’être opérationnel sont souvent sous-estimées : entre l’imprécision du langage naturel (homonymes, structures syntaxiques) et la vaste quantité d’implicité dans nos énoncés, le traitement de la langue est bien entendu complexe.

Si le TALN arrive à comprendre les requêtes naturelles de l’utilisateur c’est grâce à un ensemble de techniques de traitement et de modélisation du langage humain que nous pouvons résumer en cinq étapes clés :

 

  • La tokenization (lexème ou analyse lexicale) permet de segmenter le langage en petites unités lexicales (tokens). L’objectif est de définir les blocs élémentaires dans le langage afin que la machine puisse reconnaitre le sens voulu.

  • La lemmatisation permet d’associer des lemmes aux tokens contenus dans une phrase, ce qui permet d’obtenir une représentation structurée du texte en associant les catégories grammaticales aux lemmes plutôt qu’aux formes.

  • L’étiquetage morpho-syntaxique ou Pos-Tagging permet d’étiqueter les tokens selon leur catégorie grammaticale, ce qui rend possible des traitements plus complexes comme l’extraction d’informations ou la traduction automatique.

  • L’analyse des dépendances permet d’identifier les relations syntaxiques qui lient les mots d’une phrase.

  • Pour une forme donnée interprétable de différentes manières, la désambiguïsation lexicale permet de déterminer pour une forme donnée interprétable de différentes manières quelle est l’interprétation à sélectionner.

 

Dans le prochain article de cette série, nous vous proposons de creuser en particulier un champ d’application du TALN : l’analyse de données. En effet, le traitement du langage naturel est tout simplement en passe de transformer en profondeur notre rapport aux data tant dans notre capacité à les comprendre qu’à les explorer comme jamais auparavant.

 

 Pour en savoir plus : 

 

Banner-V8-1

 

Écrit par Justine Pichot & Tomasz Stachorko le 5 March 2019.

A propos de l'auteur

Co-creative team evolving in a co-creative space to make something new together,

Articles que vous pourriez aimer