tal_m2

Initiation au Traitement Automatique des Langues
Guy Perrier
Master en Sciences Cognitives et Applications
Université de Lorraine

Le but du cours est de donner un panomara relativement large des méthodes et outils mathématiques utilisés dans le traitement automatique symbolique des principaux niveaux des langues naturelles (phonologie, morphologie, syntaxe, sémantique) .
Voici le plan du cours:

Introduction au traitement automatique des langues (transparents pdf)
Nous commençons par une présentation du monde du traitement automatique des langues (TAL), tant dans ses aspects industriels que recherche ou formation. Nous introduisons les différents niveaux de traitement de la langue naturelle et nous montrons en quoi celui-ci se distingue et se rapproche du traitement des langages formels tels les langages de programmation. Enfin, nous illustrons la complexité du TAL par un exemple de chaîne complète de traitement.
Traitement des mots à l'aide des méthodes d'états finis (transparents pdf)
Nous présentons les notions mathématiques de langages réguliers, automates d'états finis et transducteurs en montrant les relations entre celles-ci et leur application au TAL : segmentation des textes en phrases et en mots, étiquetage morpho-syntaxique et analyse morphologique de textes.
Les grammaires algébriques et l'analyse syntaxique (transparents pdf)
Pour représenter la syntaxe des langues, nous définissons les grammaires algébriques avec les concepts et propriétés qui s'y rattachent. Nous nous intéressons ensuite au pouvoir d'expression des grammaires algébriques en montrant leur limites pour la modélisation de la syntaxe des langues. Enfin, nous montrons tout l'intéret pour l'analyse syntaxique d'utiliser la tabulation à travers l'exemple de l'algorithme de Coke-Kasami-Younger.
Le lambda-calcul et la composition du sens (transparents pdf)
Nous montrons comment représenter le sens des énoncés textuels à l'aide de la logique du premier ordre et comment le sens d'une phrase est construit à partir du sens des mots et de son arbre syntaxique, selon le principe de compositionnalité.
Nous utilisons pour cela le lambda-calcul qui permet de représenter le sens des expressions sous forme de fonctions, la composition du sens apparaissant alors comme la composition mathématique de fonctions.

Bibliographie

D. Jurasfsky & J. H. Martin - Speech and Language Processing - Prentice Hall, 2000
E. Roche & Y. Schabes - Finite-State Language Processing - MIT Press, 1997

Travaux pratiques

TP1 : premiers pas avec Python et la boite à outils NLTK
TP2 : manipulation de mots pour analyser un corpus
TP3 : analyse syntaxique
TP4 : analyse syntaxique tabulaire