Nous
commençons par une présentation du monde du traitement automatique des
langues (TAL), tant dans ses aspects industriels que recherche ou
formation. Nous introduisons les différents niveaux de traitement de la
langue naturelle et nous montrons en quoi celui-ci se distingue et se
rapproche du traitement des langages formels tels les langages de
programmation. Enfin, nous illustrons la complexité du TAL par un
exemple de chaîne complète de traitement.
Nous présentons les notions mathématiques de langages réguliers, automates d'états finis et transducteurs en montrant les relations entre celles-ci et leur application au TAL : segmentation des textes en phrases et en mots, étiquetage morpho-syntaxique et analyse morphologique de textes.
Pour représenter la syntaxe des langues, nous définissons les grammaires algébriques avec les concepts et propriétés qui s'y rattachent. Nous nous intéressons ensuite au pouvoir d'expression des grammaires algébriques en montrant leur limites pour la modélisation de la syntaxe des langues. Enfin, nous montrons tout l'intéret pour l'analyse syntaxique d'utiliser la tabulation à travers l'exemple de l'algorithme de Coke-Kasami-Younger.
Nous montrons comment représenter le sens des énoncés textuels à l'aide
de la logique du premier ordre et comment le sens d'une phrase est
construit à partir du sens des mots et de son arbre syntaxique, selon
le principe de compositionnalité.
Nous utilisons pour
cela le lambda-calcul qui permet de représenter le sens des expressions
sous forme de fonctions, la composition du sens apparaissant alors
comme la composition mathématique de fonctions.