Nous
commençons par une présentation du monde du traitement automatique des
langues (TAL), tant dans ses aspects industriels que recherche ou
formation. Nous introduisons les différents niveaux de la
langue naturelle, ainsi que les concepts de grammaire et de lexique. Enfin, nous illustrons la complexité du TAL par un
exemple de chaîne complète de traitement automatique.
Nous présentons les différentes méthodes de codage des caractères constituant les textes, les expressions régulières et leur application à la segmentation des textes en phrases et en mots.
Après avoir présenté l'intérêt et le principe de l'étiquetage morpho-syntaxique, nous exposons deux méthodes de mise en œuvre, une méthode statistique fondée sur les n-grammes et une méthode à base de règles, la méthode de Brill.
Nous présentons deux méthodes statistiques de classification de textes, la première utilisant des arbres de décision construits à partir d'un corpus d'apprentissage et la seconde qui est une méthode de classification bayésienne naïve.
Nous commençons par présenter le modèle syntagmatique de la syntaxe des langues naturelles et les grammaires algébriques qui vont de pair avec ce modèle, puis nous présentons une méthode d'analyse syntaxique qui utilise la tabulation, l'algorithme de CKY.