De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues - Sens, Texte, Informatique, Histoire Accéder directement au contenu
Hdr Année : 2023

On linguistic variation and its impact on Natural language Processing methods

De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues

Résumé

This habilitation thesis deals with variation in textual data and its influence on the application of Natural Language Processing (NLP) methods. Different types of variation are examined: language variation, quality variation, homogeneity variation and textual genre variation. On the one hand, we raise the question of NLP observables. This involves questioning the relevance of the paradigm, majority in the field, consisting in considering documents primarily through word-based representations, highly sensitive to variations of all kinds, to the detriment, for example, of more robust character n-gram based representations. On the other hand, we question the observatories of NLP by proposing ways of exploiting the textual genres of documents and deriving useful properties for automatic processing from the corpora from which they are drawn. We show that there is a great interest in considering that documents are more than mere sequences of words and/or subwords.
Cette habilitation à diriger les recherches traite de la variation des données textuelles et de son influence sur l'application de méthodes de Traitement Automatique des Langues (TAL). Différents types de variation sont examinés : variation de la langue, variation de la qualité des données, variation de l'homogénéité des corpus et variation du genre textuel. Nous posons, d'une part, la question des observables du TAL. Il s'agit d'interroger la pertinence du paradigme, majoritaire dans le domaine, consistant à envisager les documents avant tout à travers des représentations en mots, très sensibles aux variations de toutes sortes, au détriment par exemple d'approches en chaînes de caractères plus robustes. D'autre part, nous interrogeons les observatoires du TAL en proposant des pistes pour exploiter les genres textuels des documents et tirer des corpus desquels ils sont tirés des propriétés utiles au traitement automatique à rebours d'une approche où le sdocuments sont simplement des séquences de MOts et/ou de sous-mots. Nous montrons notamment comment la structure des documents et le genre textuel peuvent-être exploités pour concevoir des modèles de TAL.
Fichier principal
Vignette du fichier
HDR_lejeune_main.pdf (4.26 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04360967 , version 1 (22-12-2023)
tel-04360967 , version 2 (26-12-2023)
tel-04360967 , version 3 (20-01-2024)
tel-04360967 , version 4 (19-02-2024)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

  • HAL Id : tel-04360967 , version 4

Citer

Gaël Lejeune. De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues. Traitement du texte et du document. Sorbonne Universite, 2023. ⟨tel-04360967v4⟩
169 Consultations
19 Téléchargements

Partager

Gmail Facebook X LinkedIn More