Apprentissage de Représentation dans les Réseaux de Documents : Application à la Littérature Scientifique

Robin Brochier

Thèse Année : 2020

Representation Learning in Document Networks : Application to the Scientific Literature

Apprentissage de Représentation dans les Réseaux de Documents : Application à la Littérature Scientifique

(1)

Robin Brochier

Fonction : Auteur
PersonId : 1033786

Entrepôts, Représentation et Ingénierie des Connaissances

Résumé

The work presented in this thesis, made in collaboration with the company Digital Scientific Research Technology, aims to develop representation learning models for networks in order to address the resolution of different tasks of information retrieval, in particular, on data extracted from the scientific literature. We present GVNR, a network embedding algorithm whose algorithmic time complexity is lower than other representative algorithms in the literature. GVNR-t, its extension, makes it possible to take into account the text associated with the nodes in a network of documents. We then describe MATAN, a model that leverages a mutual attention mechanism between documents. Finally, we present IDNE, a document network embedding model based on a new mechanism, the topic-attention. We experimentally study the performances of these 4 models on transductive and inductive tasks of classification of nodes and of link prediction with 9 datasets. We show that these models achieve state-of-the-art performances in most datasets on all tasks. In addition, we present our work on expert finding. We introduce a new evaluation methodology and we provide 4 new annotated datasets. We experimentally show the relevance of our evaluation protocol and highlight the remaining steps for the design of an expert finding model based on document network embedding techniques.

Les travaux présentés dans cette thèse, réalisés en collaboration avec l’entreprise Digital Scientific Research Technology, ont pour objectif de développer des modèles d’apprentissage de représentation pour les réseaux dans l’optique d’aborder la résolution de différentes tâches de recherche d’information, en particulier sur des données issues de la littérature scientifique. Nous présentons GVNR, un algorithme de plongement de sommets dans les réseaux dont la complexité algorithmique en temps est plus faible que les algorithmes représentatifs de la littérature. GVNR-t, son extension, permet de prendre en compte le texte associé aux sommets dans un réseau de documents. Nous décrivons ensuite MATAN, un modèle qui entraîne un mécanisme d’attention mutuelle entre documents. Nous présentons enfin IDNE, un modèle d’apprentissage de représentation de documents qui s’appuie sur un nouveau mécanisme, l’attention thématique. Nous étudions expérimentalement les performances de ces 4 modèles sur des tâches transductives et inductives de classification des sommets et de prédiction de liens avec 9 jeux de données. Nous montrons que ces modèles réussissent mieux que l’état de l’art sur la plupart des jeux de données et sur toutes les tâches. De plus, nous présentons nos travaux sur la recherche automatique d’experts. Nous introduisons une nouvelle méthodologie d’évaluation et nous fournissons 4 nouveaux jeux de données annotés. Nous montrons expérimentalement la pertinence de notre protocole d’évaluation et mettons en lumière les étapes restantes pour la conception d’un modèle de recherche d’experts reposant sur les techniques de plongement de réseau de documents.

Mots clés

network embedding representation learning document network information retrieval recommender systems attention mechanisms

plongement de réseau apprentissage de représentation réseau de documents recherche d’information systèmes de recommandation mécanismes d’attention

Domaines

Intelligence artificielle [cs.AI] Recherche d'information [cs.IR] Traitement du texte et du document

Fichier principal

these_robin_brochier.pdf (1.95 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Robin Brochier : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-03446041

Soumis le : mercredi 15 juillet 2020-11:00:54

Dernière modification le : mardi 28 février 2023-10:44:31

Archivage à long terme le : lundi 30 novembre 2020-22:27:21

Dates et versions

tel-03446041 , version 1 (15-07-2020)

tel-03446041 , version 2 (24-11-2021)

Identifiants

HAL Id : tel-03446041 , version 1

Citer

Robin Brochier. Apprentissage de Représentation dans les Réseaux de Documents : Application à la Littérature Scientifique. Intelligence artificielle [cs.AI]. Université Lumière Lyon 2, 2020. Français. ⟨NNT : ⟩. ⟨tel-03446041v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

237 Consultations

476 Téléchargements

Representation Learning in Document Networks : Application to the Scientific Literature

Apprentissage de Représentation dans les Réseaux de Documents : Application à la Littérature Scientifique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager