Co-scheduling for large-scale applications : memory and resilience

Loïc Pottier 1, 2
Résumé : Cette thèse explore les problèmes liés à l'ordonnancement concurrent dans le contexte des applications massivement parallèle, de deux points de vue: le coté mémoire (en particulier la mémoire cache) et le coté tolérance aux fautes.Avec l'avènement récent des architectures dites many-core, tels que les récents processeurs multi-coeurs, le nombre d'unités de traitement augmente de manière importante.Dans ce contexte, les avantages fournis par les techniques d'ordonnancements concurrents ont été démontrés à travers de nombreuses études.L'ordonnancement concurrent, aussi appelé co-ordonnancement, consiste à exécuter les applications de manière concurrente plutôt que les unes après les autres, dans le but d'améliorer le débit global de la plateforme.Mais le partage des ressources peut souvent générer des interférences.Une des solutions pour réduire de manière importante ces interférences est le partitionnement de cache.À travers un modèle théorique, des simulations et des expériences sur une plateforme existante, nous montrons l'utilité et l'importance du co-ordonnancement quand nos stratégies de partitionnement de cache sont utilisées.De plus, avec ce nombre croissant de processeurs, la probabilité d'une panne augmente également.L'efficacité des techniques de co-ordonnancement a été démontrée dans un contexte sans pannes, mais les plateformes massivement parallèles sont confrontées à des pannes fréquentes, et des techniques de tolérance aux fautes doivent être mise en place pour améliorer l'efficacité de ces plateformes.Nous étudions la complexité du problème avec un modèle théorique, nous concevons des heuristiques et nous effectuons un ensemble complet de simulations avec un simulateur de pannes, qui démontre l'efficacité des heuristiques proposées.
Type de document :
Thèse
Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Lyon, 2018. English. 〈NNT : 2018LYSEN039〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01892395
Contributeur : Abes Star <>
Soumis le : mercredi 10 octobre 2018 - 15:43:24
Dernière modification le : samedi 15 décembre 2018 - 03:30:36

Fichier

POTTIER_Loic_2018LYSEN039_Thes...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01892395, version 1

Citation

Loïc Pottier. Co-scheduling for large-scale applications : memory and resilience. Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Lyon, 2018. English. 〈NNT : 2018LYSEN039〉. 〈tel-01892395〉

Partager

Métriques

Consultations de la notice

148

Téléchargements de fichiers

69