Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version)

Ana Gainaru; Brice Goglin; Valentin Honoré; Guillaume Pallez; Padma Raghavan; Yves Robert; Hongyang Sun

Rapport (Rapport De Recherche) Année : 2019

Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version)

Stratégies de réservation avec points de sauvegarde pour l’ordonnancement de tâches stochastiques

(1) , (2) , (2) , (2) , (1) , (3) , (1)

1
2
3

Ana Gainaru

Fonction : Auteur
PersonId : 974389

Vanderbilt University [Nashville]

Brice Goglin

Fonction : Auteur
PersonId : 1244
IdHAL : brice-goglin
ORCID : 0000-0002-8671-4615
IdRef : 104493887

Topology-Aware System-Scale Data Management for High-Performance Computing

Valentin Honoré

Fonction : Auteur
PersonId : 22134
IdHAL : vhonore

Topology-Aware System-Scale Data Management for High-Performance Computing

Guillaume Pallez

Fonction : Auteur
PersonId : 526
IdHAL : guillaume-aupy
ORCID : 0000-0001-8862-3277
IdRef : 181087006

Topology-Aware System-Scale Data Management for High-Performance Computing

Padma Raghavan

Fonction : Auteur

Vanderbilt University [Nashville]

Yves Robert

Fonction : Auteur
PersonId : 739318
IdHAL : yves-robert
ORCID : 0000-0003-2361-055X
IdRef : 029813611

Optimisation des ressources : modèles, algorithmes et ordonnancement

Hongyang Sun

Fonction : Auteur
PersonId : 987755
ORCID : 0000-0002-4379-4467
IdRef : 234090510

Vanderbilt University [Nashville]

Résumé

In this work, we are interested in scheduling and checkpointing stochastic jobs ona reservation-based platform. We assume that jobs can be interrupted at any time to take acheckpoint, and that job execution times follow a known probability distribution. The user has todetermine a sequence of fixed-length reservation requests, and to decide whether to checkpoint thestate of the execution, or not, at the end of each request. The execution of the job is successful onlywhen it terminates within a request, otherwise it must be resubmitted, using the next request in thereservation sequence, and restarting execution from the last checkpointed state. The cost of eachreservation depends on both its duration and on the actual utilization of the platform during thatrequest, which includes a restart if some previous reservation was terminated with a checkpoint, andpossibly a checkpoint at the end of the current request. The cost of a job is then the cumulatedcost of all the reservations that were needed until its completion. Overall, the objective is tofind a reservation sequence that minimizes the total expected cost to execute a job. We providean optimal strategy for discrete probability distributions of job execution times, and we designfully polynomial-time approximation strategies for continuous distributions with bounded support.We experimentally evaluate these strategies for jobs following a wide range of usual probabilitydistributions, as well as one distribution obtained from traces of a neuroscience application. Wecompare our strategies with standard approaches that use periodic-length reservations (the nextreservation is longer than the previous one by a constant amount of time) and simple checkpointingstrategies (either checkpoint all reservations, or none).

Dans ce rapport, nous nous intéressons à l’ordonnancement de tâches stochastiques exécutées sur une plateforme à réservations, où l’utilisateur réalise des requêtes successives de temps de calcul. Le temps d’exécution des tâches considérées n’est pas connu à l’avance. Ce temps est représenté par une loi de probabilité, décrite sous la forme d’une densité de probabilité. Nous nous intéressons à ordonnancer une instance d’une telle tâche, c’est à dire que nous ne connaissons pas son temps d’exécution qui reste constant tout au long de l’ordonnancement. Dans ce cas, le coût de l’ordonnancement dépend à la fois de la durée des requêtes et du temps d’exécution de la tâche considérée. Nous supposons de plus que la tâche peut être interrompue à tout instant (tâche divisible) pour un point de sauvegarde. Nous avons donc la possibilité de prendre un point de sauvegarde à la fin de certaines réservations bien choisies. L’avantage est de pouvoir repartir de l’état sauvegardé à la prochaine réservation au lieu de repartir du début, si la tâche ne termine pas pendant la réservation courante. Le prix à payer est le temps de sauvegarde, et de redémarrage. L’objectif de ce travail est de déterminer une stratégie de réservation optimale qui minimise le coût total de l’ordonnancement. Une stratégie de réservations est une séquence de requêtes croissantes, qui sont payées les unes à la suite des autres en ordre croissant jusqu’à complétion de la tâche. Pour chaque réservation, nous indiquons si un point de sauvegarde doit être pris ou non. Nous décrivons une telle solution optimale pour des distributions de probabilité discrètes, et nous donnons un schéma d’approximation polynomial pour les distributions continues à support compact. Nous comparons expérimentalement ces stratégies aux stratégies usuelles qui incrémentent la longueur de chaque réservation par une valeur constante, et qui décident de sauvegarder soit toutes les réservations, soit aucune. Nous utilisons un grand nombre de lois de probabilité usuelles (i.e. Uniforme, Exponentielle, Log-Normale, Weibull, Beta etc), ainsi qu’une distribution basée sur l’interpolation de traces d’applications de neurosciences exécutées sur une plateforme HPC.

Mots clés

Scheduling Computing platform Sequence of requests Neuroscience applications Checkpointing Stochastic cost

Ordonnancement Coût stochastique Plateformes de calcul Séquence de réservations Point de sauvegarde Applications de neurosciences

Domaines

Calcul parallèle, distribué et partagé [cs.DC] Algorithme et structure de données [cs.DS]

Fichier principal

RR-9294.pdf (1.4 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Valentin Honoré : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02328013

Soumis le : mercredi 23 octobre 2019-09:36:14

Dernière modification le : mardi 6 février 2024-11:13:30

Archivage à long terme le : vendredi 24 janvier 2020-14:25:36

Dates et versions

hal-02328013 , version 1 (23-10-2019)

hal-02328013 , version 2 (10-01-2020)

Identifiants

HAL Id : hal-02328013 , version 1

Citer

Ana Gainaru, Brice Goglin, Valentin Honoré, Guillaume Pallez, Padma Raghavan, et al.. Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version). [Research Report] RR-9294, Inria & Labri, Univ. Bordeaux; Department of EECS, Vanderbilt University, Nashville, TN, USA; Laboratoire LIP, ENS Lyon & University of Tennessee Knoxville, Lyon, France. 2019. ⟨hal-02328013v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

186 Consultations

148 Téléchargements

Reservation and Checkpointing Strategies for Stochastic Jobs (Extended Version)

Stratégies de réservation avec points de sauvegarde pour l’ordonnancement de tâches stochastiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager