Introductie tot Supercomputing Deel 2

Inleiding tot Supercomputing, deel 2

Het zo effectief en efficiënt mogelijk gebruiken van een high-performance computersysteem is geen eenvoudige taak. Daarom brengt deze cursus een vervolg op de eerste inleidende Supercomputing cursus (deel 1), waar je een nog meer leert over het gebruik van supercomputers met een speciale focus op efficiëntie met een praktische aanpak.

Regelmatig
Elke 2 maanden

Trainers
Maxim Masterov
Xavier Álvarez Farré
Carlos Teijeiro Barjas

Wat leer je in deze cursus?

Deze cursus bestaat uit de volgende modules:

Grondbeginselen van prestatieanalyse. Deze inleidende technische presentatie introduceert hybride systemen met hoge prestaties en behandelt op abstracte wijze de architectuur en configuratie van het systeem. Ons doel is om het begrip van HPC-complexiteit te vergroten voordat we dieper ingaan op het belang van prestatieanalysemodellen. Er wordt speciale aandacht besteed aan het Roofline-model.
- Abstract Modelleren van hybride supercomputers. Het presenteren van een abstracte modelbenadering voor hybride supercomputers, waarbij hun complexiteit wordt gecondenseerd in drie belangrijke parameters: piekprestaties, geheugen en netwerkbandbreedte.
- Prestatieanalyse. Verken de prestatieanalyse, te beginnen met een overzicht van verschillende modellen en dieper in te gaan op de specifieke kenmerken van het daklijnmodel.
- Het daklijnmodel. Het daklijnmodel wordt beschreven en de praktische toepassing ervan wordt gepresenteerd aan de hand van duidelijke uitleg en demonstraties.
Bestandssystemen. Deze praktische sessie behandelt het juiste gebruik van bestandssystemen op HPC-systemen, in het bijzonder op Snellius.
Slurm hybride taken. Slurm, een veelgebruikte taakplanner voor high-performance computing (HPC) systemen, is in eerdere secties geïntroduceerd voor een basisbegrip. Deze module behandelt de specifieke parameters voor resourcetoewijzing voor hybride taken met gedeeld en gedistribueerd geheugen.
- Nodes, cores en taken. Dit segment behandelt de fundamentele concepten van nodes, cores en taken en belicht hun rol binnen de context van HPC-systemen.
- Bindingen. Het concept van bindingen wordt onderzocht, wat inzicht geeft in hoe taken worden geassocieerd met specifieke middelen, waardoor deelnemers een beter begrip krijgen van mechanismen voor het toewijzen van middelen.
- Aan de slag. We zullen de vectoroptiek kernel met meerdere configuraties uitvoeren met behulp van een set scripts.
QCG proefbaan. In sommige gevallen moeten gebruikers een groot aantal lichtgewicht cases uitvoeren. De nodes van supercomputers zijn echter te krachtig en laten alleen relatief grote partities toe. De kleinst mogelijke toewijzing op Snellius is bijvoorbeeld 1/4 van een node: 32 cores en 64 GB. Job concurrency is een veelgebruikte strategie voor het efficiënt starten van meerdere lichtgewicht jobs op zulke grote partities.
- Grondbeginselen van gelijktijdigheid van opdrachten. Dit segment bespreekt de basisprincipes die ten grondslag liggen aan job concurrency. Job concurrency is een methodologische benadering die het mogelijk maakt om meerdere kleinere jobs gelijktijdig uit te voeren binnen een grotere toegewezen partitie. Het doel is om het gebruik van bronnen te optimaliseren en de efficiëntie te verbeteren in scenario’s waar lichtere taken worden uitgevoerd op nodes die zijn ontworpen voor zwaardere werklasten.
- Praktijkervaring met QCG pilootBaan. Deze hands-on sessie biedt deelnemers praktijkervaring met het QCG Pilotjob framework. Deelnemers krijgen praktische inzichten in de strategieën en technieken voor het gebruik van job concurrency om meerdere lichtgewicht jobs te starten en te beheren binnen de context van omvangrijke node-partities.