Door: Thomas van Osch
Sinds de publiciteitsstunt van OpenAI door openlijk hun nieuwe taalmodel genaamd ChatGPT te openbaren, heeft het overvloedige aandacht gekregen in de media en het onderzoek. Het model kan kunstmatige maar realistische teksten genereren en heeft daarmee invloed gehad op onderwijs, marketing, communicatie en zelfs op onze manier van internetten. Maar hoe heeft ChatGPT zich tot nu toe ontwikkeld en hoe verhoudt HPC zich daartoe?
Tijdlijn van ChatGPT
In 2018 paste OpenAI de nieuwe opkomende AI-architectuur genaamd Transformer toe op een grote set digitale data. Dit model staat nu bekend als GPT-1 (Generative Pre-trained Transformer) en legde de basis voor de GPT-reeks. Slechts een jaar later verbeterde men het eerste model door de tien keer zo grote opvolger GPT-2 te introduceren. Vervolgens werd in 2020 het enorme grote taalmodel GPT-3 gepubliceerd, dat voornamelijk was gebaseerd op een enorme hoeveelheid geschraapte internetgegevens. Bovendien bevatte GPT-3 in vergelijking met GPT-2 een factor van 100 meer parmeters. De volgende twee jaar van OpenAI’s ontwikkeling stonden in het teken van de uitbreiding van het bestaande getrainde GPT-3-model tot een interactief en gebruiksvriendelijk taalmodel, zoals blijkt uit de ontwikkeling van InstructGPT (januari 2022) en ChatGPT (november 2022).
Wat is ChatGPT
In korte maar technische termen: ChatGPT is een interactief groot taalmodel (engels: Large Language Model or LLM) dat natuurlijke taalverwerking en deep learning gebruikt om gegenereerde stukken tekst terug te geven. Om helemaal te begrijpen wat ChatGPT is, moeten we het opsplitsen.
Het interactieve karakter komt voort uit de chatbot-achtige interface en de manier waarop het model is getraind. Door mensen in te zetten om zelf tekst te genereren en te controleren, krijgt het model menselijke feedback om een meer natuurlijke en mensachtige conversatie te stimuleren.
De term large in LLM verwijst naar de explosieve groei in complexiteit van de taalmodellen. In afgelopen jaren, is de modelgrootte van enkele honderd miljoenen parameters gegroeid naar nu honderd miljarden. Language model (of taamodellen) zijn neurale netwerken die tijdens hun training telkens gevraagd wordt een volgend plausibel en passend woord te voorspellen gegeven een groep woorden of zin. Als je dit vervolgens op grote schaal wordt toegepast, worden de modellen goed in het generen van teksten.
Hoewel dit type training van taalmodelleren al een tijdje bestaat, hebben deep learning en nieuwe AI-architecturen de kracht van taalmodellering versneld tot het huidige en rijke taalmodellandschap van o.a. Google, Meta en Microsoft.
Tegelijkertijd hebben ook andere taken op het gebied van natuurlijke taalverwerking (NLP), zoals spraakherkenning en het begrijpen van natuurlijke taal, geprofiteerd van de steeds krachtiger wordende computers en de technische ontwikkelingen.
Met de ontwikkeling van GPT-3 werd het dus mogelijk om verschillende linguistieke taken te laten uitvoeren zoals het beantwoorden van vragen, het schrijven van essays en zelfs het genereren van codes. De kwaliteit en breedte van die interne database van kennis dat zulke modellen bezitten, beïnvloedt de kracht van de gegenereerde teksten. Nu is ChatGPT vrij uniek vanwege de extra training. Door direct menselijke feedback te geven aan het model, kan er een natuurlijkere interactie ontstaan tussen de menselijke gebruiker en ChatGPT. Uiteindelijk is ChatGPT zo ontwikkeld dat het zelfs een kunstmatige gesprekspartner zou moeten simuleren.
De rol van HPC
De enorme groei van taalmodellen tot ‘grote’ taalmodellen kan niet alleen worden toegeschreven aan slimme Artificiële Intelligentie (AI)-technieken. Aangezien GPT-1 tot GPT-3 in een paar jaar tijd met een factor 4 is gegroeid, hebben ook de computerfaciliteiten een cruciale rol gespeeld.
Ter illustratie onderzoeken we het trainingsproces van de onderliggende ‘database’ van kennis van ChatGPT: GPT-3. Met 175 miljard parameters kostte het trainen van GPT-3 naar schatting 5 miljoen USD met behulp van een geoptimaliseerde datacenter-GPU (Tesla V100).
Om het hele model op één enkele GPU te trainen, zou het eeuwen duren. Met de juiste optimalisatie kunnen dergelijke modellen daarentegen in enkele weken of maanden worden getraind op een volledig cluster van honderden GPU’s – BLOOM van vergelijkbare grootte had 3,5 maanden nodig op 384 GPU’s om de training op de Franse supercomputer Jean Zay te voltooien. Om dat in perspectief te plaatsen: dat is ongeveer 433 MWh of 300.000 km rijden met een gemiddelde auto aan co2 footprint alleen voor het GPU-gebruik.
OpenAI, de oprichter van ChatGPT, krijgt exclusieve datacenters van Microsoft puur om hun modellen te trainen. Andere partijen zoals Google en Meta zijn ook actief bezig met de ontwikkeling van gigantische AI-modellen en hebben een grote behoefte aan rekenmiddelen. Het bouwen en beheren van HPC-faciliteiten is daarom essentieel, niet alleen voor het bevorderen van de volgende generatie taalmodellen, maar ook voor andere toepassingen van kunstmatige intelligentie, zoals astronomie, geneeskunde en geologie.