Opleiding van kunstmatige intelligentiemodellen: wat betekent dat?

AI-taalmodellen en AI-beeldgeneratoren zijn de meest gebruikte soorten AI-modellen. Vaak wordt gesproken over training, pre-training of fine-tuning. Wat betekenen deze begrippen en wat zijn de verschillen? Welke gegevens en vooral hoeveel worden typisch voor welk proces nodig?

Inleiding

Een AI-model is een elektronisch brein dat bestaat uit een neuronaal netwerk. Het kan worden bevraagd en geeft een antwoord. Dit is op een bepaalde manier mogelijk die erg aan het menselijk brein doet denken. Andere meningen zijn erover. In elk geval berust ook het menselijke brein op statistiek. Tot het vraagstuk, wat intelligentie is, zie de verlinkte bijdrage.

Forbeelden van soorten AI-modellen zijn:

AI-Sprachmodel, vaak aangeduid als LLM (LLM = Large Language Model). Er zijn echter ook efficiënte SLMs (SLM = Small Language Model) beschikbaar.
AI-image generator: Uit een tekstinput wordt een beeld gegenereerd. Vaak kan ook uit een tekst en een invoerbeeld een nieuw beeld worden gemaakt. Of meerdere beelden kunnen stijlistisch met elkaar verbonden worden.
Tekst-na-spraak: Uit een invoertekst wordt door het AI-model een spraakuitvoeringsproduct gegenereerd
Spraak-naar-tekst: Uit een spraakinput produceert het AI-model een tekst (transcriptie)
Objectherkenning in beeld of video (segmentatie)
Geneeskundige prognosemodellen

In het volgende wordt voor de eenvoud alleen ingegaan op kunstmatige intelligentie-taalmodellen en kunstmatige intelligentie-afbeeldingsmodellen. Deze zijn zeer veelvoorkomende vertegenwoordigers in het domein van kunstmatige intelligentie.

Er zijn in wezen twee trainingsprocessen voor kunstmatige intelligentiemodellen:

Pre-Training (Voortraining)
Fine-Tuning (Finetunen)

Er zijn in de praktijk weinig verdere trainingsprocessen. Een fine-tuning van een al gefine-tuned model is nog denkbaar, wat uiteindelijk technisch analoog is aan het eerste fine-tuning.

Wat betekent pre-training en wat is de verschillende met fine-tuning? De volgende afbeeldingen beschouwen meerdere configuraties:

Voortraining ("Creëren") van een enorm groot taalmodel, zoals ChatGPT-4
Voortraining van een klein maar krachtig taalmodel (yes, dat is correct gelezen), zoals GPT-2
Finetunen van het model uit 1.
Finetunen van het model uit 2.

De gevallen 1 en 3 zijn meestal zaak van klokkende bedrijven. Het tweede geval komt zelden voor of als, dan wel voor grotere modellen dan GPT-2, zoals Llama3-8B. Maar ook het 8B-model wordt meestal door klokkende bedrijven gemaakt en aangeboden.

De vierde situatie is praktisch voor elk bedrijf haalbaar. Het focus van dit artikel zijn in het algemeen bedrijven die kunstmatige intelligentie willen invoeren, of organisaties die zulke bedrijven beheren.

Pre-Training

Voordienstelling betekent het leren van een AI-model. Het AI-model is er niet. Het wordt voorgedraaid (pre-training). Dan is het er.

Vaak wordt gesproken over "training". Training als begrip bestaat hier niet. Als iemand "training" zegt, bedoelt hij dan wel pre-training of fine-tuning, afhankelijk van de context die men heeft.

Als iemand het trainen van een Custom-GPT bedoelt, bedoelt hij fine-tuning. Als iemand in het algemeen spreekt over het trainen van een krachtig taalmodel, bedoelt hij pre-training (ongeveer: "Het trainen van ChatGPT-4 heeft miljoenen uren rekenkracht gekost, heb ik gelezen").

Pre-Training is het leren van een AI-model.
Het komt overeen met de opvoeding van een kind vanaf zijn geboorte door zijn ouders tot aan het schoolonderwijs.

In twijfelgevallen moet men ervan uitgaan dat met "training" het "pre-training" bedoeld is, omdat dit taalkundig dichter bij ligt dan "fine-tuning".

Voor taalmodellen zijn miljarden documenten met tekst nodig om een zeer goede kwaliteit te hebben. Een document is meestal een uittreksel van een website uit het internet.

Bekende bronnen van gegevens zijn:

Gemeenschappelijke kruip (CC) of C4 (Colossale Gezuiverde Gemeenschappelijke Kruip): ongeveer 700 GB aan gegevens, uitsluiting van veel websites uit het internet
De Stapel: 825 GB aan data, volgens sommigen open-source
Wikipedia (in meerdere talen)
Gegevens van RefinedWeb: Gedupliceerde en gezuiverde versie van Common Crawl
StarCoder Data: ca. 780 GB aan gegevens voor het genereren van programmeertaalcode. Bronnen zijn voornamelijk GitHub en Jupyter Notebooks (dat zijn programmerblaadjes, gelijk Excel, maar voor de eenvoudige opmaak van deelbaar programmeercode).

Afhankelijk van de grootte van een taalmodel duurt het trainen erg lang (veel maanden) of slechts enkele uren. Voor zeer grote AI-modellen zijn er miljoenen GPU-uren nodig voor het pre-training. GPU staat voor grafische kaart. In een high-end server zitten acht grafische kaarten, die elk €25.000 kosten.

Zeer kleine taalmodellen (GPT-2) werden nog maar een paar jaar geleden niet als zeer klein beschouwd en waren de standaard. Een GPT-2 taalmodel kan in enkele uren, dagen of weken getraind worden op eigen AI-server of AI-laptop (vortraining = pre-training). Hoe lang het pre-trainen precies duurt, hangt af van omvang van de trainingsgegevens.

Om een AI-taalmodel zeer prestatief te laten zijn, worden enkele terabytes (duizenden gigabytes) aan rauwe tekst nodig om als trainingsgegevens te dienen.

Voor een goede start zijn zelfs honderd gigabyte voldoende, die snel samengelezen kunnen worden. Hiervoor duurt het aanleren van het AI-model (pre-training) slechts een beperkt aantal uren.

Hoe precies het ook nog steeds afhangt van het aantal iteraties. Een iteratie is ongeveer gelijk aan een scholengroep. Hoe meer groepen iemand in de school volgt, hoe hoger de kans dat de intelligentie stijgt. Precies zoals bij mensen brengt het echter uiteindelijk niets meer op om nog een jaar langer naar school te gaan. De leerprestaties kunnen net als bij mensen door te lang pre-training zelfs vernietigd worden en zich weer verslechteren.

Een AI-model dat door pre-training is gegenereerd, dus aangelernt werd, wordt ook wel basismodel of Foundation Model (FM) genoemd. Een basismodel kan voor algemene taken worden gebruikt. Hoe groter het basismodel is, hoe beter het ook specifieke taken kan oplossen. De grootte van een model drukt zich uit in de hoeveelheid neuronverbindingen. ChatGPT kan door zijn schiere grootte dus ook zeer goed rekenen (in ieder geval beter dan de meeste mensen op aarde, waarbij fouten die ChatGPT en mens respectievelijk maken worden meegenomen).

Fine-Tuning

Finetunen kan ook worden aangeduid als fine-tuning.

Een voorwaarde voor het fine-tunen is een beschikbaar AI-taalmodel. Het AI-model is beschikbaar nadat het voortraind (pre-trained) is geweest. Alleen een pre-trained AI-model kan aan het fine-tunen worden onderworpen.

Fin-Tuning is vergelijkbaar met een studie die je aan de schoolopleiding toevoegt.
Zonder schoolopleiding is een studie niet mogelijk of ook niet zinvol.

Een fine-tuning is dan zinvol, wanneer een model voor een bepaalde taak getraind moet worden. Met het fine-tunen wordt het taalmodel dus verder getraind.

Misschien kan een taalmodel van huis uit teksten niet goed samenvattingen maken. Dat zou ook alleen sporadisch zo zijn, bijvoorbeeld voor een artspraktijk die heel andere woorden gebruikt in medische rapporten dan waarin het AI-model is getraind.

Het fine-tunen verbetert dus de capaciteiten van een al getrainde AI-model ten aanzien van een concrete taakomschrijving. Deze taakomschrijving wordt ook als Downstream-Task aangeduid.

Afhankelijk van de opdracht en de geschiktheid van een AI-model, evenals van de gebruikte wiskundige trainingsmethode, zijn verschillende hoeveelheden gegevens nodig om goede resultaten te behalen.

Voor de classificatie van teksten zijn honderd voorbeelden mogelijk voldoende om het fine-tunen succesvol te laten verlopen. Om een AI-afbeeldingsgenerator te laten leren de stijl van een kunstenaar op te pakken, zijn al 10 voorbeelden voldoende. Na het fine-tunen produceren de afbeeldingen van het model dan beelden die door de maker van de 10 voorbeeldafbeeldingen zouden kunnen zijn gemaakt.

In totaal zijn er veel minder trainingsgegevens nodig voor het fine-tunen en ook zinvol, in tegenstelling met pre-trainen. Men kan ervan uitgaan dat de hoeveelheid datasets voor het fine-tunen vaak niet meer dan 10.000 datasets overschrijdt. Vaak zijn er veel minder dan deze 10.000 voorbeelden zinvol en nodig. Het komt uiteindelijk op het geval aan. Om volledig te zijn, wordt een bijzondere situatie genoemd: Een basismodel wordt gefine-tuned met als doel dat daarin een feitelijk verbeterde versie van het basismodel ontstaat. Dit is bijvoorbeeld gebeurd met Llama3. De gefine-tuned afstamming kreeg 64.000 datasets aan trainingsgegevens geschonken. Deze procedure wordt doorgaans door anderen uitgevoerd. Men kan deze verbeterde modellen dan gebruiken alsof ze vanaf het begin waren (pre-trainen).

Het fine-tunen vindt in de praktijk plaats bij bedrijven voor kleine taalmodellen. Klein betekent niet dat het geen "groot taalmodel" LLM is, maar aanduidt de relatie tussen "gigantisch" (ChatGPT) en "zeer goed LLM" (zoals Llama3-8B). ChatGPT heeft waarschijnlijk meer dan 1000 miljard neuronenverbindingen, terwijl een 8B-model "slechts" 8 miljard heeft. Het "B" staat voor "billion" en betekent in het Engels "miljard".

Pre-Training versus Fine-Tuning

De volgende overzicht geeft een korte en bondige samenvatting van de verschillen tussen pre-training en fine-tuning. In het overzicht zijn ook de kenmerken privacy en synthetische data opgenomen. Synthetische data is kunstmatig gegenereerde data om de omvang van trainingsdata te vergroten. Deze data wordt verkregen met behulp van AI-modellen!

Kenmerk	Pre-Training	Fine-Tuning
Doel	Het creëren van een algemeen kunstmatig intelligentiemodel	Een bestaand AI-model verbeteren voor een specifieke taakomschrijving
Analogie	Opvoeding van een kind door zijn ouders + schoolonderwijs	Studeren aan de universiteit of een vervolgstap na het schooltijdperk
Aantal trainingsgegevens	Zo veel mogelijk, vaak miljarden gegevenssets	Vaak zijn het 10 voorbeelden, vaak 100. Het gebeurt zeer zelden dat er meer dan 10.000 of zelfs maar 10 voorbeelden zijn.
Reken tijd	Voor moderne modellen vele miljoenen uren	Heel weinig uren tot weken
Gegevensbescherming	In principe niet na te houden	In principe (slechts voor de trainingsgegevens) kan dat worden nagekomen
Anonimiseren mogelijk?	Niet in de praktijk	Yes, over het algemeen heel goed
Auteursrecht in overeenstemming?	Niet in de praktijk	Yes, over het algemeen heel goed
Synthetische data zinvol?	Alleen in noodgevallen of voor verbeteringen binnen een modellensysteem	Yes, voor de multiplicatie van trainingsgegevens en om de variatie hiervan te verhogen

De anonimisering van trainingsgegevens voor fine-tuning geschiedt onder dezelfde omstandigheden als de gegevensbescherming: alle gegevens die al bij het pre-training in het basismodel zijn ingevoerd, kunnen nadien quasi niet meer worden geanonimiseerd. Het ziet er nog slechter uit met auteursrechtelijk beschermd materiaal. Want gegevens zie je eerst niet aan of ze het waardevolle werk van een ander zijn. Bij de gegevensbescherming kan men in ieder geval vaak vaststellen of personen betrokken zijn.

Conclusie

Vanuit het oogpunt van de data is fine-tuning een grootteorden beter te beheersen dan pre-training. Dit geldt alleen voor de data die in het fine-tunen wordt meegenomen. De initiële trainingsdata voor het pre-trainen zijn al opgeslagen in het AI-model en kunnen worden opgeroepen.

Pre-Training is een technische uitdaging. Vanuit softwareperspectief is het bijna hetzelfde als finetunen. Het vereist echter enorme rekencapaciteiten en een extreem grote hoeveelheid trainingsgegevens.
Fine-Tuning is compleet anders. Het lukt met betaalbare consumentenhardware en vereist vaak weinig tot zeer weinig trainingsgegevens.

Het fine-tuning erfde dus het "brein" met zijn ingespeelde initiële trainingsgegevens en voegde er weinig nieuwe gegevens aan toe. Deze weinige nieuwe gegevens kunnen vanuit de GDPR goed beheerst worden. Toch blijft een illegaal basismodel, dat fine-tuned is, een illegale fine-tuning. De illegale gegevens uit het basismodel kleuren dus alle opvolgende versies van het model aan. Iets illegaals kan niet rechtsgeldig worden door toevoeging van iets legaal.

Synthetische gegevens verbeteren de kwaliteit of de privacy in een basismodel niet echt:

Synthetische gegevens kunnen ook een verwijzing naar een persoon of een auteursrechtelijk beschermd werk bevatten. Geen wonder, want hun voorbeeld zijn immers echte gegevens.
Wanneer synthetische gegevens worden verkregen door wijziging van echte gegevens, kan het voorkomen dat valse beweringen over personen ontstaan. Dit zou een verslechtering zijn van de juridische situatie in het AI-taalmodel.

In het algemeen kan men zeggen: AI-modellen zijn alleen concurrerend als ze mogelijk zo veel en goede trainingsgegevens hebben gekregen. Dus zijn eigenlijk alle beschikbare concurrerende Closed en Open Source AI-taalmodellen formeel rechtswijd. Bovendien is Mistral ook getraind met gegevens uit het "open web", zoals Mistral zelf zegt.

De voortdurende geaccepteerde gebruikmaking van iets formeel onwettigs zal naar de logica van het rechtswetenschap bij AI waarschijnlijk leiden dat het als toegestaan wordt beschouwd of tenminste hun "onwettige gebruik" geduld zal worden.

Een ander probleem is de gebruikmaking van cloud-diensten zoals ChatGPT of Azure. Want daarbij worden vaak gegevens van derden of eigen bedrijfsgeheimen naar Amerikaanse bedrijven en hun nationale inlichtingendiensten gestuurd.

Als het argument van gegevensbeveiliging niet genoeg is, wordt aanbevolen om de toepassingsgebieden concreet te benoemen en hiervoor een geoptimaliseerde AI in te zetten. Deze soort AI wordt hier Offline-AI genoemd. Ze draait volledig autark, ofwel op een gehuurde server of een bedrijfs-eigen server en levert vaak betere resultaten dan algemene intelligenties zoals ChatGPT.

The image at the top of the post was generated by a computer program. The self-developed AI system from Dr. DSGVO, similar to Midjourney, was used. The images may be used freely on websites, with the request to link to this blog.

Opleiding van kunstmatige intelligentiemodellen: wat betekent dat? - Dr. DSGVO (2024)

Inleiding

Pre-Training

Fine-Tuning

Pre-Training versus Fine-Tuning

Conclusie

References