De glitz and glamour van het universitair leven zijn beperkt tot een sporadische keynotelezing, een goedgevulde aula en een tekst die toevallig met enige regelmaat wordt geciteerd. Een succesnummer van mijn hand dat ik nog relatief vaak zie voorbijkomen, is de tekst ‘Vertalen met een chatbot’ (oorspronkelijk verschenen op de ELV-website en opnieuw gepubliceerd op Vertaalverhaal). Ik merkte in die tekst op dat er een tooltje was verschenen dat plots flink aan de poten van de overtuigingen van literatuurminnende vertalers zaagde. Na een experiment met ons aller ChatGPT, moest ik immers concluderen dat deze spitstechnologie de overtuiging definitief had gelogenstraft dat taaltechnologie literair vertalers weinig te bieden heeft. Na het gesprek met het technologische snufje was ik overigens nog niet volledig om: ChatGPT’s poëticale analyse van Van Ostaijens ‘Melopee’ leek te getuigen van literair inzicht, maar de AI-vertaling van diens hand liet nog enigszins te wensen over. Welnu, elke succesfilm vraagt om een (vaak povere) sequel.
Filter proudly presents... Uiteraard begint deze sequel met een experiment. Op eigen houtje en met mijn goede collegae Onno Kosters en Christophe Declercq heb ik de laatste jaren onderzoek verricht naar de vertaalvaardigheid van Large Language Models (LLMs). De eerlijkheid gebiedt te zeggen dat de modellen, alle techno-optimisme en modelupdates ten spijt, geen hoge ogen hebben weten te gooien. Programma’s als ChatGPT scoren nauwelijks beter dan traditionele vertaalmachines, zelfs niet na de recentste upgrades. En ze gaan al helemaal hun boekje te buiten als er een specifiek promptje ‘geëngineerd’ wordt – dat wil zeggen: als er een specifiekere opdracht wordt geformuleerd dan het gewone ‘vertaal’. De output oogt na zo’n prompt vaak wel creatiever, maar de brontekst wordt niet zelden volledig met de voeten getreden.
In de computerwetenschappelijke vakliteratuur wordt al ettelijke jaren een omgang gezocht met foutjes en flagrante hallucinaties. LLMs zijn neurale taalmodellen. Die modellen staan bekend als ‘zwarte dozen’; dat wil zeggen: de processen van LLMs zijn niet (praktisch) te doorgronden, waardoor het moeilijk is om de fout in een proces aan te wijzen. De oplossing die computerwetenschappers hiervoor hebben bedacht, is ‘Chain-of-Thought prompting’. Heel simpel gesteld: er wordt aangeraden om niet alleen te informeren naar de output, maar om ook nog te informeren naar de (logisch) stappen die het systeem heeft doorlopen. Als je dan onbruikbare output hebt, kun je, dankzij die geëxpliciteerde stappen, ontdekken waar het fout is gegaan (en idealer ook: hoe je die fout zou kunnen verhelpen).
De raad van deze bollebozen heb ik uiteraard ter harte genomen door in een experiment niet alleen te informeren naar het vertaalproduct, maar ook naar het proces. Het fijne aan deze benadering is dat je niet alleen de povere kwaliteit beter zou kunnen verklaren, je zou ook grip kunnen krijgen op datgene waar ik in ‘Vertalen met een chatbot’ gewag van heb gemaakt: een heuse vertaalpoëtica – jawel, het p-woord is ‘poëtica’.
Het voert te ver om verslag te doen van het volledige experiment.1 Wel wil ik in deze reflectie op de vertaalpoëtica van AI kort uitleggen hoe ik te werk ben gegaan. In totaal heb ik met vier verschillende prompts gewerkt. Ik heb steeds gevraagd om 1) een vertaling in het Nederlands; 2) een creatieve vertaling; 3) een literaire vertaling; en 4) een literaire vertaling met aandacht voor de stijl van de auteur. De eerste twee prompts boden de taalmodellen (ChatGPT, Gemini, Claude en Mistral) relatief veel interpretatieve vrijheid. Vanaf prompt 3 werden de systemen meer in de gewenste richting geduwd. De sturing was bij prompt 3 nog relatief beperkt: LLMs moesten onder deze conditie de literaire eigenschappen van de bronteksten zelf nog identificeren. Prompt 4 was de meest uitgebreide en sturende opdracht, zoals hieronder ook blijkt:
You are a literary translator familiar with author X's style. Translate the excerpt into Dutch by following these steps:
Step 1 – Read the source text below and draw up a profile of the style of author X. The following stylistic features are characteristic of their work:
• ...
• ...
• ...
• ...
Step 2 – Translate the source text into Dutch, preserving these literary features while maintaining the meaning of the text.
Step 3 – Provide reasoning for the translation choices that were made.
Map each profiling point to concrete choices in your Dutch version (example, “short elliptic sentence to mimic X’s staccato rhythm”).
Source text:
"[HERE]"
Om te voorkomen dat de taalmodellen zouden struikelen over een specifieke tekst, heb ik vier verschillende werken geselecteerd: drie passages uit korte verhalen, van respectievelijk Jane Austen, Donald Barthelme en Sally Rooney, en een gedicht van Natalie Diaz.2
Welke poëticale inzichten heb ik tijdens dit experiment opgedaan? Wat mij erg trof, was de oppervlakkigheid van de analyses onder conditie 3. Het verzoek om literaire eigenschappen in de bronteksten aan te wijzen, resulteerde in de regel in een uiteenzetting rond thematische en psychologische aspecten van het verhaal. Literaire eigenschappen (literary features) werden zelden concreet voorgesteld. En ook narratologische aspecten raakten meestal ondergesneeuwd, onder een dikke laag nietszeggende drab. Vooral Gemini blonk uit in ellenlange analyses die zich het treffendst laten omschrijven als schermvulling.
Voor mij had het er de schijn van dat literatuur door alle tools in min of meerdere mate werd gereduceerd tot een verhaaltje, met hier en daar enige ruimte voor taalkundige of ‘literaturaire’ gemeenplaatsen (zoals ‘lange zinnen’ en ‘beeldspraak’). Het was dan ook niet verwonderlijk dat de poëticale analyses die op de vertalingen (onder conditie 3) volgden, bar weinig om het lijf hadden.
Gelukkig had ik gekozen voor een getrapte structuur. Onder conditie 4 had ik per auteur literaire eigenschappen verstrekt die kenmerkend waren voor de stijl van die auteur en die specifieke tekst. Een goed promptdesign is volgens de tech powers that be immers de sleutel tot kwalitatief hoogwaardige output. Bij Sally Rooney gaf ik, uiteraard na een frisse duik in secundaire literatuur over de auteur, de volgende informatie mee:
· free indirect discourse
· sparse punctuation
· minimalist prose
· introspective and emotionally charged style
· themes of power, class and economic precarity
Maar zelfs als je de taalmodellen bij het handje nam, maakten ze er regelmatig een potje van. Op zich waren de tekstuele analyses die ze voorafgaand aan de vertaling verschaften van een betere kwaliteit dan de analyses bij prompt 3. Zo wisten alle taalmodellen het stijlkenmerk ‘sparse punctuation’ direct in verband te brengen met een aantal treffende voorbeeldzinnen. Toch ging er meer fout dan goed.3 De misperen trof ik vooral aan in de vertalingen – niets nieuws onder de zon –, maar ik trof er ook verrassend veel aan in de poëticale verantwoordingen.
Het was op zich niet verrassend dat de poëticale verantwoordingen niet denderend waren: door de oppervlakkigheid van eerdere analyses waren de verwachtingen getemperd. Erg frappant was het wel dat de verantwoording toch wel met enige regelmaat volledig los kwam te staan van het vertaalproduct zelf. Vol trots vertelden de systemen me hoe ze met die literaire eigenschappen van Austen, Barthelme, Rooney en Diaz waren omgesprongen, maar als ik dan naar boven scrolde, merkte ik dat er in de vertaling zelf heel andere sprongen waren gemaakt. Vooral Mistral blonk uit in tegenstrijdigheden tussen poëtica en vertaling. Hier een kleine greep uit de brontekst, Mistrals vertaling en de daaropvolgende reflectie op het spaarzame leestekengebruik van Rooney:
Brontekst: She laughs, as if he has said something very charming. Oh, you’re Declan Kearney’s brother, she says.
Vertaling (Mistral Medium 3): Ze lacht, alsof hij iets heel charmant heeft gezegd. Oh, jij bent Declan Kearney's broer, zegt ze.
Veranwoording: Her writing often features minimal punctuation, which can create a sense of immediacy and intimacy.
[I’ve made] minimal use of commas and dashes to maintain the flow and immediacy of the text, such as "Ze lacht alsof hij iets heel charmant heeft gezegd Oh jij bent Declan Kearney's broer zegt ze."
De ontknoping nadert: het einde van deze sequel is vrij voorspelbaar aan het worden. Wat leert dit nieuwe experiment ons immers over de vertaalpoëtica van taalmodellen? Na dit vervolgexperiment met vier verschillende teksten, vier prompts en vier verschillende taalmodellen en beperkte interactie, kan ik alleen maar zeggen dat de indruk ‘dat er een vertaalpoëtica aan de automatische vertaling [van LLMs] ten grondslag [ligt]’ volledig is tenietgedaan.4 Ik neem mijn woorden dus terug. De taalmodellen reflecteren zeer beperkt en zeer gebrekkig op hun vertalingen.
Maar naast inzicht in de gebrekkige vertaalpoëtica van taalmodellen verschaft dit experiment ons (of vooral mij) nog andere inzichten. Allereerst heeft het experiment laten zien dat chain-of-thought prompting toch weinig grip geeft op de ‘denkprocessen’ van AI – en al zeker minder dan de computerwetenschappers ons doen geloven. De ene output botst simpelweg te vaak met de andere. Hierdoor is het voor gebruikers van taaltechnologie nog steeds erg moeilijk (zo niet moeilijker) om te achterhalen wat er fout gaat. En dat zal vast niet alleen gelden voor de casus AI-vertaling.
Belangrijker is misschien nog wel het besef dat dit ‘dubbele’ experiment laat zien hoe snel confirmation bias kan optreden. We zijn, zeker met AI, geneigd te zien wat we willen zien, of dat nu positief is of negatief. Met zeer schamel bewijs wijzen we op de kunde of onkunde van taalmodellen en verantwoorden we onze keus om AI in te zetten of links te laten liggen. En het is net deze neiging, om mager bewijs voor vol aan te zien, die ertoe leidt dat het AI-debat is verzand in polariserende retoriek en dat de techgiganten daar steeds de vruchten van plukken. Daarom vraagt ook deze sequel om een vervolg. Maar laten we daar nu een hoogstandje van maken, met meer teksten, meer systemen, meer talen en solide meetinstrumenten.
Noten
1 Het onderzoeksverslag ligt op het moment van schrijven bij de redactie van een wetenschappelijk tijdschrift. Zodra de tekst gepubliceerd is, refereer ik eraan in deze voetnoot.
2 Bij de verwerking van de opdrachten heb ik steeds aandacht besteed aan de instellingen. De mogelijkheid om de opdracht te gebruiken om het model te trainen is steeds uitgezet.
3 Er is bewust gekozen voor een puntig ‘Toch ging er meer fout dan goed’. Uit deze opmerking valt af te leiden dat ik me er terdege van bewust ben dat de confirmation bias, waarnaar ik in de slotalinea verwijs, ook in dit vervolgexperiment een rol kan spelen. Had ik mijn zinnen gezet op bevestiging van de vertaalpoëticale kwaliteiten van taalmodellen, dan had ik ook een selectie (tamelijk indrukwekkende) hoogtepunten ten beste kunnen geven.
4 ‘Beperkte interactie’ is een belangrijke toevoeging: dat de kwaliteit van de poëticale analyse van ‘Melopee’ in 2022 zo goed was, is misschien wel in belangrijkere mate dan ikzelf durf toe te geven te danken is aan de input die ik heb verschaft. Daarom heb ik binnen dit vervolgexperiment gekozen voor een enkele (complexe) instructie.