
Sprogteknologiforsker: Chatbotter er mest papegøjesnak
Sprogteknologiforsker: Chatbotter er mest papegøjesnak
Da ChatGPT blev lanceret i november 2022, slog det benene væk under professor i sprogteknologi Bolette S. Pedersen. Men teknologierne har stadigvæk udfordringer, og derfor skal k-folk være særligt opmærksomme.
Maskinlæringsprogrammet ChatGPT, der er udviklet af OpenAI, er trænet gennem en database fra internettet. Databasen inkluderer 570 GB data med kilder fra bøger, Wikipedia, forskningsartikler, hjemmesider og andre former for indhold og bliver anslået til at være på 300 milliarder ord.
”Det ser virkelig imponerende ud, når man arbejder i ChatGPT, men pludselig kan den lave en fejl, der tydeligt viser, at det bare er en maskine, der i essensen ikke forstår, hvad der foregår. Det er udelukkende papegøjesnak, selvom det er en overbevisende en af slagsen,” siger Bolette S. Pedersen og uddyber.
”Når man arbejder med de nye chatbotter, er det vigtigt at huske på, at de ikke nødvendigvis leverer fakta. Princippet er for hvert ord at levere det mest sandsynlige ord, der kommer efter, baseret på det sprogmateriale, som sprogmodeller er trænet på. Hvis det omhandler noget, den ikke kender nok til, digter den bare ud fra det mest sandsynlige.”
Hvad betyder det for k-folks arbejde med chatbotten?
”Den kan helt sikkert give dig meget rigtig information, men der er også dele af det, den leverer, som er ren fiktion. Så det er vigtigt, at man faktatjekker, hvad den fortæller dig. Selvom det ikke er nyt for k-folk, der i længere tid har skullet forholde sig til ekkokamre og fake news, så er det uden tvivl blevet forstærket med denne nye teknologi,” siger Bolette S. Pedersen.

Bolette S. Pedersen
Forleden blev mine spørgsmål til ChatGPT forvekslet med norsk, så den svarede mig på norsk. Og da jeg spurgte, om den kunne svare på dansk, skrev den, at det kunne den godt, men alligevel fik jeg bare endnu et svar på norsk.
Ramt af bias
Men det er ikke det eneste, man som k-professionel skal være opmærksom på. Ifølge Bolette S. Pedersen har sprogmodellerne stadigvæk stærke bias ved for eksempel køn, race og minoriteter.
”Det kommer af, at sprogmodellerne bliver trænet på gamle tekster, der i dag kan virke diskriminerende. Sprogmodeller er principielt lidt tilbageskuende – og der er for eksempel sket meget med den måde, vi kommunikerer om køn på i Danmark bare det seneste år. Dét vil først slå igennem sprogmodellerne om nogen tid, når der er blevet produceret tilpas meget tekst til, at det vil vægte mere end den forældede tekst,” siger hun og fortsætter:
”Heldigvis bliver de bedre og bedre, og der bliver arbejdet meget på at få den her bias til at forsvinde.”
ChatGPT og andre sprogmodeller har overrasket sprogforsker Bolette S. Pedersen. De er lynende hurtige, og så leverer de på et overraskende højt niveau, også i deres oversættelsesfunktioner.
Særligt ChatGPT er trænet på en lang række forskellige sprog, og det betyder også, at den kan forstå og genere tekst på mere end 40 forskellige sprog.
Men selvom Bolette S. Pedersen kalder den nye chatbot for et kvantespring, er den stadigvæk begrænset på dansk.
”Det, som den kan præstere på dansk, er ikke lige så godt som det, den kan præstere på engelsk. Og det er tydeligt, når man sidder og arbejder med den,” siger hun.
Det skyldes i høj grad, at sprogmodellerne har en større mængde tekst på engelsk end på dansk. Og den ubalance bliver ifølge Bolette S. Pedersen kun forstærket, hvis robotterne ikke får flere danske tekster til rådighed.
”Hvis det danske sprog ikke skal sakke agterud i de nyeste sprogmodeller, så er vi nødt til at se det som en samfundsopgave, at vi har en interesse som samfund i at promovere dansk tekstmateriale. Sprogmodellerne har brug for flere danske tekster at træne på, hvis de skal kunne mestre dansk til fulde,” siger hun og fortsætter:
”Der bliver på nuværende tidspunkt produceret en masse tekster på dansk, der ikke bliver udnyttet til sprogteknologi. Vi er nødt til at forstå, at tekst er guld, hvis vi skal have gode sprogteknologiske værktøjer for dansk. Det skal selvfølgelig anonymiseres, så der ikke er GDPR-problemer, men det har vi også sprogteknologiske værktøjer til at gøre.”
Det er vigtigt, at man faktatjekker, hvad den fortæller
Bolette S. Pedersen, professor i sprogteknologi, Københavns Universitet
Forvekslet med norsk
Vi har tidligere set selskaber, der ikke har overholdt reglerne om persondata, mens Center for Cybersikkerhed anbefaler at droppe apps som TikTok, Snapchat, Dropbox og Strava. Kan der ikke være datamæssige problemer ved at give en masse tekster og information til multinationale selskaber?
“Det er der helt sikkert. Men lige nu er der gang i et større EU-initiativ, hvor man vil træne egne sprogmodeller. For det er trist, hvis det kun er de store virksomheder, der ligger inde med stærke sprogmodeller. Så hvis EU skal være konkurrencedygtigt og ikke være fuldstændig i lommen på de store som Open AI og de andre store techfirmaer, så er vi nødt til at lave nogle parallelle sprogmodeller,” siger Bolette S. Pedersen.
For hvad er problemet, hvis sprogmodellerne ikke får flere danske tekster?
”Så kommer vi til at se, at teknologigabet bliver større mellem dansk og engelsk. Hvis vi troede, at det blev mindre og mindre, så tager vi fejl. Det bliver større og større, fordi mulighederne på engelsk hele tiden bliver bedre – og det siger mig, at der er en masse arbejde forude,” siger hun.
Har du selv oplevet det i dit arbejde?
”Forleden blev mine spørgsmål til ChatGPT forvekslet med norsk, så den svarede mig på norsk. Og da jeg spurgte, om den kunne svare på dansk, skrev den, at det kunne den godt, men alligevel fik jeg bare endnu et svar på norsk. Det gav mig en fornemmelse af, at den egentlig ikke forstår, hvad et sprog er. Det er en papegøje uden grundlæggende viden om verden,” siger Bolette S. Pedersen.
Hvis vi kigger lidt frem i tiden, hvor er sprogmodellerne så på vej hen?
”Så er vi der, hvor sprogteknologier bliver en dybt integreret del af vores hverdag og vores kommunikation. Både for k-folk, men også for alle os andre,” siger hun. ●
I am raw html block.
Click edit button to change this html