skip to Main Content

Sprogteknologien mangler data på dansk

Sprogteknologien mangler data på dansk

Hvad sker der med det danske sprog, de sproglige kompetencer og den almene sproglige dannelse, når maskinerne kan læse og skrive for os? To sprogeksperter giver her deres bud og slår fast, at der mangler et stykke før sprogteknologien er god nok på dansk.

Stavekontrol, Google-søgning, maskinoversættelse, sms-beskeder og stemmen i din GPS. Hver eneste gang et menneske kommunikerer med en computer, bruger man sprogteknologi, et område i hæsblæsende udvikling. Hver gang information bliver gemt på en computer og fundet frem igen, skal der bruges sprogteknologi, og det sker ikke så sjældent i en tid, hvor robotter og kunstig intelligens vinder frem.

Ny teknologi er en god ting, men problemet er, at den ofte er baseret på engelsk og sjældent er udviklet til et lille sprog som dansk. Det vurderer Bolette Sandford Pedersen, professor i sprogteknologi og institutleder ved Nordisk Forskningsinstitut, Københavns Universitet.

”Danmark er et lille land, et lille marked og derved ikke så interessant for de virksomheder, der udvikler sprogteknologi. Derfor kommer sprogteknologien til mobiltelefoner og lignede fra udenlandske virksomheder, og de prioriterer ikke dansk så højt som engelsk og for eksempel spansk, fransk og tysk – de store sprog. Konsekvensen er, at sprogteknologien virker dårligere på dansk, og at vi på sigt risikerer, at den nyeste teknologi bliver forbeholdt de, der taler flydende engelsk,” siger Bolette Sandford Pedersen.

Maskinerne skal fodres med data
Den helt store udfordring er, at sprogteknologien mangler data på dansk. Hun fremhæver her IBM’s supercomputer Watson som et eksempel på ny sprogteknologi med et stort potentiale i blandt andet den danske sundhedssektor. Den bliver allerede brugt i forskellige sammenhænge – i sundhedssektoren, til skatterådgivning, undervisning, vejrudsigter og en lang række andre ting, og så har den vundet over mennesker i Jeopardy.
Udfordringen herhjemme er, at det kræver en stor investering at etablere et tilstrækkeligt stort datagrundlag, før systemerne kan arbejde med dansk tekstmateriale. Samme problem gælder for ROSS, en såkaldt advokatrobot, der kan søge i domsafsigelser. Også her er potentialet stort, fordi robotten på et øjeblik kan gennemgå enorme datamængder.

“Der er brug for sprogdata for at løfte kvaliteten”

”ROSS har det samme problem som Watson. Sprogteknologien er ikke god nok på dansk. Derfor går det langsomt med at få Watson integreret i sundhedsvæsenet, og på Københavns Universitet har man indtil videre valgt ikke at undervise de nye jurister i brugen af kunstig intelligens, fordi systemet ganske enkelt ikke fungerer på dansk lovmateriale – men det kommer nok,” siger Bolette Sandford Pedersen.

Hun forklarer, at der er brug for sprogdata for at løfte kvaliteten. Ligesom geodata og oplysninger om for eksempel flyafgange og togtider er frit tilgængelige for it-udviklere, så de kan udvikle nye tjenester og services, så skal sprogdata også produceres og deles.

”Indenfor taleteknologi taler man om, at for at få talegenkendelse med en ordentlig kvalitet kræver det omkring 500 timers udskrevet og analyseret tale og en sprogmodel, baseret på en tekstmængde med mindst 500 millioner ord, der afspejler det fagområde, som det færdige produkt skal fungere i. Det er en stor investering, men du skal kun investere én gang, for sprogdata kan genbruges, selvom man selvfølgelig må indregne at sproget løbende udvikler sig. Vi har brug for den type data, som skal samles i en databank og bruges af virksomheder, udviklere og forskere. Det er vores opgave som samfund at gøre det, så vi ikke bliver ringere stillet end de andre lande,” siger hun.

“Hvis ikke teknologien fungerer, gider vi ikke bruge den”

Bolette Sandford Pedersen Institutleder ved Nordisk Forskningsinstitut og professor på Center for Sprogteknologi ved Københavns Universitet, hvor der bliver undervist og forsket indenfor de lingvistiske og sprogteknologiske områder. Foto: Camilla Utke Schiøler

Skrækscenarier og muligheder
Bolette Sandford Pedersen er bekymret for, hvordan det danske sprog vil udvikle sig, hvis tendensen fortsætter, og beskriver her tre skrækscenarier.
”Det første scenarie, vi kan risikere at møde, er, at det danske sprog bliver forarmet, fordi vores kommunikation i høj grad er digital, og teknologien ikke understøtter dansk med en ordentlig kvalitet. Det andet scenarie omfatter samfundet og den mulige konsekvens, at vi undgår at bruge de nyeste teknologiske muligheder og derved hægter os selv af udviklingen. Danmark er i dag godt med som en innovativ og digital nation, men den position kan på sigt blive svækket. Hvis ikke teknologien fungerer, gider vi ikke bruge den. Det tredje og sidste scenarie, jeg kan se realiseret, er, at vi holder op med at bruge dansk i alle digitale sammenhænge, og at vi bruger engelsk i stedet for. Det gælder især professionelt, hvor engelsk allerede er det primære sprog på mange arbejdspladser. Konsekvensen er her, at der sker et sprogtab,” siger Bolette Sandford Pedersen.

Mens skrækscenarierne tager form forude, peger hun også på de handlemuligheder, vi kan benytte for at ændre udviklingen.
”Vi kan gøre flere ting. Vi skal sikre, at dansk bliver brugt i alle digitale sammenhænge, også inden for robotteknologi og kunstig intelligens, men det kræver politisk handlen og prioritering. Sprogteknologien skal bruges på skoler og gymnasier, så teknologien bliver integreret med læringen, og de unge bliver fortrolige med teknologiens muligheder, i takt med at deres sproglige bevidsthed bliver etableret. Endelig skal vi have uddannet flere på forskellige niveauer indenfor dansk sprog og sprogteknologi,” siger Bolette Sandford Pedersen.

“Det er lidt som at bruge en regnemaskine, det er en stor hjælp, men du skal selv kunne regne for at bruge den”

Hvordan påvirker teknologien sprogkvaliteten?
Wizkids er en dansk virksomhed, der udvikler sprogteknologi til undervisning, skrivestøtte til ordblinde og andre med behov og endelig Google-løsninger, blandt andet en cloud-baseret læringsplatform, som er integreret med Google. Stefan Pal, Chief Operating Officer(COO) i Wizkids, møder ofte spørgsmålet, hvad ordforslagsprogrammer, talegenkendelse og anden teknologi betyder for vores sprogkompetencer.

”Bliver dit sprog forringet, når teknologien hjælper dig med arbejdet? Nej, du kan derimod skrive længere og mere komplicerede tekster og derved udvikle sproget. Det er lidt som at bruge en regnemaskine, det er en stor hjælp, men du skal selv kunne regne for at bruge den. Tidligere huskede vi selv telefonnumrene eller skrev dem ned i en lille bog ved siden af telefonen. Nu klarer vi os fint uden at kunne huske et eneste nummer. Min holdning er, at hvis det kan hjælpe os, så hvorfor ikke bruge det? Teknologien er god nok, men vi mangler gode og tidssvarende sprogdata for at kunne udnytte den fuldt ud, og det kræver en politisk og strategisk satsning på området,” siger Stefan Pal.

Han peger her på, at det er et problem, at maskinerne endnu ikke forstår mening, men er baseret på grammatik og syntaks.

Stefan Pal Datalingvist og COO i Wizkids, sprogteknologisk virksomhed, der udvikler platforme, systemintegration, sprog- og taleteknologi til blandt andet undervisning, læse- og skrivestøtte Foto: Camilla Utke Schiøler

“Hvis du skal bruge en maskine som personlig assistent, skal den selv kunne udlede, at snaps i den kontekst er slang for snapchat”

”Jeg så for nylig et eksempel, hvor der i en tekst stod, at personen havde fået fire snaps. Det virkede underligt, for det var en meget ung person. Det viste sig, at det var snapchats, og hvis du skal bruge en maskine som personlig assistent, skal den selv kunne udlede, at snaps i den kontekst er slang for snapchat. Maskinen skal være i stand til at fange for eksempel ironi og sarkasme, og det kræver, at den kan lave sentimentanalyser og forstå meningen med det, du skriver. Vi er der ikke endnu, men det kommer,” siger Stefan Pal.

Sproget skal have lov til at ændre sig
Hvis du kan tale til maskinen og få færdig tekst i hånden, kunne man spørge, om der går noget af den sproglige dannelse tabt, hvis vi bruger skriftsproget mindre? ”Sproget er vitalt, og sprog er kultur. Hvis man fjerner sproget, dør kulturen, og derfor er det vigtigt, at vi gør noget for at pleje det danske sprog, så vi ikke ender med at tale engelsk om 10–15 år. Men om vi har brug for et skriftsprog, er jeg ikke sikker på. Det er måske en kontroversiel holdning, men vi kan tale, og det gør de fleste godt. Modsat har mange svært ved at formulere sig og er udfordrede, når de skal overføre en mening til skrift, også selvom de har et fint mundtligt sprog. Og der er langt fra tale til skrift. Hvis vi lykkes med at få skabt dansk sprogteknologi i en ordentlig kvalitet, så kan jeg ikke se nogen grund til ikke at bruge den. Men det kræver en indsats politisk, så området bliver prioriteret. Apple, Facebook og Google støvsuger markedet for alle de gode folk, og vi er ikke nok i Danmark til at drive udviklingen. Derfor skal vi have genetableret nogle af de uddannelser, der er lukket, så vi kan få sprogteknologer, datalingvister og andre nødvendige kompetencer på banen,” siger Stefan Pal.

Artiklen er oprindelig trykt i KOM magasinet nummer 105, august 2017.

Tema / Dansk

Tekst / Kenneth Grothe Toustrup

Foto / Camilla Utke Schiøler

Udgivet / August 2017

Back To Top
Search