Kan software lære dansk?

Efter et årti, hvor sprogteknologi var dømt ude i kulden, blæser der igen varme vinde ind over udviklingen af software. Det skal blandt andet levere velfungerende skrift til talegenkendelse på dansk. Kommagasinet har talt med en dansk forsker og en hollandsk softwareudvikler for at finde ud af, hvor vi står, og hvad fremtiden bringer.

Tekst / Kasper Foged
Foto / Camilla Utke Schiøler
Udgivet / April 2021

Talegenkendelse Tema: Dansk sprog - april 2021

“Det er et spændende tidspunkt, du ringer på!” Ordene kommer fra Peter Juel Henrichsen, der er seniorforsker ved Dansk Sprognævn og forsker i teknologiske anvendelser af Retskrivningsordbogen, kunstig intelligens og dialogsystemer.

Og der er en god grund til, at Peter Juel Henrichsen er spændt for tiden. I disse dage beslutter Digitaliseringsstyrelsen nemlig, hvilke projekter de skal gå videre med, og hermed hvem der får del i de millioner af kroner, som politikerne har afsat til at fremme forskningen i kunstig intelligens – forskning, der skal bringe Danmark helt i front. Og blandt andre har Dansk Sprognævn stået på sidelinjen og fået presset en søjle ind, der specifikt skal se på det sproglige aspekt – det er der afsat 40 millioner kroner til.

”Vi blev tidligt i forløbet i 2017 bedt om at kigge på, hvordan det så ud med dansk sprogteknologi. Det blev til en rapport, der kom med en række forslag til, hvor staten bedst kunne gå ind og stimulere nogle bestemte initiativer. Hvilke ting der mangler og bevirker, at dansk sprogteknologi ikke er, hvad den kunne være,” siger Peter Juel Henrichsen.

Kapløbet mod engelsk er i gang

Men sådan har det ikke altid været. I 1990’erne og op til 2000 var der teknologi på markedet, der dog hurtigt viste sin begrænsning – vel at mærke efter, at blandt andet en lang række kommuner havde investeret millioner af kroner i ubrugelig software. Så fra cirka 2000 til 2010 var sprogteknologi nærmest landsforvist, og ingen ville røre det med selv den mest velpolstrede grillhandske.

Men de seneste ti år er udviklingen gået stærk, og det er igen blevet et politisk prioritetsområde.

Vi befinder os nemlig i en brydningstid, hvor vi danskere bliver dygtigere og dygtigere til engelsk og mere og mere tilbøjelige til at bruge det. Og blandt andet talerobotter som Apples Siri fylder mere og mere i danskernes hverdag.

Der er i det hele taget mange, hvis det da ikke ligefrem er alle, teknologier, der for øjeblikket fungerer bedre på engelsk end på dansk, og det skal vi gøre noget ved nu

Peter Juel Henrichsen

”Hvis værktøjerne går hen og bliver meget bedre til engelsk, så betyder det, at dansk kan gå hen og lide det, man kalder et domænetab.

aleassistenter fungerer for eksempel meget bedre på engelsk end på dansk. Der er i det hele taget mange, hvis det da ikke ligefrem er alle, teknologier, der for øjeblikket fungerer bedre på engelsk end på dansk, og det skal vi gøre noget ved nu,” siger Peter Juel Henrichsen.

Talegenkendelse, hvor et program for eksempel kan genkende tale og transformere den til skrift, er bare en specifik sprogteknologi. Og lige det må være forholdsvis nemt at få op at køre, tænker mange sikkert, men det er her, problemet ifølge Peter Juel Henrichsen ligger og skjuler sig.

Ifølge ham mangler der afgørende ressourcer, hvis sådan nogle teknologier skal komme til at fungere på dansk. Det store problem er ikke, at der mangler danske virksomheder, der har lyst til at udvikle. For vi har masser af it-kompetencer i Danmark og masser af slutbrugere, ikke mindst i den offentlige sektor – hospitaler, kommuner, Folketinget og medier.

”Alle står klar til at tage det i brug, når det findes. Men man mangler det frit tilgængelige sprogkorpus, og det er meget dyrt at fremstille.

erfor kan det typiske danske firma ikke komme i gang med at udvikle programmer. Du skal bruge mellem 300 og 500 timers tale, og det koster millioner af kroner at lave, hvis det skal kunne bruges. De få firmaer, der har været i gang med det, er efterfølgende ikke tilbøjelige til at dele det med andre. Målet er at lave et offentligt tilgængeligt korpus, men det skal gøres af parter uden direkte kommercielle interesser, ellers bliver det lynhurtigt til, at det kun er en aftager, der kan bruge det. Så bliver det kun på overfladen, at det bliver open source,” forklarer Peter Juel Henrichsen

Et af de store problemer, når du arbejder med talegenkendelse, er det danske sprog, som har nogle mekanismer indbygget i sig, der gør det sværere at arbejde med end mange andre sprog

Peter Juel Henrichsen

Dansk er noget nær umuligt

Et af de store problemer, når du arbejder med talegenkendelse, er det danske sprog, som har nogle mekanismer indbygget i sig, der gør det sværere at arbejde med end mange andre sprog.

”Dansk er et relativt besværligt sprog til taleteknologi – modsat sprog som svensk, norsk og især finsk og spansk,” forklarer Peter Juel Henrichsen.

Det skyldes ikke at ordforrådet er større, eller at grammatikken er sværere end på de andre sprog, men at lydene er meget komplicerede, når en dansker åbner munden.

”Der er to forhold i det danske sprog, som gør det svært at arbejde med. Det ene er, at vi reducerer meget voldsomt. Hvis du tager en simpel sætning som: ’Det er jo let nok at læse’, så vil de fleste danskere reducere de tre første ord til en stavelse, når de taler. Så bliver det til: ’Dew let nok at læse’. Dansk er på den måde fuld af ting, der ikke er der – sammentrækninger og endelser, der forsvinder. Der er ofte meget langt fra skriftsprog til talesprog. Reduktionerne betyder også, at vi i Danmark har et meget højt taletempo. Vi når at realisere op til ti stavelser i sekundet. På svensk og norsk er det op til seks-syv stavelser. Det går over stok og sten, når danskere taler frit. Det er en af grundene til, at det er meget svært, hvis du skal lave teknologi til talegenkendelse,” fortæller Peter Juel Henrichsen .

Peter Juel Henrichsen

Jeg har arbejdet på CBS og nu i Sprognævnet i mange år, og hele vejen igennem har jeg og mine kolleger talt om, at der burde ske noget som det, der er ved at ske nu. For alle os er det næsten en ekstase, at der endelig sker noget efter 15-20 år med stilstand. Hvis vi gør det ordenligt, så er vi nået meget langt om tre år

Men som om det ikke er nok, så har dansk også flere vokallyde end langt de fleste andre sprog i verden.

”Engelsk har 12-14 vokaler. Norsk og svensk har i underkanten af 20. På dansk er der næsten 40 vokallyde i sproget. Så det, at vi reducerer voldsomt kombineret med, at vi har meget tætliggende vokaler, gør det meget svært at lave programmer, der kan transformere tale til skrift,” forklarer Peter Juel Henrichsen.

Det forklarer også, hvorfor det er dyrt at lave et omfattende talekorpus på dansk, der er godt nok til, at du kan træne en talegenkender op til et niveau, der gør den brugbar i alle situationer. Det, kombineret med at sprogområdet er så lille, forklarer, hvorfor vi er kommet så langsomt i gang.

Dansk set udefra

I Holland sidder Peter-Paul de Leeuw. Han er stifter og CEO i virksomheden Amberscript, der specialiserer sig i sprogteknologi, og som er en forholdsvis ny spiller på det danske marked. Amberscript er ikke en af de virksomheder, der prøver at foregive, at deres produkt er perfekt og fejlfrit. Peter-Paul de Leeuw er udmærket klar over, at det danske sprog repræsenterer en udfordring.

Jeg tænker, at Danmark er fire-fem år bagefter i forhold til det, man kan med engelsk

Peter-Paul de Leeuw

”Jeg tænker, at Danmark er fire-fem år bagefter i forhold til det, man kan med engelsk. Og jeg vil tro, at vores produkter, der er målrettet det danske marked, klarer sig 15 % dårligere end dem til engelsk. Men det kommer naturligvis an på situationen,” siger Peter-Paul de Leeuw.

Han pointerer de samme problematikker ved dansk som Peter Juel Henrichsen, når det kommer til den store forskel på det skrevne og det talte sprog.

”Jo mere lighed der er, mellem hvordan et sprog tales, og hvordan det skrives, jo nemmere er det for et program at genkende det. Sprog som fransk og dansk er vanvittigt svære, når det gælder talegenkendelse,” siger Peter-Paul de Leeuw.

Ifølge Peter-Paul de Leeuw er det måske også naivt at tro, at tingene nogensinde bliver perfekte, men det er heller ikke målet i hans øjne.

”Kunstig intelligens vil jeg hellere kalde assisterende intelligens. Det bliver efter min opfattelse aldrig noget, der helt kan erstatte de opgaver, et menneske kan udføre. Det er en tilføjelse, der kan optimere produktiviteten, men ikke en erstatning. Den tekst, der kommer ud af talegenkendelse, bliver aldrig 100 % korrekt – der vil altid være fejl hist og her. Men målet er naturligvis at få fejlraten så langt ned som muligt,” siger han.

Amberscript råder ikke over et enormt datakorpus, som det, der i de kommende år skal bygges op i Danmark. Amberscript må lære hen ad vejen.

Peter-Paul de Leeuw

Den tekst, der kommer ud af talegenkendelse, bliver aldrig 100 % korrekt – der vil altid være fejl hist og her. Men målet er naturligvis at få fejlraten så langt ned som muligt

”Vores metode er, at hver gang folk redigerer deres tekster i vores redigeringsværktøj, så opsamler vi de data og bruger dem til at gøre programmerne bedre. Der er andre mindre seriøse virksomheder, der bare optager diverse tv-shows og bruger det som deres træningsværktøj. Når vi starter op i Danmark, så er der ingen tvivl om, at vi starter op med et produkt, der er dårligere end på de markeder, hvor vi har været længe. Vi har ikke været på det danske marked så længe endnu, men forbedrer hele tiden vores produkter. Jo flere brugere vi har, jo flere data kan vi få ind, og jo bedre bliver produktet, hvilket giver os flere brugere, som kan give os endnu flere data, så produktet bliver bedre. Det er en snebold, der samler flere og flere data. Som i alle andre forhold, så bliver du ikke rigtig god, før du har trænet rigtig meget,” forklarer Peter-Paul de Leeuw og fortsætter:

”Hvis der tales meget tydeligt, og der ikke er nogen baggrundsstøj, kan du allerede opnå cirka 70 % korrekthed med vores produkt. Hvis du skal kunne bruge det i en mere besværlig situation med utydelig tale og baggrundsstøj, så skal vi nok 10 år frem, hvis vi taler om, at det skal være på dansk.”

Som i alle andre forhold, så bliver du ikke rigtig god, før du har trænet rigtig meget

Peter-Paul de Leeuw

Hvad nu?

Tilbage hos Dansk Sprognævn er Peter Juel Henrichsen mere optimistisk på danskernes vegne. Ifølge ham vil det tage omkring 18 måneder at bygge et korpus af data op. Så hans bedste bud er, at vi vil se en underskov af mindre virksomheder, som kan få råd til at udvikle software indenfor et par år.

”Hvis det skal fungere, skal vi have mange seriøse udbydere, der specialiserer sig indenfor forskellige områder – som henvender sig specifikt til udvalgte målgrupper, såsom læger, advokater, politiet og så videre. Du er dømt til at fejle, hvis du vil favne alt på en gang,” siger Peter Juel Henrichsen og fortsætter:

”Jeg har arbejdet på CBS og nu i Sprognævnet i mange år, og hele vejen igennem har jeg og mine kolleger talt om, at der burde ske noget som det, der er ved at ske nu. For alle os er det næsten en ekstase, at der endelig sker noget efter 15-20 år med stilstand. Hvis vi gør det ordenligt, så er vi nået meget langt om tre år. Men det skal gøres med åbne øjne, for der er enormt mange kommercielle interesser på spil,” slutter han. ●