En udstrakt hånd til offentlige institutioner med behov for oversættelse
Der er stadig store udfordringer med at få automatisk oversættelse til og fra dansk til at fungere tilstrækkelig godt. et EU-projekt sætter nu fokus på hvordan danske ministerier, styrelser, regioner, kommuner og andre offentlige institutioner kan drage nytte af eu’s automatiske oversættelsestjeneste eTranslation.
Dansk Sprognævn var i oktober vært for den anden workshop i projektet European Language Ressource Coordination (ELRC). Her blev der sat fokus på hvordan danske ministerier, styrelser, regioner, kommuner og andre offentlige institutioner kan drage nytte af EU’s automatiske oversættelsestjeneste eTranslation. eTranslation skal danne den sproglige rygrad i det digitale indre marked og stilles allerede nu gratis til rådighed for medarbejdere i offentlige institutioner i hele Europa.
Det lyder jo meget godt – men der er store udfordringer i at få systemet til at fungere godt for dansk. Ikke fordi dansk er specielt svært at oversætte, men fordi danske offentlige institutioner tilsyneladende ikke er særligt opmærksomme på at de oversatte tekster har en langt større værdi end blot som dokumenter der cirkuleres eller lægges på hjemmesider. De er nemlig også uvurderlige sprogresurser, der for eksempel kan bruges til at bygge automatiske oversættelsessystemer.
Offentlige institutioner i Europa har behov for at kommunikere indbyrdes og med borgere på tværs af landegrænserne. Denne kommunikation vanskeliggøres ofte af sprogbarrierer der er opstået på grund af de mange sprog i Europa. EU-Kommissionen støtter de offentlige institutioner og borgerne med deres kommunikationsopgaver gennem at bygge eTranslation-systemet under programmet Connecting Europe-facility (CEF).
CEF leverer de grundlæggende digitale tjenester der er afgørende for realiseringen af EU’s digitale indre marked. Adgang til en sammenhængende offentlig sektor i hele Europa kan have en væsentlig indvirkning på Europas offentlige service og på virksomhedernes og borgernes hverdag.
Nye metoder
eTranslation-systemet skal for eksempel hjælpe når man som dansker ønsker at klage over en vare som man har købt over nettet i Italien eller Frankrig. Man går ind på Forbruger Europas hjemmeside og indtaster sin klage på dansk. Derefter bliver klagen automatisk oversat til italiensk og sendt til de italienske myndigheder – i hvert fald i princippet, for der er stadig store udfordringer med at få automatisk oversættelse til og fra dansk til at fungere tilstrækkelig godt. Det hænger sammen med hvordan moderne maskinoversættelsessystemer virker i dag.
Tidligere tiders automatiske oversættelsessystemer fungerede ved at de blev fodret med grammatiske regler og ordbøger – en meget omfattende og tidkrævende fremgangsmåde som i dag de fleste steder er afløst af nye statistiske og neurale metoder. De fungerer ved at man ud fra en stor mængde oversatte tekster danner en sprogmodel som statistisk beregner sandsynligheden for at et ord på kildesproget skal oversættes til et tilsvarende ord på målsproget i en given kontekst. Det er for eksempel sådan Googles oversættelsessystem fungerer i dag.
Med den statistiske fremgangsmåde kan man langt hurtigere opbygge et automatisk oversættelsessystem. Det kræver egentlig bare at man har tilstrækkeligt meget oversat tekst til rådighed, og helst i en god kvalitet. Hvis man træner systemet på dårlige oversættelser med ikke tilstrækkeligt gennemarbejdet terminologi, så bliver fremtidige oversættelser også derefter. Det er for eksempel et problem Googles oversættelsessystem slås med, da Google typisk finder de oversatte tekster på nettet.
EU’s eTranslation-system er trænet på EU-tekster som er oversat og kvalitetssikret af blandt andet de danske oversættere i EU’s sprogtjenester. De har en stor interesse i at fastholde en høj kvalitet da de selv bruger og forbedrer systemet hver eneste dag. Så oversættelseskvaliteten i EU’s system er typisk meget høj.
Der er imidlertid den begrænsning ved den statistiske metode at systemet kun kender det ordforråd og de faste udtryk og vendinger som er karakteristiske for de teksttyper og emner som det er blevet trænet på. Hvis systemet er blevet fodret med en overvægt af tekster om olieforurening, risikerer man overraskende resultater hvis der skal oversættes tekster om madlavning eller olivenolieproduktion. Systemet skal altså trænes på tværs af fagområder og teksttyper for at være robust og generelt anvendeligt. De bedste resultater opnås imidlertid hvis man træner og oversætter tekster inden for det samme fagområde.
I dag leverer EU’s eTranslation-system oversættelse af høj kvalitet når det gælder EU-tekster. Men når systemet skal bredes ud til for eksempel danske offentlige institutioner, eller når det skal oversætte en klage over en vare, er der brug for oversatte tekster fra de fagområder som vi beskæftiger os med herhjemme.
Derfor lancerede Europa-Kommissionen i april 2015 ELRC-initiativet. Formålet er at identificere og samle relevante sprog- og oversættelsesdata fra nationale offentlige tjenester, administrationer og statsinstitutioner i alle de 30 europæiske lande som deltager i CEF-programmet.
Der var stor interesse for den første workshop i København, og efterfølgende blev der indsamlet en række tekster fra institutioner som gerne ville bidrage til projektet. Men siden har det vist sig vanskeligere end forventet at opspore de offentlige institutioner som gør brug af oversættelse, og at få dem til at dele deres data med EU.
Faktisk ser det ud til at der ikke oversættes særlig meget i den offentlige sektor i Danmark sammenlignet med andre europæiske lande. De færreste institutioner har interne oversættelsesenheder. Det ser ud til at mange klarer sig ved at bruge engelsk og ved at udlicitere de få tilbageværende oversættelsesopgaver til private oversættere eller oversættelsesbureauer.
De private udbydere af oversættelse benytter sig stort set alle af oversættelseshukommelsessystemer, en slags databaser der gemmer oversatte sætninger parvis, og som er i stand til at fremfinde sætninger som ligner den man er ved at oversætte, så man kan genbruge det oversatte materiale. Den slags databaser udgør et glimrende træningsmateriale for EU’s oversættelsessystem.
Typisk forbliver oversættelseshukommelserne liggende i oversætterens database når oversættelsen er afleveret til den myndighed der har rekvireret den. Og så kan den genanvendes til en ny opgave for den samme eller en anden myndighed. Og det er jo helt fint og effektivt. Men der ligger også en del farer i den fremgangsmåde. Hvad sker der for eksempel hvis myndigheden ønsker at skifte oversætter? Eller beslutter at opbygge sin egen oversættelsesafdeling? Og hvem har egentlig retten til det oversatte materiale?
Hvordan får vi glæde af det?
Hvordan får man fat i oversat materiale så man kan tage imod EU’s generøse tilbud og få glæde af det også for dansk? Og hvordan udvikler man i den sammenhæng et frugtbart samspil mellem offentlige og private aktører? Lige nu er der for eksempel ikke adgang for alle til EU’s systemer. Og det er der gode GDPR-grunde til.
Alle de dataresurcer der indsamles i ELRC-initiativet, gives udelukkende til EU-Kommissionen til brug i CEF eTranslation-platformen. EU sørger for at lovgivningen for persondatabeskyttelse overholdes, og dermed kan myndigheder også oversætte tekster som indeholder følsomme data. Det kan de ikke med de åbne oversættelsestjenester som Google på nettet.
ELRC-workshoppen søgte således at belyse relevante nationale strategier og tiltag inden for digital forvaltning, flersprogethed og åbne data der kan hjælpe Danmark med at maksimere virkningen af EU’s initiativer.
I dialog med eksperter fra Europa-Kommissionen, embedsmænd fra den danske offentlige sektor, sprogteknologer og udbydere af sprogtjenester vil vi gerne dele erfaringer og kortlægge behovet for oversættelse i en moderne flersproget offentlig administration.
Sidst men ikke mindst ønsker vi i fællesskab at identificere relevante kilder til flersprogede sprogresurcer der kan bidrage til at tilpasse CEF eTranslation til de behov vi finder i den digitale forvaltning, og at vi kan behandle de tekniske og juridiske spørgsmål vedrørende brugen af data til automatiseret oversættelse der måtte opstå.
Vi modtager gerne henvendelser fra institutioner og organisationer der har interesse i at høre mere eller, som gerne vil dele deres flersprogede resurser. ●