Fra venstre: Postdoktor Vladislav Mikhailov, førsteamanuensis Andrei Kutuzov, PhD-stipendiat David Samuel og professor Erik Velldal, alle fra forskningsgruppen for språkteknologi på Institutt for informatikk ved UiO.

Foto: Gina Aakre

Store skritt mot norsk svar på ChatGPT

Flere nye norske språkmodeller er allerede lansert.

Gina Akre Redaktør Titan.uio.no

Publisert 12.03.2024 - 00:00

Om artikkelen

Logistikk Inside retter en stor takk til Gina Akre, redaktør i Titan.UiO.no. Denne artikkelen ble først publisert på forskningsnettstedet Titan.uio.no, som hører til Universitetet i Oslo. Den er skrevet av nettstedets redaktør Gina Akre og republiseres i Logistikk Inside etter tillatelse. Du kan lese originalversjonen her.

– Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer, sier professor Erik Velldal.

Erik Velldal, professor ved Institutt for informatikk ved UiO..

Før jul skjedde det noe helt avgjørende for å få fortgang i det norske motsvaret til ChatGPT som utvikles av forskningsgruppen for språkteknologi ved Universitetet i Oslo.

De fikk tildelt regnetid på Europas kraftigste datamaskin, LUMI i Finland. Dermed kunne de trene store språkmodeller på norske data. I løpet av et par uker ble nok data prosessert til at forskerne kunne lansere tre norske språkmodeller.

Fakta:

Tre nye norske språkmodeller er lansert, basert på de GPT-liknende arkitekturene BLOOM og Mistral, alle med «open source»-lisens

De er utviklet av forskningsmiljø ved UiO i samarbeid med Sigma2 og Nasjonalbiblioteket. Sammen med andre aktører i det nasjonale AI-nettverket NORA planlegger partnerne en nasjonal infrastruktur for utvikling og bruk av store norske språkmodeller.

To av modellene er trent fra bunnen av på norsk.

Den tredje tar utgangspunkt i en modell forhåndstrent for Engelsk av det franske selskapet Mistral AI, som så har blitt trent videre for norsk.

Modellene er tilgjengelige på https://huggingface.co/norallm

– Trening av store språkmodeller krever veldig mye regnekapasitet fra det vi kaller GPUer, mikroprosessorer. Dersom man dobler antallet GPUer involvert så vil det grovt sagt gå dobbelt så fort å gjennomføre treningen. Fordelen med LUMI er at det er svært mange GPUer til rådighet, over 10.000, sier sier spesialrådgiver Hans A. Eide i Sigma2. Et non-profit-selskap med ansvar for den nasjonale e-infrastrukturen for forskning.

– Nasjonalbiblioteket og Universitetet i Oslo har tilgjengeliggjort flere norske språkmodeller tidligere, men dette er de største vi har laget så langt og de er trent på over 30 milliarder ord, forklarer Velldal.

Alle modellene har rundt syv milliarder parametre, noe som forskerne vurderer som optimalt i forhold til mengden norske treningsdata som er tilgjengelig.

– En språkmodell blir dårlig om den trenes på for lite materiale i forhold til størrelsen. Det handler om å finne rett balanse, sier Velldal.

Et triks som har vist seg effektivt dersom man har nok prosessorkraft er å trene på de samme dataene i flere runder. Modellene UiO har trent på LUMI har blitt matet med de samme treningsdataene seks ganger, forklarer Velldal.

– Norge må ha teknologisk selvråderett

Språkteknologigruppen tilknyttet UiO mener det er viktig å ha norske motsvar til OpenAIs ChatGPT og Googles LaMDA. Norsk utgjør bare en promille av språkmengden ChatGPT er trent på. Det er heller ikke fullt ut kunngjort hvilke data modellen er trent på. Det er problematisk på flere måter, mener Velldal.

– Microsoft og OpenAI lar norske brukere få tilgang til modellen i et nettgrensesnitt. Modellen bak er lukket. – I mange sammenhenger kan det også være problematisk å sende fra seg data til en kommersiell tredjepart. Dersom man for eksempel jobber med sensitive helsedata er det viktig å kunne kontrollere hvor og hvordan dataene behandles. Da er det essensielt å ha tilgang på åpne og frie modeller som utviklere kan kjøre på sine egen maskiner.

Flere store norske statlige aktører har likevel kastet seg på og kjøpt tilgang til OpenAIs ChatGPT.

– Det er viktig å sørge for at åpne norsk-utviklete modeller blir tilgjengelige som et alternativ, og kanskje spesielt for offentlig sektor, påpeker Velldal.

Erik Velldal er professor ved Institutt for informatikk.

Osloskolen er blant de siste som har kunngjort at de vil bruke den amerikanske tjenesten. Det på tross av at det er flere uavklarte spørsmål rundt rettigheter og opphavsbeskyttet materiale i modellene. UiOs forskere jobber også med Nasjonalbiblioteket i et prosjekt der de skal sammenligne språkmodeller som er utviklet på fritt tilgjengelig materiale og opphavsbeskyttet materiale. På sikt vil dette kanskje kunne gi retningslinjer for en fremtidig kompensasjonsordning for bruk av opphavsrettslig materiale i språkmodeller.

Språkmodellene fremhever stereoptyper

Det er flere viktige grunner til at vi trenger norske språkmodeller ifølge førsteamanuensis Andrey Kutuzov ved UiO. ChatGPT er i veldig liten grad tilpasset kunnskaps- og verdigrunnlaget i Norge, påpeker han.

– Tekgigantenes språkmodeller er i all vesentlighet trent på engelsk og amerikansk språk. De gjenspeiler dermed også et amerikansk verdisett og kultur. Et eksempel kan være at de amerikanske språkmodellene samsvarer i større grad med kjønnsmessig fordeling av yrker som er mer stereotypisk enn tilfellet er i Norge, sier Kutuzov.

I tillegg ser man ofte at engelske uttrykksmåter smitter over i den norske ordlyden.

– En norsk språkmodell vil i mye større grad reflektere samfunnet slik vi kjenner det i Norge, sier Kutuzov.

Må trenes på å løse oppgaver

De norske språkmodellene er lansert og er allerede lastet ned av flere tusen brukere. Modellene er i første omgang myntet på forskere og utviklere. Kutuzov forklarer at de norske versjonene ikke er lansert i nettgrensesnitt som er enkelt å bruke for mannen i gata. Han innrømmer at de fremdeles er langt unna å kunne tilby de mulighetene som de kommersielle språkmodellene gir. Modellene er i større grad trent for å være generelle basismodeller.

– En språkmodell trenes i flere steg. Disse norske modellene har fått grunntreningen som betyr at de klarer å forutsi hvilket ord som er det neste i en tekst.

For at de norske modellene skal komme opp på samme nivå som ChatGPT eller lignende modeller må de ha mer såkalt instruksjonstrening. Dermed vil de i større grad bli i stand til å løse ulike oppgaver. Dette arbeidet er allerede i gang ved UiO, og nye oppdaterte versjoner av språkmodellene vil lanseres fortløpende.

Selv om kappløpet med de amerikanske modellene fremstår som tøft, påpeker forskerne at norske språkmodeller må utvikles videre.

– Det er et viktig prinsipp at vi lager modeller som er fri for restriksjoner. Vi må ha slike modeller som er basert på åpent tilgjengelige ressurser og som er transparente for forskningsmiljø og næringsliv. Store språkmodeller vil i økende grad fungere som grunnleggende infrastruktur for å løse ulike oppgaver innen forskning, næringsliv, forvaltning, og samfunnet ellers, sier Velldal.

Store skritt mot norsk svar på ChatGPT

Flere nye norske språkmodeller er allerede lansert.

Om artikkelen

Fakta:

– Norge må ha teknologisk selvråderett

Språkmodellene fremhever stereoptyper

Må trenes på å løse oppgaver

Uke 13: Så mye koster det å frakte en 20-fots container fra Shanghai til Nord-Europa

Kraftig omstrukturering i PostNord i Norge – 450 berøres

Tallenes tale 2024: Høgstad Transport AS

Tallenes tale 2024: H. Hannevold Transport

Tallenes tale 2024: Grenland Rail

Tallenes tale 2024: Flytanking AS

Scania fortsetter å dominere

Nytt om navn

Tollkonsult legges ned – Astad til KPMG Law

Fusjonert inn i Ringstad Transport

Ny daglig leder i Sped Trans og BK Logistics

Her er den nye toppsjefen i Volmax

Han blir ny toppsjef i PostNord Norge

Navneskiftet i boks for Aditro

Ny toppsjef for lastebiler hos Hedin

Tar over etter Hannestad i Ahlsell

Dag Nordvik skal forme fremtidens veitransport

Eriksen ferdig som Bane NOR-sjef

Skredsikringen tar flere dager

A. Pedersen & Sønn kastes ut av OPS-prosjekt

EU trekker i nødbremsen: Bærekraftsregler satt på pause

Rederiforbundet etterlyser EU-boost

DSV styrker grepet om pharma i Vestby

Vekstgrep i Storbritannia for NTG

Quantron "gjenoppstår fra de døde"

Rekrutteringskrise: Færre søker seg til yrkessjåføryrket

Sterk økning i konkurser innen varehandel

Frejus åpnet etter 19 måneder – klarer jernbanen å lokke godset tilbake?

40 år med FREJA

Se hvor mye den globale containerflåten har økt i første kvartal

Se hvor mye den globale containerflåten har økt i første kvartal

Satser tungt på HVO100

Strid om Panama-havner tilspisser seg

Derfor innfører Trump toll - og derfor vil planen mislykkes

480 millioner for norsk logistikkbygg

Ny DHL-deal styrker forsyning til medisinsk sektor

Hydrogensatsing til Rjukan innen 2027

Enige om 4,4 prosent – unngår streik

Åpner døren for oppstartsbedrifter også i år

Trump and friends - benåder Nikola grunnleggeren etter valgkampstøtte

E6 er stengt etter steinskred

Jernbane kan bli NATOs akilleshæl

DNV: - Norske virksomheter er "åpne som låvedører"

Sentraldistribusjon binder seg til Alna i fem nye år

Nå skal dronene løfte logistikken

M3Cargo landet gigantkontrakt med SalMar

Starter bygging av ny terminal i vest

Tallenes tale 2024: LBF Transport SA

- Mye usikkerhet i containermarkedet

Mistenker at brannen på Otta startet i en traktor