OpenAI har rystet AI-landskapet ved å lansere to avanserte modeller som hvem som helst kan kjøre lokalt. Selskapet, som er kjent for sine lukkede GPT-modeller, tilbyr nå gpt-oss-20b og gpt-oss-120b som gratis nedlastbare modeller med sterke evner innen resonnering.

Den mindre modellen, gpt-oss-20b, fungerer på moderne forbrukerutstyr. Den større, gpt-oss-120b, krever et kraftig datasenter-GPU med 80 GB VRAM. Begge modellene er laget for høy ytelse i lokale miljøer og markerer et tydelig brudd med OpenAIs tidligere lukkede praksis.

Tilbake i det åpne landskapet

Dette er OpenAIs første åpne vektmodell siden GPT-2 ble lansert i 2019. Siden den gang har GPT-3 og GPT-4 kun vært tilgjengelig via API. I mellomtiden har aktører som Meta, Mistral, DeepSeek og Qwen tatt ledelsen innen åpne modeller.

OpenAIs plutselige retur til det åpne markerer et strategisk skifte. Selskapet posisjonerer seg nå blant hovedaktørene i den åpne AI-bevegelsen.

Ytelse og funksjonalitet

OpenAI hevder at de nye modellene overgår andre åpne modeller i tilsvarende størrelse på tester innen resonnering. De støtter også verktøybruk, få-eksempler-funksjonskall og kjede-tenkning. Modellene viser ifølge selskapet sterke resultater innen STEM, programmering og medisinske oppgaver.

Begge modellene bruker en “mixture-of-experts”-struktur, som reduserer antall aktive parametere per token. gpt-oss-20b aktiverer 3,6 milliarder parametere per token, mens gpt-oss-120b aktiverer 5,1 milliarder. Denne arkitekturen forbedrer effektiviteten uten å gå på bekostning av resonneringsevne.

Maskinvare og effektivitet

For å redusere minnebehovet bruker modellene MXFP4-kvantisering. Det innebærer at hver parameter lagres med 4,25 bits. Selv om det senker presisjonen noe, gir det raskere prosessering og lavere modellstørrelse.

gpt-oss-20b er 14 GB stor og kan passe i RAM på en bærbar PC, selv om mer minne kreves for kontekstvinduet. gpt-oss-120b er 65 GB og krever maskinvare på bedriftsnivå.

Sikkerhet og datagrunnlag

OpenAI la vekt på sikkerhet under treningen. Datasettene ble filtrert for å fjerne skadelig innhold, særlig knyttet til kjemiske og radiologiske farer. Modellene er trent til å avvise farlige forespørsler og motstå prompt-injeksjoner.

Treningen ble i hovedsak gjennomført på engelsk, med fokus på STEM, koding og generell kunnskap.

Tilgjengelighet for brukerne

Begge modellene er allerede tilgjengelige via plattformer som Ollama og AWS. OpenAI sier målet er å gjøre kraftige AI-verktøy tilgjengelig for flest mulig. Tilnærmingen støtter selskapets mål om å balansere tilgjengelighet med sikkerhet.

Konklusjon

Lanseringen av OpenAIs åpne vektmodeller markerer et viktig vendepunkt for både selskapet og bransjen. Ved å tilby høyytelsesmodeller gratis stiller OpenAI seg bak den voksende open source-bevegelsen. Disse modellene kan forandre hvordan AI brukes lokalt – og gjøre avansert teknologi tilgjengelig for et globalt publikum.


0 svar til “OpenAIs åpne modeller utfordrer bransjestandardene”