CIOCTOCISOStyreAWSTrainiumInferentiaNeuronAI InfrastructureAI AgentsAgentic AIKodeagenterKiroClaudeAI FinOpsInferenceCloudEnterprise AILeverandørstyringRisikostyring

AWS lar agenter finjustere Trainium-kjerner

Joachim Høgby

12. juni 202612. juni 20265 min lesingKilde: AWS Machine Learning Blog

Del

LinkedIn X Facebook E-post WhatsApp Telegram

AWS tar agenttrenden ned i maskinvaren. Selskapet har lansert Neuron Agentic Development, en pakke med AI-agenter og ferdigheter som skal hjelpe utviklere å skrive, debugge og profilere kjerner for AWS Trainium og Inferentia.

Dette er smalt på overflaten, men viktig i praksis. De store AI-kostnadene ligger ikke bare i modellvalg og tokenpris. De ligger også i hvor effektivt virksomheter klarer å bruke brikkene de betaler for. Når modeller blir større og mer agentiske arbeidsflyter krever mer inferens, blir ytelse per krone et styrespørsmål.

AWS peker på et kjent problem i AI-infrastruktur: det er ofte stor avstand mellom hva maskinvaren teoretisk kan levere og hva team faktisk får ut av den. Custom kernel-utvikling har vært en måte å lukke gapet på, men krever spesialister som forstår arkitektur, minneflyt, profilering og optimalisering på lavt nivå. Den kompetansen finnes ikke i mange produktteam.

Neuron Agentic Development er AWS sitt forsøk på å gjøre denne kompetansen mer tilgjengelig. Pakken gir agentiske utviklingsverktøy for Neuron Kernel Interface, NKI. De første funksjonene retter seg mot coding agents i Kiro og Claude, og skal kunne brukes til å skrive, teste, debugge og profilere NKI-kjerner på Trainium- og Inferentia-baserte instanser.

AWS beskriver fem spesialiserte ferdigheter. Én skriver NKI-kode fra PyTorch, NumPy eller naturlige språkbeskrivelser. Én hjelper med debugging av kompilering og kjøring på Trainium og Inferentia. Én fanger profiler på ekte maskinvare. Én analyserer profiler med blant annet SQL-spørringer mot profilfiler. Den siste henter dokumentasjon, API-signaturer, feilkoder og arkitekturforklaringer.

Disse kan brukes enkeltvis, men AWS legger mest vekt på agentflyten. En toppagent, neuron-nki-agent, skal velge riktig arbeidsflyt basert på oppgaven. Den kan hente inn skrive-, debug-, dokumentasjons- og profileringsferdigheter etter behov. AWS beskriver også egne agenter for kjerneforfatting, debugging, dokumentasjon og profilanalyse.

Eksempelet i bloggposten er teknisk. En utvikler ber agenten skrive en NKI-kjerne for scaled softmax. Agenten lager en trepass-kjerne, forklarer valg av tiling og numerisk presisjon, kjører på Trainium, treffer en broadcast-feil, slår opp riktig mønster og endrer koden. Etterpå passerer fire tester mot PyTorch-referanse med små avvik innenfor bfloat16-toleranse.

AWS viser også profilering av en SwiGLU-kjerne, en vanlig komponent i store språkmodeller. Agenten fanger en profil på maskinvaren, beregner ytelsesgrenser, finner flaskehalser og peker på konkrete NKI-kodelinjer som gir ineffektive dataoverføringer. Det er den delen som betyr mest for virksomheter: agenten stopper ikke ved å skrive kode. Den prøver å koble kode, maskinvareprofil og kostnadsoptimalisering.

For norske CIO-er og CTO-er er signalet tydelig. AI-agentene flytter seg fra applikasjonslaget og nedover i stacken. Først skrev de tester, dokumentasjon og applikasjonskode. Nå brukes de til ytelsesarbeid på spesialiserte AI-brikker. Det gjør compute-strategi mer dynamisk, men også mer leverandørspesifikk.

AWS bygger dette tett rundt Trainium, Inferentia, Neuron SDK og EC2-instanser. Det kan gi bedre kost-ytelse for kunder som satser på AWS sin AI-maskinvare. Samtidig øker bindingen til AWS-verktøy, AWS-arkitektur og AWS sin modell for agentisk utvikling. Innkjøp av AI-kapasitet blir dermed ikke bare et spørsmål om GPU-pris. Det blir også et spørsmål om verktøykjede, kompetanse og portabilitet.

CISO-er bør også følge med. Agentene kan skrive og endre lavnivå kode som kjører nær maskinvaren. AWS sier at profiling og debugging krever kjøring på faktiske Trainium- eller Inferentia-instanser, mens skrive- og dokumentasjonsferdigheter kan brukes andre steder. Det betyr at tilgangsstyring, logging og kostnadskontroll rundt slike miljøer må være stram. En agent som optimaliserer feil, kan også bruke dyre instanser feil, lekke kontekst i verktøykjeden eller endre kode som få mennesker forstår godt.

Det mest interessante ligger i veien videre. AWS skriver at målet er en mer autonom løkke der agenter kan profilere, diagnostisere, endre og profilere på nytt til en kjerne treffer ytelsesmålene. Deretter vil selskapet ta samme agentiske tilnærming til større problemer: portering av modellkode, operatørhull, modellnivåoptimalisering og validering i skala.

Det er en ny front i AI-konkurransen. Modellene får mest oppmerksomhet, men infrastrukturen avgjør hvor dyrt det blir å bruke dem. Hvis AWS kan få flere utviklere til å hente ut mer fra Trainium, styrker det selskapets alternativ til NVIDIA-dominert kapasitet. Hvis ikke, forblir Trainium et spesialistvalg for team med tung infrastrukturkompetanse.

For ledergrupper er konklusjonen enkel: AI-kostnader kommer til å bli styrt i flere lag. Modellrouting, caching og tokenkontroll er bare starten. Neste runde handler om maskinvareutnyttelse, profileringsløp, agentstyrte optimaliseringer og hvor mye av dette man tør å legge i hendene på leverandørspesifikke agenter.

Kilder og medier

Primærkilde: AWS Machine Learning Blog, «Stop hand-tuning kernels: How Neuron Agentic Development accelerates AWS Trainium optimizations», 10. juni 2026. https://aws.amazon.com/blogs/machine-learning/stop-hand-tuning-kernels-how-neuron-agentic-development-accelerates-aws-trainium-optimizations/ Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

Breaking

CIOCISOAI-sikkerhet

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

NVIDIA, Microsoft og flere partnere starter Open Secure AI Alliance. Målet er åpne verktøy for AI-forsvar, sårbarhetshåndtering og respons på agentangrep.

27. juli 20264 min lesing

NVIDIA Blog

Åpne saken

AI-modellerAgenterOpenAI

OpenAI viser ChatGPT Work som agent for ekte arbeidsflyt

Sam Altman beskriver ChatGPT Work som en agent som bruker historikk, bygger en fullstack-side, koordinerer valg og klargjør Gmail-utkast fra én mobilprompt.

27. juli 20264 min lesing

Sam Altman / OpenAI

Åpne saken

CIOCISOAI-modeller

NVIDIA: Nemotron 3 Ultra slår åpne modeller i chipdesign-koding

NVIDIA hevder Nemotron 3 Ultra gir høyest treffsikkerhet og lavest tokenbruk blant åpne modeller i agentisk RTL-koding. Det peker rett mot flaskehalsen i chipdesign.

27. juli 20265 min lesing

NVIDIA Technical Blog

Åpne saken