Notebookcheck Logo

OpenAI släpper verktyg och API för utvecklare som vill bygga AI-agenter för företag

Utvecklare kan skapa kraftfulla AI-agenter med de nya verktygen och API:et från OpenAI. (Bildkälla: AI-genererad, Dall-E 3)
Utvecklare kan skapa kraftfulla AI-agenter med de nya verktygen och API:et från OpenAI. (Bildkälla: AI-genererad, Dall-E 3)
OpenAI:s nya Responses API och verktyg för att skapa agenter gör det möjligt för företag att snabbt skapa anpassade AI-agenter för att hantera komplexa kundförfrågningar, till exempel att identifiera de mest lämpliga produkterna för individuella behov.

OpenAI har presenterat nya mjukvaruverktyg för utvecklare av affärsapplikationer för att skapa AI-agenter som är anpassade för att hantera deras specifika kundbehov. Verktygen kombinerar flera funktioner i OpenAI:s AI-erbjudanden, vilket förenklar programmeringen av agenter.

AI-chattbottar som OpenAI:s ChatGPT har blivit populära eftersom de kan svara på frågor som människor ställer till dem. Dessa chatbots är dock begränsade till enkla frågor som inte kräver djupt tänkande och forskning, till exempel "Vad är höjden på Tokyo Tower?" Dessa chatbottar är i allmänhet beroende av den information som de tränats på och har begränsad förmåga att syntetisera svar.

Agentisk AI kan surfa på Internet efter information och använda datorn som en människa medan de undersöker en komplex fråga, till exempel "Skapa en resplan till Tokyo som inkluderar populära anime-butiker och webbplatser med en budget på 2 000 USD" Dessa AI-agenter kan göra djupa efterforskningar och sedan tänka igenom hur man löser komplexa frågor.

För att bygga dessa AI-agenter har OpenAI skapat Research API för att göra det möjligt för programmerare att skapa agenter med bara några rader kod. Det nya API:et är baserat på betaversionen av Assistants API, där feedback har använts för att förbättra användarvänligheten och hastigheten. Research API är en superset av det nuvarande Chat Completions API, som skapar textsvar från uppmaningar, och är företagets nya rekommenderade API att använda. Assistants API kommer att avvecklas 2026.

OpenAI har också släppt Agents SDK för att hjälpa utvecklare att skapa arbetsflöden med flera agenter där en specialiserad agent arbetar med andra för att hantera kundernas förfrågningar. En agent kan till exempel styra förfrågningar om produktreturer till en returagent och förfrågningar om shoppingidéer till en shoppingagent.

OpenAI:s AI-agenter kan för det mesta hitta den information som krävs för att besvara faktafrågor. (Bildkälla: OpenAI)
OpenAI:s AI-agenter kan för det mesta hitta den information som krävs för att besvara faktafrågor. (Bildkälla: OpenAI)
Även om OpenAI AI kan surfa på internet och använda en dator, är dess förmågor inte lika bra som en mänsklig assistent när det gäller att slutföra uppgifter. (Bildkälla: OpenAI)
Även om OpenAI AI kan surfa på internet och använda en dator, är dess förmågor inte lika bra som en mänsklig assistent när det gäller att slutföra uppgifter. (Bildkälla: OpenAI)

11 mars 2025

Produkt

Nya verktyg för att bygga agenter

Vi utvecklar vår plattform för att hjälpa utvecklare och företag att bygga användbara och tillförlitliga agenter.

Prova i Playground(öppnas i ett nytt fönster)

Ett snyggt, minimalt gränssnitt som visar en uppgiftslista för en AI-agent, inklusive "triage_agent", "guardrail" och "update_salesforce_record", över en flytande blå abstrakt bakgrund.

Idag släpper vi den första uppsättningen byggstenar som ska hjälpa utvecklare och företag att bygga användbara och tillförlitliga agenter. Vi ser agenter som system som självständigt utför uppgifter på uppdrag av användare. Under det senaste året har vi introducerat nya modellfunktioner - som avancerade resonemang, multimodala interaktioner och nya säkerhetstekniker - som har lagt grunden för att våra modeller ska kunna hantera de komplexa flerstegsuppgifter som krävs för att bygga agenter. Kunderna har dock berättat att det kan vara svårt att omvandla dessa funktioner till produktionsklara agenter, vilket ofta kräver omfattande iteration och anpassad orkestreringslogik utan tillräcklig synlighet eller inbyggt stöd.

För att ta itu med dessa utmaningar lanserar vi en ny uppsättning API:er och verktyg som är särskilt utformade för att förenkla utvecklingen av agentapplikationer:

Det nya Responses API(öppnas i ett nytt fönster), som kombinerar enkelheten i Chat Completions API med verktygsanvändningen i Assistants API för att bygga agenter

Inbyggda verktyg för bland annat webbsökning(öppnas i ett nytt fönster), filsökning(öppnas i ett nytt fönster) och datoranvändning(öppnas i ett nytt fönster)

Det nya Agents SDK (öppnas i ett nytt fönster) för att orkestrera arbetsflöden med en eller flera agenter

Integrerade observerbarhetsverktyg(öppnas i ett nytt fönster) för att spåra och inspektera agenternas arbetsflöden

Dessa nya verktyg effektiviserar agenternas logik, orkestrering och interaktioner, vilket gör det betydligt enklare för utvecklare att komma igång med att bygga agenter. Under de kommande veckorna och månaderna planerar vi att släppa ytterligare verktyg och funktioner för att ytterligare förenkla och påskynda byggandet av agentiska applikationer på vår plattform.

Vi introducerar API:et Responses

Responses API är vår nya API-primitiv för att utnyttja OpenAI:s inbyggda verktyg för att bygga agenter. Det kombinerar enkelheten i Chat Completions med verktygsanvändningsfunktionerna i Assistants API. I takt med att modellfunktionerna fortsätter att utvecklas tror vi att Responses API kommer att ge en mer flexibel grund för utvecklare som bygger agentapplikationer. Med ett enda Responses API-anrop kommer utvecklare att kunna lösa alltmer komplexa uppgifter med hjälp av flera verktyg och modellvändningar.

Till att börja med kommer Responses API att stödja nya inbyggda verktyg som webbsökning, filsökning och datoranvändning. Dessa verktyg är utformade för att arbeta tillsammans för att koppla modeller till den verkliga världen, vilket gör dem mer användbara för att slutföra uppgifter. Det medför också flera förbättringar av användbarheten, inklusive en enhetlig objektbaserad design, enklare polymorfism, intuitiva strömmande händelser och SDK-hjälpare som response.output_text för att enkelt komma åt modellens textutdata.

Responses API är utformat för utvecklare som enkelt vill kunna kombinera OpenAI-modeller och inbyggda verktyg i sina appar, utan att behöva integrera flera API:er eller externa leverantörer. API:et gör det också enklare att lagra data på OpenAI så att utvecklare kan utvärdera agentens prestanda med hjälp av funktioner som spårning och utvärderingar. Som en påminnelse tränar vi inte våra modeller på affärsdata som standard, inte ens när data lagras på OpenAI. API:et är tillgängligt för alla utvecklare från och med idag och debiteras inte separat - tokens och verktyg debiteras enligt standardpriser som anges på vår prissida (öppnas i ett nytt fönster). Kolla in Responses API snabbstartsguide(öppnas i ett nytt fönster) för att lära dig mer.

Vad detta innebär för befintliga API:er

Chat Completions API(öppnas i ett nytt fönster): Chat Completions är fortfarande vårt mest använda API, och vi är fast beslutna att stödja det med nya modeller och funktioner. Utvecklare som inte behöver inbyggda verktyg kan tryggt fortsätta använda Chat Completions. Vi kommer att fortsätta att släppa nya modeller till Chat Completions när deras funktioner inte är beroende av inbyggda verktyg eller flera modellanrop. Responses API är dock en superset(öppnas i ett nytt fönster) av Chat Completions med samma fantastiska prestanda, så för nya integrationer rekommenderar vi att du börjar med Responses API.

Assistants API(öppnas i ett nytt fönster): Baserat på feedback från utvecklare från betaversionen av Assistants API har vi införlivat viktiga förbättringar i Responses API, vilket gör det mer flexibelt, snabbare och enklare att använda. Vi arbetar för att uppnå full funktionsparitet mellan assistenterna och Responses API, inklusive stöd för assistentliknande och trådliknande objekt och kodtolkningsverktyget. När detta är klart planerar vi att formellt meddela att API:et Assistants tas ur bruk, med ett planerat slutdatum i mitten av 2026. När API:et har tagits ur bruk kommer vi att tillhandahålla en tydlig migreringsguide från Assistants API till Responses API som gör det möjligt för utvecklare att bevara alla sina data och migrera sina applikationer. Fram till dess att vi formellt meddelar att API:et tas ur bruk kommer vi att fortsätta leverera nya modeller till Assistants API. Responses API representerar den framtida inriktningen för att bygga agenter på OpenAI.

Vi introducerar inbyggda verktyg i Responses API

Webbsökning

Utvecklare kan nu få snabba, uppdaterade svar med tydliga och relevanta citat från webben. I Responses API är webbsökning tillgängligt som ett verktyg när du använder gpt-4o och gpt-4o-mini, och kan kopplas ihop med andra verktyg eller funktionsanrop.

JavaScript

1

const response = await openai.responses.create({

2

modell: "gpt-4o",

3

verktyg: [ { typ: "web_search_preview" } ],

4

input: "Vad var en positiv nyhet som hände idag?",

5

});

6


7

console.log(response.output_text);

Under tidiga tester har vi sett utvecklare bygga med webbsökning för en mängd olika användningsfall, inklusive shoppingassistenter, forskningsagenter och resebokningsagenter - alla applikationer som kräver snabb information från webben.

Hebbia(öppnas i ett nytt fönster) använder till exempel webbsökverktyget för att hjälpa kapitalförvaltare, riskkapital- och kreditföretag samt advokatbyråer att snabbt få fram användbara insikter från omfattande offentliga och privata dataset. Genom att integrera sökfunktioner i realtid i sina forskningsarbetsflöden levererar Hebbia rikare, kontextspecifik marknadsinformation och förbättrar kontinuerligt precisionen och relevansen i sina analyser, vilket överträffar nuvarande riktmärken.

Webbsökning i API:et drivs av samma modell som används för ChatGPT-sökning. På SimpleQA, ett benchmark som utvärderar LLM:s noggrannhet när det gäller att svara på korta faktafrågor, får GPT-4o search preview och GPT-4o mini search preview 90 % respektive 88 %.

SimpleQA Noggrannhet (högre är bättre)

63%

38%

47%

15%

90%

88%

0

20

40

60

80

100

Noggrannhet

GPT-4.5

GPT-4o

OpenAI o1

OpenAI o3-mini

GPT-4o

förhandsgranskning av sökning

GPT-4o mini

förhandsgranskning av sökning

Svar som genereras med webbsökning i API:et innehåller länkar till källor, t.ex. nyhetsartiklar och blogginlägg, vilket ger användarna möjlighet att lära sig mer. Med dessa tydliga, inline-citeringar kan användare ta del av information på ett nytt sätt, samtidigt som innehållsägare får nya möjligheter att nå ut till en bredare publik.

Alla webbplatser och utgivare kan välja att synas i webbsökningen i API:et (öppnas i ett nytt fönster).

Webbsökverktyget är tillgängligt för alla utvecklare i en förhandsgranskning i Responses API. Vi ger också utvecklare direkt tillgång till våra finjusterade sökmodeller i Chat Completions API via gpt-4o-search-preview och gpt-4o-mini-search-preview. Prissättning(öppnas i ett nytt fönster) börjar på $ 30 respektive $ 25 per tusen frågor för GPT-4o-sökning respektive 4o-mini-sökning. Kolla in webbsökning i Playground(öppnas i ett nytt fönster) och läs mer i våra dokument(öppnas i ett nytt fönster).

Sökning i filer

Utvecklare kan nu enkelt hämta relevant information från stora volymer dokument med hjälp av det förbättrade verktyget för filsökning. Med stöd för flera filtyper, frågeoptimering, metadatafiltrering och anpassad rangordning kan det leverera snabba och korrekta sökresultat. Och återigen, med Responses API krävs det bara några få rader kod för att integrera.

JavaScript

1 const productDocs = await openai.vectorStores.create({

2 namn: "Produktdokumentation",

3 file_ids: [file1.id, file2.id, file3.id],

4 });

5

6 const response = await openai.responses.create({

7 modell: "gpt-4o-mini",

8 verktyg: [{

9 typ: "file_search",

10 vector_store_ids: [productDocs.id],

11 }],

12 inmatning: "Vad är djupforskning av OpenAI?",

13 });

14

15 console.log(response.output_text);

Filsökningsverktyget kan användas för en mängd olika verkliga användningsfall, bland annat för att göra det möjligt för en kundtjänst att enkelt få tillgång till vanliga frågor, hjälpa en juridisk assistent att snabbt referera till tidigare fall för en kvalificerad yrkesperson och hjälpa en kodningsagent att fråga efter teknisk dokumentation. Navan(öppnas i ett nytt fönster) använder till exempel filsökning i sin AI-drivna reseagent för att snabbt ge sina användare exakta svar från artiklar i kunskapsbasen (som företagets resepolicy). Med inbyggd frågeoptimering och reranking kan de sätta upp en kraftfull RAG-pipeline (retrieval-augmented generation) utan extra inställning eller konfiguration. Med dedikerade vektorbutiker för varje användargrupp kan Navan skräddarsy svar till individuella kontoinställningar och användarroller, vilket sparar tid för kunder och deras personal samtidigt som det bidrar till att ge korrekt och personlig support.


Detta verktyg finns tillgängligt i Responses API för alla utvecklare. Användningen prissätts(öppnas i ett nytt fönster) till 2,50 USD per tusen frågor och fillagring till 0,10 USD/GB/dag, med den första GB gratis. Verktyget fortsätter att vara tillgängligt i Assistants API. Slutligen har vi också lagt till en ny sökändpunkt till Vector Store API-objekt för att direkt fråga dina data för användning i andra applikationer och API: er. Läs mer i våra dokument(öppnas i ett nytt fönster) och börja testa i Playground(öppnas i ett nytt fönster).


Datoranvändning

För att bygga agenter som kan slutföra uppgifter på en dator kan utvecklare nu använda datoranvändningsverktyget i Responses API, som drivs av samma CUA-modell (Computer-Using Agent) som möjliggör Operator. Denna förhandsgranskningsmodell för forskning satte ett nytt rekord och uppnådde 38,1% framgång på OSWorld(öppnas i ett nytt fönster) för fullständiga datoranvändningsuppgifter, 58,1% på WebArena(öppnas i ett nytt fönster) och 87% på WebVoyager(öppnas i ett nytt fönster) för webbaserade interaktioner.


Det inbyggda datoranvändningsverktyget fångar upp mus- och tangentbordsrörelser som genereras av modellen, vilket gör det möjligt för utvecklare att automatisera datoranvändningsuppgifter genom att direkt översätta dessa rörelser till körbara kommandon i sina miljöer.

JavaScript

1 const response = await openai.responses.create({

2 modell: "datoranvändning-förhandsgranskning",

3 verktyg: [{

4 typ: "dator_användning_förhandsgranskning",

5 display_width: 1024,

6 display_height: 768,

7 miljö: "webbläsare",

8 }],

9 trunkering: "auto",

10 inmatning: "Jag letar efter en ny kamera. Hjälp mig att hitta den bästa.",

11 });

12

13 console.log(svar.utdata);

Utvecklare kan använda datorverktyget för att automatisera webbläsarbaserade arbetsflöden, som att kvalitetssäkra webbappar eller utföra dataregistrering i äldre system. Till exempel är Unify(öppnas i ett nytt fönster) ett handlingssystem för att öka intäkterna som använder agenter för att identifiera avsikter, undersöka konton och engagera sig med köpare. Med hjälp av OpenAI:s verktyg för datoranvändning kan Unifys agenter få tillgång till information som tidigare inte gick att nå via API:er - till exempel kan ett fastighetsförvaltningsföretag verifiera via kartor online om ett företag har utökat sitt fastighetsområde. Denna forskning fungerar som en anpassad signal för att utlösa personlig uppsökande verksamhet - vilket gör det möjligt för go-to-market-team att engagera köpare med precision och skala.

Ett annat exempel är Luminai(öppnas i ett nytt fönster) som har integrerat datorverktyget för att automatisera komplexa operativa arbetsflöden för stora företag med äldre system som saknar API-tillgänglighet och standardiserade data. I ett nyligen genomfört pilotprojekt med en stor organisation för samhällsservice automatiserade Luminai ansökningshanteringen och användarregistreringen på bara några dagar - något som traditionell robotiserad processautomation (RPA) hade svårt att uppnå efter månader av ansträngningar.

Innan vi lanserade CUA i Operator förra året genomförde vi omfattande säkerhetstester och red teaming för att hantera tre viktiga riskområden: missbruk, modellfel och gränsrisker. För att hantera riskerna med att utöka Operators funktioner till lokala operativsystem genom CUA i API:et genomförde vi ytterligare säkerhetsutvärderingar och red teaming. Vi har också lagt till riskreducerande åtgärder för utvecklare, bland annat säkerhetskontroller för att skydda mot prompt-injektioner, bekräftelsefrågor för känsliga uppgifter, verktyg som hjälper utvecklare att isolera sina miljöer och förbättrad upptäckt av potentiella policyöverträdelser. Även om dessa åtgärder bidrar till att minska riskerna är modellen fortfarande känslig för oavsiktliga misstag, särskilt i miljöer som inte är webbläsarmiljöer. Till exempel ligger CUA:s prestanda på OSWorld, ett riktmärke som är utformat för att mäta AI-agenters prestanda på verkliga uppgifter, för närvarande på 38,1%, vilket indikerar att modellen ännu inte är mycket tillförlitlig för att automatisera uppgifter på operativsystem. Mänsklig tillsyn rekommenderas i dessa scenarier. Mer information om vårt API-specifika säkerhetsarbete finns i vårt uppdaterade systemkort.

Typ av riktmärke Riktmärke Datoranvändning (universellt gränssnitt) Webbsökare Människa

OpenAI CUA Tidigare SOTA Tidigare SOTA

Datoranvändning OSWorld 38,1 % 22,0 % - 72,4

Webbläsaranvändning WebArena 58,1% 36,2% 57,1% 78,2%

WebVoyager 87,0% 56,0% 87,0% -

Utvärderingsdetaljer beskrivs här

Från och med idag finns verktyget för datoranvändning tillgängligt som en förhandsgranskning i Responses API för utvalda utvecklare i användningsnivåerna 3-5 (öppnas i ett nytt fönster). Användningen är prissatt(öppnas i ett nytt fönster) till $3/1M input tokens och $12/1M output tokens. Läs mer i våra dokument(öppnas i ett nytt fönster) och kolla in exempelapplikationen(öppnas i ett nytt fönster) som illustrerar hur man bygger med det här verktyget.

SDK för agenter

Förutom att bygga kärnlogiken för agenter och ge dem tillgång till verktyg så att de är användbara, behöver utvecklare också orkestrera agentiska arbetsflöden. Vårt nya SDK för agenter med öppen källkod förenklar orkestreringen av arbetsflöden med flera agenter och erbjuder betydande förbättringar jämfört med Swarm(öppnas i ett nytt fönster), ett experimentellt SDK som vi släppte förra året och som antogs i stor utsträckning av utvecklargemenskapen och framgångsrikt användes av flera kunder.

Förbättringarna inkluderar:

Agenter: Enkelt konfigurerbara LLM:er med tydliga instruktioner och inbyggda verktyg.

Överlämningar: Överför kontroll mellan agenter på ett intelligent sätt.

Skyddsräcken: Konfigurerbara säkerhetskontroller för validering av indata och utdata.

Spårning och observerbarhet: Visualisera spår av agentens exekvering för att felsöka och optimera prestanda.

Python

1 from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

2

3 @funktion_verktyg

4 def submit_refund_request(item_id: str, reason: str):

5 # Din återbetalningslogik hamnar här

6 return "framgång"

7

8 support_agent = Agent(

9 name="Support & returer",

10 instructions="Du är en supportagent som kan skicka in återbetalningar [...]",

11 tools=[submit_refund_request],

12 )

13

14 shopping_agent = Agent(

15 name="Shoppingassistent",

16 instructions="Du är en shoppingassistent som kan söka på webben [...]",

17 verktyg=[WebSearchTool()],

18 )

19

20 triage_agent = Agent(

21 name="Triage-agent",

22 instructions="Dirigera användaren till rätt agent.",

23 överlämningar=[shopping_agent, support_agent],

24 )

25

26 output = Runner.run_sync(

27 start_agent=triage_agent,

28 input="Vilka skor skulle passa bäst till min outfit hittills?",

29 )

Agents SDK är lämplig för olika verkliga applikationer, inklusive automatisering av kundsupport, flerstegsundersökning, innehållsgenerering, kodgranskning och försäljningsprospektering. Coinbase(öppnas i ett nytt fönster) använde till exempel Agents SDK för att snabbt ta fram en prototyp och driftsätta AgentKit, en verktygslåda som gör det möjligt för AI-agenter att interagera sömlöst med kryptoplånböcker och olika aktiviteter i kedjan. På bara några timmar integrerade Coinbase anpassade åtgärder från deras Developer Platform SDK till en fullt fungerande agent. AgentKits strömlinjeformade arkitektur förenklade processen med att lägga till nya agentåtgärder, vilket gör att utvecklare kan fokusera mer på meningsfulla integrationer och mindre på att navigera i komplexa agentinställningar.

På ett par dagar kunde Box(öppnas i ett nytt fönster) snabbt skapa agenter som utnyttjar webbsökning och Agents SDK för att göra det möjligt för företag att söka, fråga och extrahera insikter från ostrukturerade data som lagras i Box och offentliga internetkällor. På så sätt kan kunderna inte bara få tillgång till den senaste informationen, utan även söka i sina interna, skyddade data på ett tryggt och säkert sätt som följer deras interna behörighets- och säkerhetspolicyer. Ett finansföretag kan till exempel bygga en anpassad agent som anropar Box AI-agent för att integrera sin interna marknadsanalys som lagras i Box med realtidsnyheter och ekonomiska data från webben, vilket ger deras analytiker en heltäckande bild för investeringsbeslut.

Agents SDK fungerar med API:et Responses och API:et Chat Completions. SDK:n fungerar även med modeller från andra leverantörer, så länge de tillhandahåller en API-slutpunkt i stil med Chat Completions. Utvecklare kan omedelbart integrera det i sina Python-kodbaser, med Node.js-stöd som kommer snart. Läs mer i våra dokument(öppnas i ett nytt fönster).

Vid utformningen av Agents SDK inspirerades vårt team av det utmärkta arbete som utförts av andra i samhället, inklusive Pydantic(öppnas i ett nytt fönster), Griffe(öppnas i ett nytt fönster) och MkDocs(öppnas i ett nytt fönster). Vi är fast beslutna att fortsätta bygga Agents SDK som ett ramverk med öppen källkod så att andra i samhället kan bygga vidare på vår metod.

Vad händer härnäst: bygga plattformen för agenter

Vi tror att agenter snart kommer att bli en integrerad del av arbetsstyrkan och avsevärt förbättra produktiviteten i alla branscher. Eftersom företag i allt högre grad försöker utnyttja AI för komplexa uppgifter, är vi fast beslutna att tillhandahålla byggstenarna som gör det möjligt för utvecklare och företag att effektivt skapa autonoma system som ger verklig effekt.

Med dagens lanseringar introducerar vi de första byggstenarna som gör det möjligt för utvecklare och företag att enklare bygga, distribuera och skala upp tillförlitliga och högpresterande AI-agenter. I takt med att modellfunktionerna blir mer och mer agentiska kommer vi att fortsätta investera i djupare integrationer mellan våra API:er och nya verktyg för att hjälpa till att distribuera, utvärdera och optimera agenter i produktion. Vårt mål är att ge utvecklare en sömlös plattformsupplevelse för att bygga agenter som kan hjälpa till med en mängd olika uppgifter i alla branscher. Vi är glada över att se vad utvecklare bygger härnäst. För att komma igång kan du utforska våra dokument (öppnas i ett nytt fönster) och hålla ögonen öppna för fler uppdateringar inom kort.

Please share our article, every link counts!
Mail Logo
> Bärbara datorer, laptops - tester och nyheter > Nyheter > Nyhetsarkiv > Nyhetsarkiv 2025 03 > OpenAI släpper verktyg och API för utvecklare som vill bygga AI-agenter för företag
David Chien, 2025-03-12 (Update: 2025-03-12)