OpenAI reduziu latência de agentes em 40% com WebSockets

No dia 22 de abril de 2026, a OpenAI publicou um artigo detalhando como conseguiu acelerar em 40% os fluxos agentivos da Codex usando WebSockets na Responses API. O problema era claro: cada ciclo do agente — ler contexto, chamar a API, executar ferramentas, repetir — acumulava latência de rede a cada requisição síncrona. Com a aceleração da inferência (de 65 para quase 1.000 tokens/s), o gargalo migrou dos GPUs para o overhead de API. A solução foi um modo WebSocket persistente, que elimina handshakes repetidos e permite streaming bidirecional contínuo. Os resultados foram imediatos: Vercel integrou no AI SDK com ganho de 40%, Cline reportou 39% de aceleração em fluxos multi-arquivo, e Cursor viu melhorias de até 30%. Para empresas em Manaus que dependem de automação inteligente, essa evolução significa agentes mais rápidos e responsivos, prontos para integração em sistemas locais.