Search

IA: Modelos não superam 30% em tarefas de profissionais, aponta estudo

Um estudo da Mercor, empresa de recrutamento e treinamento, indica que modelos de inteligência artificial não superam 30% de acerto em tarefas de profissionais humanos especializados.

O estudo, que resultou no benchmark APEX-Agents, avaliou o desempenho de modelos como GPT-5.2 (OpenAI) e Gemini 3 Flash (Google) em tarefas de analistas de investimentos, consultores de gestão e advogados corporativos.

Desempenho dos Modelos

O GPT-5.2 alcançou 27,3% de acerto em tarefas de analistas de investimentos e 22,7% em consultoria de gestão. Já o Gemini 3 Flash obteve 25,9% de acerto em tarefas de advogados.

Metodologia do Estudo

O benchmark APEX-Agents utiliza prompts enviados por profissionais reais, tornando as tarefas complexas e exigindo que os agentes reúnam informações de diferentes domínios.

Brendan Foody, CEO da Mercor, explica que o ambiente do estudo foi modelado de acordo com serviços profissionais, utilizando ferramentas como Slack e Google Drive.

As questões do teste, disponibilizadas publicamente, envolviam análise de casos complexos, como o envio de dados pessoais de cidadãos europeus para servidores nos Estados Unidos, considerando políticas da empresa e legislação da União Europeia.

Nenhum modelo alcançou 30% de desempenho em qualquer uma das três tarefas avaliadas.

Esses posts também podem te interessar:

Confira também o EmpreendaSC Talk:

Relacionado

Irã mantém comércio e diversifica economia apesar de sanções internacionais

Destaques

Pesquisadores propõem estrutura para proteger finanças em operações com IA

Notícias

Estudo aponta sobrecarga de tarefas em funcionários engajados

Notícias

Aberje divulga lista de “20 Comunicadores Para Seguir” em 2026

Notícias

Cobrança de pedágio ‘free flow’ na Rota Sorocabana é adiada para 2027

Notícias