Search

IA: Modelos não superam 30% em tarefas de profissionais, aponta estudo

Um estudo da Mercor, empresa de recrutamento e treinamento, indica que modelos de inteligência artificial não superam 30% de acerto em tarefas de profissionais humanos especializados.

O estudo, que resultou no benchmark APEX-Agents, avaliou o desempenho de modelos como GPT-5.2 (OpenAI) e Gemini 3 Flash (Google) em tarefas de analistas de investimentos, consultores de gestão e advogados corporativos.

Desempenho dos Modelos

O GPT-5.2 alcançou 27,3% de acerto em tarefas de analistas de investimentos e 22,7% em consultoria de gestão. Já o Gemini 3 Flash obteve 25,9% de acerto em tarefas de advogados.

Metodologia do Estudo

O benchmark APEX-Agents utiliza prompts enviados por profissionais reais, tornando as tarefas complexas e exigindo que os agentes reúnam informações de diferentes domínios.

Brendan Foody, CEO da Mercor, explica que o ambiente do estudo foi modelado de acordo com serviços profissionais, utilizando ferramentas como Slack e Google Drive.

As questões do teste, disponibilizadas publicamente, envolviam análise de casos complexos, como o envio de dados pessoais de cidadãos europeus para servidores nos Estados Unidos, considerando políticas da empresa e legislação da União Europeia.

Nenhum modelo alcançou 30% de desempenho em qualquer uma das três tarefas avaliadas.

Esses posts também podem te interessar:

Confira também o EmpreendaSC Talk:

Relacionado

Caju amplia estrutura de liderança com novas designações

Notícias

Governo de SC abre inscrições para programa de Pagamento por Serviços Ambientais

Agronegócio

BRDE completa 65 anos com carteira de crédito de R$ 25,6 bilhões

Notícias

BRDE reforça oferta de crédito climático com atendimento ao Fundo Clima

Economia

UBS demite centenas na Europa, Oriente Médio e África após compra do Credit Suisse

Notícias