IT Forum Instituto Itaqui Distrito Itaqui IT Invest

ITF Portal - Banner Topo
Slot: /23408374/itf-ad-banner-topo
720x300, 728x90, 728x210, 970x250, 970x90, 1190x250

ChatGPT 5.2 lidera rankings, mas benchmarks de IA estão quebrados, revela Stanford

ChatGPT

ChatGPT 5.2 lidera rankings, mas benchmarks de IA estão quebrados, revela Stanford

Por Diego Nogare Os benchmarks de IA (testes de desempenho de ferramentas de Inteligência Artificial) deveriam zelar por ter os pesos das evidências para que ferramentas de mercado pudessem se comparar. Inclusive, muitas vezes são vistos como o motor que direciona investimentos financeiros de clientes, e até de esforços de engenharia, para melhorar as ferramentas […]

Publicado: 24/04/2026 às 21:39

Diego Nogare

Leitura

7 minutos

Construção civil — Foto: Reprodução

Por Diego Nogare

Os benchmarks de IA (testes de desempenho de ferramentas de Inteligência Artificial) deveriam zelar por ter os pesos das evidências para que ferramentas de mercado pudessem se comparar. Inclusive, muitas vezes são vistos como o motor que direciona investimentos financeiros de clientes, e até de esforços de engenharia, para melhorar as ferramentas e mostrar os melhores desempenhos da categoria.

No entanto, a validade das conclusões tiradas desses testes depende criticamente da qualidade das próprias perguntas que direcionam a investigação, segundo um estudo recente de Stanford. O problema é que os benchmarks mais usados estão cheios de falhas: perguntas ambíguas, par de pergunta/resposta incorretas ou até mesmo falhas na forma como o sistema de classificação automática avalia as respostas dos modelos. Em alguns casos, como no teste de raciocínio matemático GSM8K, aproximadamente 5% das perguntas são inválidas, o que pode distorcer completamente os rankings. O estudo de Stanford mostra, por exemplo, que o DeepSeek-R1, subiu da terceira posição mais baixa para o segundo lugar após a revisão do teste GSM8K.

A manutenção desses testes é um assunto crítico, porque isso depende de revisar manualmente as milhares de questões. O teste MMLU, por exemplo, tem 14.000 questões em 57 domínios especializados, é um processo quase inviável de revisar essa quantidade de questões a todo momento que surge um novo LLM no mercado, fazendo com que a maioria dos benchmarks raramente seja revisado após o lançamento.

O problema central: a crise de confiabilidade dos testes

A pesquisa de Stanford se propôs a atacar o desafio de tornar a revisão de benchmarks sistemática e escalável. O ponto deles é que, se os testes contêm perguntas problemáticas, eles não estão medindo a capacidade real dos LLMs de forma confiável.

Eles puderam categorizar os erros em três grupos:

Questões ambíguas: O enunciado permite múltiplas interpretações válidas, mas a questão aceita apenas uma resposta como correta;
Par de Perguntas/Resposta incorretas: Erros do gabarito em si;
Problemas de classificação: Limitações no sistema de pontuação automatizado que marcam uma resposta semanticamente correta do LLM como errada, muitas vezes devido a diferenças de formato (como aceitar “7” mas não “7.00” ou “sete”)

Psicometria para máquinas

Para resolver esse dilema, os pesquisadores da Universidade de Stanford introduziram uma estrutura que adapta métodos da teoria de medição (psicometria), tradicionalmente usada em testes humanos, para o contexto dos benchmarks de IA.
A abordagem se baseia em uma premissa comum nas avaliações de IA: a pontuação média é suficiente para resumir o desempenho de um modelo.

O princípio básico

Se assumirmos que um teste mede apenas uma “habilidade latente” subjacente (como o raciocínio matemático), o desempenho de uma questão individual deve se correlacionar positivamente com o desempenho geral do modelo no teste (e com outras questões). O sistema funciona como um detector de anomalias estatísticas, sinalizando perguntas cujas métricas saem do intervalo esperado, indicando que a questão provavelmente é problemática. Eles utilizaram três formas de analisar: Correlação Item-Total (Mede o quão bem o desempenho de uma questão se alinha com o desempenho total do modelo no teste); Correlação Tetracórica (Avalia a correlação de pares de respostas. Em um teste válido e unidimensional, essa correlação deve ser positiva); e Coeficiente de Escalabilidade do Item (Agrega as correlações, quantificando o quão forte é a associação de uma questão com o resto da escala).

Aceleração com IA

Para otimizar o trabalho humano, os pesquisadores incluíram no processo um primeiro passo de revisão por um LLM-juiz. Um LLM de ponta recebe a pergunta, o gabarito e as respostas dos modelos, sendo instruído a classificar a questão como válida ou inválida e fornecer uma justificativa concisa, reduzindo substancialmente a carga de trabalho do especialista humano, que só precisa verificar o raciocínio da IA. Os Resultados apresentaram 84% de precisão.

Os pesquisadores aplicaram então essa metodologia à nove benchmarks, cobrindo áreas como matemática, segurança de IA, medicina e proficiência em idiomas.

Os resultados demonstraram:

Precisão: O método conseguiu guiar a revisão especializada com uma precisão de até 84% na identificação de falhas substanciais entre as 50 questões mais sinalizadas;
Vantagem: As métricas estatísticas de medição superaram significativamente as abordagens heurísticas mais ingênuas, como a variância de previsões;
Eficiência: O uso do LLM-juiz para fazer a primeira triagem em um subconjunto do GSM8K alcançou 98% de precisão na identificação de questões inválidas, comprovando o seu potencial como assistente escalável.

A aplicação dessa metodologia não apenas confirmou erros conhecidos, mas também revelou problemas adicionais. Por exemplo, no GSM8K, o especialista orientado pela ferramenta descobriu 16 questões inválidas adicionais que revisões anteriores haviam ignorado.
Os pesquisadores também destacaram que a diversidade e o número de LLMs avaliados são importantes para a eficácia da detecção.

E o que isso tem a ver com ChatGPT 5.2?

Bom, ontem a OpenAI anunciou o lançamento do GPT-5.2 e se declarou como o melhor modelo para ciência e matemática. Lendo o material, eles referenciam um estudo que demonstrou que o GPT5 é uma ferramenta de aceleração científica, gerando resultados verificados em matemática, um feito com profundas implicações dado o ritmo de progresso da IA. O estudo apresenta resultado favorável para o problema de otimização convexa, se aproximando do limite ideal e realizando em minutos um trabalho que levaria dias para especialistas. Além disso, o GPT-5 ajudou a solucionar um problema em teoria combinatória dos números, fornecendo uma sugestão para refinar os limites de densidade que levaram à solução. Já em física e astronomia, o modelo alcançou resultados satisfatórios, como a redescoberta dos geradores de simetria para uma equação de onda de buraco negro e da derivação de um novo resultado analítico para o espectro de potência de radiação gravitacional de cordas cósmicas. Segundo o estudo, o GPT5 pode reduzir o tempo de uma ideia a um resultado publicável de meses para dias.

Isso é incrível de se ver, principalmente quando olhamos sem criticidade para o resultado deste estudo.

Dá para acreditar?

Contudo, apesar de modelos super recentes como o GPT-5, Gemini 3, e outros estarem demonstrando um potencial de aceleração científica profunda, resolvendo problemas em matemática e reduzindo o tempo de pesquisa de meses para dias, há um paradoxo perturbador que lança sérias dúvidas sobre a validade das métricas que definem o sucesso da IA –> Os relatórios de benchmarks mais utilizados!

O que quero trazer para discussão é que os erros encontrados nestes benchmarks são suficientes para distorcer drasticamente os rankings de desempenho. Como podemos aceitar sem questionar que empresas apresentem seus modelos como “líderes de mercado” com base em testes que contêm resposta incorretas, ambiguidades linguísticas e falhas de classificação que penalizam respostas?

A verdadeira “corrida do ouro” da IA pode estar sendo julgada por um sistema de pontuação que, além de ser inviável de ser corrigido manualmente, é estatisticamente falho. Quero terminar te instigando a ter um ceticismo saudável sobre qualquer métrica corporativa que não tenha sido submetida a uma auditoria rigorosa de qualidade.

E aliás, com tantos relatórios de IA, qual verdade você quer?

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Mais lidas

CIO

6 sinais de que um gerente de TI está enfrentando dificuldades — e como ajudar

3 anos atrás

ITF Portal - Banner Lateral
Slot: /23408374/itf-ad-banner-lateral
300x250, 300x450, 300x600

Newsletter

As melhores notícias de tecnologia B2B em primeira mão

Acompanhe todas as novidades diretamente na sua caixa de entrada.

As melhores notícias de tecnologia B2B em primeira mão

Acompanhe todas as novidades diretamente na sua caixa de entrada

Fique por dentro dos principais pilares:

Notícias

Revistas

Materiais

Eventos

Marketing

Sustentabilidade

Autor

Diego Nogare

Diego Nogare tem 25 anos de experiência na área de Dados, com foco em Inteligência Artificial e Machine Learning desde 2013 e já passou por grandes empresas como Microsoft, Deloitte, Bayer e Itaú.

Ver publicações deste autor

Notícias relacionadas

Ver mais