Por Diego Nogare Os benchmarks de IA (testes de desempenho de ferramentas de Inteligência Artificial) deveriam zelar por ter os pesos das evidências para que ferramentas de mercado pudessem se comparar. Inclusive, muitas vezes são vistos como o motor que direciona investimentos financeiros de clientes, e até de esforços de engenharia, para melhorar as ferramentas […]
Por Diego Nogare
Os benchmarks de IA (testes de desempenho de ferramentas de Inteligência Artificial) deveriam zelar por ter os pesos das evidências para que ferramentas de mercado pudessem se comparar. Inclusive, muitas vezes são vistos como o motor que direciona investimentos financeiros de clientes, e até de esforços de engenharia, para melhorar as ferramentas e mostrar os melhores desempenhos da categoria.
No entanto, a validade das conclusões tiradas desses testes depende criticamente da qualidade das próprias perguntas que direcionam a investigação, segundo um estudo recente de Stanford. O problema é que os benchmarks mais usados estão cheios de falhas: perguntas ambíguas, par de pergunta/resposta incorretas ou até mesmo falhas na forma como o sistema de classificação automática avalia as respostas dos modelos. Em alguns casos, como no teste de raciocínio matemático GSM8K, aproximadamente 5% das perguntas são inválidas, o que pode distorcer completamente os rankings. O estudo de Stanford mostra, por exemplo, que o DeepSeek-R1, subiu da terceira posição mais baixa para o segundo lugar após a revisão do teste GSM8K.
A manutenção desses testes é um assunto crítico, porque isso depende de revisar manualmente as milhares de questões. O teste MMLU, por exemplo, tem 14.000 questões em 57 domínios especializados, é um processo quase inviável de revisar essa quantidade de questões a todo momento que surge um novo LLM no mercado, fazendo com que a maioria dos benchmarks raramente seja revisado após o lançamento.
Leia também: Sob liderança de Igor Freitas, IA impacta milhares de alunos e professores na Cogna Educação
A pesquisa de Stanford se propôs a atacar o desafio de tornar a revisão de benchmarks sistemática e escalável. O ponto deles é que, se os testes contêm perguntas problemáticas, eles não estão medindo a capacidade real dos LLMs de forma confiável.
Eles puderam categorizar os erros em três grupos:
Para resolver esse dilema, os pesquisadores da Universidade de Stanford introduziram uma estrutura que adapta métodos da teoria de medição (psicometria), tradicionalmente usada em testes humanos, para o contexto dos benchmarks de IA.
A abordagem se baseia em uma premissa comum nas avaliações de IA: a pontuação média é suficiente para resumir o desempenho de um modelo.
Se assumirmos que um teste mede apenas uma “habilidade latente” subjacente (como o raciocínio matemático), o desempenho de uma questão individual deve se correlacionar positivamente com o desempenho geral do modelo no teste (e com outras questões). O sistema funciona como um detector de anomalias estatísticas, sinalizando perguntas cujas métricas saem do intervalo esperado, indicando que a questão provavelmente é problemática. Eles utilizaram três formas de analisar: Correlação Item-Total (Mede o quão bem o desempenho de uma questão se alinha com o desempenho total do modelo no teste); Correlação Tetracórica (Avalia a correlação de pares de respostas. Em um teste válido e unidimensional, essa correlação deve ser positiva); e Coeficiente de Escalabilidade do Item (Agrega as correlações, quantificando o quão forte é a associação de uma questão com o resto da escala).
Para otimizar o trabalho humano, os pesquisadores incluíram no processo um primeiro passo de revisão por um LLM-juiz. Um LLM de ponta recebe a pergunta, o gabarito e as respostas dos modelos, sendo instruído a classificar a questão como válida ou inválida e fornecer uma justificativa concisa, reduzindo substancialmente a carga de trabalho do especialista humano, que só precisa verificar o raciocínio da IA. Os Resultados apresentaram 84% de precisão.
Os pesquisadores aplicaram então essa metodologia à nove benchmarks, cobrindo áreas como matemática, segurança de IA, medicina e proficiência em idiomas.
Os resultados demonstraram:
A aplicação dessa metodologia não apenas confirmou erros conhecidos, mas também revelou problemas adicionais. Por exemplo, no GSM8K, o especialista orientado pela ferramenta descobriu 16 questões inválidas adicionais que revisões anteriores haviam ignorado.
Os pesquisadores também destacaram que a diversidade e o número de LLMs avaliados são importantes para a eficácia da detecção.
Bom, ontem a OpenAI anunciou o lançamento do GPT-5.2 e se declarou como o melhor modelo para ciência e matemática. Lendo o material, eles referenciam um estudo que demonstrou que o GPT5 é uma ferramenta de aceleração científica, gerando resultados verificados em matemática, um feito com profundas implicações dado o ritmo de progresso da IA. O estudo apresenta resultado favorável para o problema de otimização convexa, se aproximando do limite ideal e realizando em minutos um trabalho que levaria dias para especialistas. Além disso, o GPT-5 ajudou a solucionar um problema em teoria combinatória dos números, fornecendo uma sugestão para refinar os limites de densidade que levaram à solução. Já em física e astronomia, o modelo alcançou resultados satisfatórios, como a redescoberta dos geradores de simetria para uma equação de onda de buraco negro e da derivação de um novo resultado analítico para o espectro de potência de radiação gravitacional de cordas cósmicas. Segundo o estudo, o GPT5 pode reduzir o tempo de uma ideia a um resultado publicável de meses para dias.
Isso é incrível de se ver, principalmente quando olhamos sem criticidade para o resultado deste estudo.
Contudo, apesar de modelos super recentes como o GPT-5, Gemini 3, e outros estarem demonstrando um potencial de aceleração científica profunda, resolvendo problemas em matemática e reduzindo o tempo de pesquisa de meses para dias, há um paradoxo perturbador que lança sérias dúvidas sobre a validade das métricas que definem o sucesso da IA –> Os relatórios de benchmarks mais utilizados!
O que quero trazer para discussão é que os erros encontrados nestes benchmarks são suficientes para distorcer drasticamente os rankings de desempenho. Como podemos aceitar sem questionar que empresas apresentem seus modelos como “líderes de mercado” com base em testes que contêm resposta incorretas, ambiguidades linguísticas e falhas de classificação que penalizam respostas?
A verdadeira “corrida do ouro” da IA pode estar sendo julgada por um sistema de pontuação que, além de ser inviável de ser corrigido manualmente, é estatisticamente falho. Quero terminar te instigando a ter um ceticismo saudável sobre qualquer métrica corporativa que não tenha sido submetida a uma auditoria rigorosa de qualidade.
E aliás, com tantos relatórios de IA, qual verdade você quer?
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!