Inteligência Artificial em Foco: Harvard Valida Modelos Matemáticos em 7 de 10 Desafios

Na última semana, Harvard recebeu a presença de trinta matemáticos que se reuniram para uma tarefa inusitada: avaliar soluções apresentadas por inteligência artificial. O projeto intitulado First Proof desafiou quatro sistemas de IA com dez problemas previamente resolvidos por humanos, mas que nunca haviam sido publicados.

Os resultados, revelados recentemente, foram surpreendentes: sete dos dez problemas foram solucionados corretamente pelo menos uma vez. A maioria dos sistemas utilizou o GPT-5.5 Pro da OpenAI, empregado em três das quatro configurações testadas, além do Gemini 3.1 Pro Preview do Google. O modelo Claude Opus 4.7 da Anthropic foi utilizado como suporte em um dos sistemas.

Dentre as soluções apresentadas, algumas receberam o elogio de serem “impecáveis”. Em uma das situações avaliadas, o modelo adotou uma abordagem distinta daquela utilizada pelos humanos e conseguiu impressionar os especialistas.

Motivos para a criação do teste pelos matemáticos

A ideia surgiu em resposta à insatisfação com as narrativas promovidas pelas empresas de tecnologia. Embora essas companhias frequentemente façam declarações sobre suas conquistas, a verificação das soluções apresentadas é complexa e os modelos demonstram inconsistências.

“Não escreve da maneira como nós escrevemos – de certa forma, não é honesto”, afirmou Martin Hairer, matemático do Imperial College London e laureado com a Medalha Fields.

Comparação entre humanos e IA

Terry Tao, também medalhista Fields e professor na Universidade da Califórnia em Los Angeles, fez uma analogia interessante sobre as diferenças entre humanos e sistemas de IA.

Ele comparou especialistas humanos a alpinistas que exploram cuidadosamente o ambiente ao seu redor, estabelecendo metas intermediárias e colaborando entre si. Por outro lado, os sistemas de IA podem ser vistos como “saltadores”, capazes de alcançar alturas que seriam impossíveis para os humanos em um único impulso, mas sem a mesma elegância nas tentativas falhas. Quando a IA erra, raramente isso oferece insights úteis para os próximos passos.

Limitações atuais da IA

Um ponto crucial mencionado pelos matemáticos é que o verdadeiro desafio não reside apenas na resolução de problemas, mas na seleção deles. Identificar quais questões são dignas de investigação demanda julgamento crítico, intuição e uma compreensão do contexto mais amplo da matemática.

A professora Lauren Williams, uma das líderes do First Proof em Harvard, exemplificou essa questão: um geólogo poderia perguntar qual é a cor média de uma pedra terrestre. Embora seja uma pergunta válida, ela não é necessariamente interessante; a IA não consegue fazer tal distinção.

Sébastien Bubeck, matemático da OpenAI, corroborou essa visão: os modelos podem resolver problemas mas carecem de entendimento sobre o motivo pelo qual estão realizando essas resoluções ou qual é a relevância dessas questões dentro da matemática como um todo.

Mais de 2.300 matemáticos assinam manifesto

Simultaneamente aos testes realizados, matemáticos divulgaram a Declaração de Leiden, um manifesto internacional que já conta com mais de 2.300 assinaturas e estabelece diretrizes para um uso ético e transparente da inteligência artificial no setor.

A declaração reconhece as possibilidades oferecidas pela tecnologia enquanto alerta para seus riscos: os modelos frequentemente não creditam as ideias que utilizam e as empresas tendem a apresentar seus sucessos sem esclarecer as falhas ocorridas.

Contexto: A conjectura sem solução há 80 anos

No mês passado, a OpenAI anunciou que um modelo havia conseguido refutar uma conjectura proposta por Paul Erdős que permanecia sem solução há oito décadas. O resultado foi descrito como uma “solução espetacular” pelo matemático Noga Alon da Princeton University.

Dessa forma, o First Proof representa uma resposta organizada da comunidade matemática: ao invés de simplesmente reagir às afirmações das empresas tecnológicas, os matemáticos estão agora estabelecendo seus próprios critérios para avaliação.

O Diário Regional

Learn More →