Como fizemos o teste com as IAs no 2º dia do Enem 2025?
Para tornar o experimento o mais equilibrado possível, utilizamos apenas as versões gratuitas de cada inteligência artificial — as mesmas disponíveis ao público, sem assinatura ou recursos avançados.
Os modelos avaliados foram:
ChatGPT (OpenAI): assistente amplamente utilizado, conhecido pela capacidade de lidar com diferentes tipos de perguntas e por priorizar respostas claras e seguras.
Gemini (Google): sistema integrado ao ecossistema do Google, com foco em interpretar contexto e relacionar informações de forma detalhada.
Grok (xAI): modelo da equipe de Elon Musk, marcado por respostas rápidas e diretas, com traços de espontaneidade característicos da plataforma.
Todas as IAs receberam exatamente as mesmas questões do Enem 2025, utilizando a prova cinza como base.
Para padronizar a análise, aplicamos o mesmo prompt em todas as plataformas:
“Chat, crie uma correção da prova do ENEM para o público em geral, como um professor faria. Leia o enunciado, interprete imagens e gráficos, analise as alternativas e finalize indicando a alternativa correta. Vou enviar a prova em partes. Responda com o número da questão e a letra correspondente. Comente apenas se for realmente necessário.”
A prova foi enviada segmentada para cada IA, seguindo a mesma ordem e o mesmo formato.
A verificação das respostas considerou o gabarito extraoficial divulgado pela Quero Bolsa em parceria com o Curso Anglo.
É importante reforçar que o objetivo não é produzir um estudo científico, mas observar como diferentes modelos de IA interpretam textos, imagens e contextos — elementos essenciais na estrutura do Enem.
Como cada IA se comportou nas questões de Matemática e Ciências da Natureza?
A avaliação comparativa do desempenho das IAs na resolução de questões objetivas no segundo dia do Enem 2025 que requeriam interpretação de contexto visual complexo revelou diferenças notáveis na velocidade de processamento, na capacidade de análise de imagens e na coerência da resposta.
As questões, abrangendo Matemática e Ciências da Natureza, exigiram a leitura e o uso eficiente de gráficos, diagramas e figuras para a obtenção das soluções.
O contraste entre os modelos pode ser claramente observado nos fatores de tempo de resposta, na facilidade de leitura de imagens e na manutenção da coerência lógica ao longo da interação.
Modelo
Tempo de Resposta
Facilidade com Imagens
Coerência e Estrutura da Resposta
ChatGPT
Maior
Demonstrou dificuldade, solicitando mais detalhes para visualizar questões com imagens específicas.
Respostas completas, mas com atraso devido à dificuldade de interpretação visual.
Gemini
Rápido
Análise rápida das imagens.
Apresentou problemas de coerência, em certo momento, confundindo as questões e respondendo a itens anteriores já tratados.
Desafios específicos do 2º dia do Enem para as IAs
As questões do segundo dia do Enem apresentam características que podem ser mais difíceis para inteligências artificiais do que para humanos:
Cálculo em múltiplas etapas, que exige precisão operacional.
Interpretação de gráficos e tabelas, comuns em questões de Física, Química e Biologia.
Problemas contextualizados, que relacionam fenômenos naturais com situações cotidianas.
Enunciados longos com dados numéricos, onde pequenos deslizes geram erros grandes.
Veja abaixo algumas dificuldades em que as IAs tiveram para correção da prova no 2° dia do Enem 2025.
Imagem 01: ChatGPT teve dificuldade para processar imagem referente a questão 121. Imagem 02: Grok sinaliza possível erro entre as alternativas na questão 115.
Mas afinal, quem acertou mais respostas do Enem?
O ChatGPT foi o mais preciso, o Gemini apresentou um desempenho de precisão intermediário com falhas de coerência, e o Grok foi o mais rápido e eficiente com baixa precisão.
IA
Acertos
ChatGPT
56
Gemini
50
Grok
33
A análise da performance das IAs na resolução das questões que envolviam Matemática e Ciências da Natureza revela uma clara diferença na precisão (acertos) e na eficiência operacional de cada modelo.
O ChatGPT demonstrou a maior precisão, liderando com 56 acertos. Isso sugere uma forte capacidade analítica e de raciocínio lógico, apesar de sua baixa eficiência operacional (tempo de resposta maior) e da dificuldade em visualizar e processar as informações contidas nas imagens.
O Gemini ficou em segundo lugar em precisão, com 50 acertos. Embora tenha mostrado rapidez na análise das imagens, sua performance foi prejudicada por problemas de coerência e memória conversacional, levando-o a confundir questões já respondidas.
O Grok apresentou o menor número de acertos (33), indicando a menor capacidade de acurácia entre os modelos. No entanto, sua principal vantagem reside na eficiência de uso, caracterizada pela resposta rápida e pela facilidade em processar as imagens sem dificuldades, o que sugere que, apesar da baixa precisão, ele é o modelo mais ágil e direto na entrega da informação.
Como estudar com bolsa de estudo
Está de olho na oportunidade de estudar e quer saber como fazer isso pagando mensalidades mais em conta?
A Quero Bolsa, uma plataforma que oferece bolsas de estudo de até 80% em mais de 1.000 instituições de ensino espalhadas por todo o Brasil, pode ajudar você a transformar isso em realidade.