ChatGPT x Enem: robô é melhor que 80% dos alunos, mas derrapa em matemática

um robô, chamado de inteligência artificial — Os testes avaliaram o GPT-3.5, a tecnologia da versï¿½o original do ChatGPT, usando ferramentas de anï¿½lise de desempenho feitas pela OpenAI, criadora do robï¿½
AFP/Reproduï¿½ï¿½o

Se fosse um aluno, o ChatGPT teria uma pontuaï¿½ï¿½o mï¿½dia de 612,3 nas provas objetivas do Enem (Exame Nacional do Ensino Mï¿½dio). Ele se sairia melhor do que 98,9% dos estudantes em ciï¿½ncias humanas e do que 95,3% em linguagens e cï¿½digos. No geral, superaria 78,9% dos candidatos.

REDAï¿½ï¿½O

No teste de redaï¿½ï¿½o, a reportagem passou ao robï¿½ a mesma instruï¿½ï¿½o do Enem, utilizando como exemplo a prova de 2021. O enunciado pedia um texto dissertativo-argumentativo sobre "invisibilidade e registro civil: garantia de acesso ï¿½ cidadania no Brasil".

O Enem considera cinco competï¿½ncias para avaliaï¿½ï¿½o textual. De cara, os dois especialistas consultados ressaltaram que o texto ultrapassaria as 30 linhas permitidas.

Segundo Adriano Chan, que deu ï¿½ redaï¿½ï¿½o do ChatGPT nota 760, o texto foi coeso, mas deixou a desejar nos demais itens. O professor aponta que o robï¿½ pecou em vï¿½rgulas e na construï¿½ï¿½o sintï¿½tica, mostrou pouco repertï¿½rio sociocultural, falhou em argumentar com dados concretos e em propor uma intervenï¿½ï¿½o para resolver o problema.

A correï¿½ï¿½o da professora Jï¿½ssica Dorta identificou problemas semelhantes, com uma nota de 640. Ela tirou mais pontos por falta de coesï¿½o e descontou pelas propostas de intervenï¿½ï¿½o.

METODOLOGIA

O modelo matemï¿½tico adotado pelo Enem, a Teoria de Resposta ao Item, prevï¿½ itens calibrados conforme parï¿½metros de discriminaï¿½ï¿½o (se diferencia os candidatos de acordo com o nï¿½vel de conhecimento naquele tema), dificuldade e probabilidade de acerto casual. Alï¿½m do nï¿½mero de acertos, o cï¿½lculo considera quais perguntas foram respondidas corretamente.

Para chegar ï¿½ nota final do ChatGPT, a reportagem reproduziu essa metodologia com base nos dados do Inep (Instituto Nacional de Estudos e Pesquisas Educacionais).

Por meio de uma interface para programadores, o robï¿½ respondeu a cada pergunta apenas uma vez, indicando a alternativa que julgava correta, sem exemplo prï¿½vio. Como a tecnologia nï¿½o interpreta imagens, foram usadas as versï¿½es do Enem de ledor, que sï¿½o lidas em voz alta para candidatos com dificuldades visuais, com as descriï¿½ï¿½es oficiais de fotos e grï¿½ficos.

O GPT tambï¿½m foi configurado para ser o menos criativo possï¿½vel nas respostas, a fim de limitar eventuais "divagaï¿½ï¿½es". A alternativa escolhida foi extraï¿½da das rï¿½plicas do robï¿½.

Sistemas de linguagem como o GPT funcionam a partir de treinamento: sï¿½o alimentados com bilhï¿½es de dados textuais, dos quais extraem padrï¿½es de encadeamento de palavras. Nesse processo, o robï¿½ pode jï¿½ ter visto algumas das questï¿½es das provas aplicadas.

Os dados conhecidos pelo ChatGPT datam atï¿½ setembro de 2021, ou seja, hï¿½ uma chance de ele jï¿½ ter se deparado com perguntas e respostas de quatro ediï¿½ï¿½es do Enem testadas. O fenï¿½meno, chamado de contaminaï¿½ï¿½o, no entanto, parece ter efeito limitado.

Ao divulgar o GPT-4, pesquisadores ligados ï¿½ OpenAI puseram a ferramenta para resolver uma sï¿½rie de provas, como o SAT (espï¿½cie de Enem americano) e o teste para se tornar advogado nos EUA. Constataram que a contaminaï¿½ï¿½o pouco impactava o resultado final: a nota era parecida mesmo desconsiderando as perguntas que a IA conhecia de antemï¿½o.

Uma anï¿½lise do Enem removendo os conteï¿½dos contaminados ï¿½ impossï¿½vel, jï¿½ que a OpenAI nï¿½o abre ao pï¿½blico quais foram os textos usados no processo de treinamento da mï¿½quina. No teste brasileiro, os resultados das provas mais antigas foram semelhantes ao desempenho na prova mais recente.

ChatGPT x Enem: robï¿½ ï¿½ melhor que 80% dos alunos, mas derrapa em matemï¿½tica

REDAï¿½ï¿½O

METODOLOGIA

MAIS NOTï¿½CIAS