Os testes avaliaram o GPT-3.5, a tecnologia da vers�o original do ChatGPT, usando ferramentas de an�lise de desempenho feitas pela OpenAI, criadora do rob�
Se fosse um aluno, o ChatGPT teria uma pontua��o m�dia de 612,3 nas provas objetivas do Enem (Exame Nacional do Ensino M�dio). Ele se sairia melhor do que 98,9% dos estudantes em ci�ncias humanas e do que 95,3% em linguagens e c�digos. No geral, superaria 78,9% dos candidatos.
Os dados s�o de an�lise do DeltaFolha feita com base nas respostas da intelig�ncia artificial (IA) em provas realizadas em cinco anos, de 2017 a 2021, a mais recente com pontua��es individuais dispon�veis publicamente, o que permite calcular a nota final do rob� em cada �rea do conhecimento.
O ChatGPT respondeu a 1.290 quest�es. � um raro exemplo de estudo nessa escala avaliando a tecnologia em portugu�s.
Em rela��o a 2020 e 2021, foram consideradas as duas aplica��es do exame em cada ano, que t�m perguntas totalmente diferentes entre si.
O resultado do Enem n�o corresponde exatamente ao percentual de perguntas certas. Acertar quest�es dif�ceis e errar f�ceis, por exemplo, pode ser entendido como chute, e isso reflete na nota final. A an�lise da reportagem reproduziu esse c�lculo, a fim de comparar diretamente a desenvoltura entre humanos e a IA.
Os testes avaliaram o GPT-3.5, a tecnologia da vers�o original do ChatGPT, usando ferramentas de an�lise de desempenho feitas pela OpenAI, criadora do rob�.
Para a primeira aplica��o da prova de 2021, a reportagem pediu que o sistema fizesse uma reda��o seguindo o mesmo enunciado da prova. Para simular a metodologia do Minist�rio da Educa��o, o texto foi corrigido por dois especialistas que utilizaram crit�rios do Enem. A nota m�dia do rob� foi 700 -melhor do que 68% dos estudantes, que tiveram 613 em m�dia.
Somando a nota da reda��o � m�dia das provas objetivas em 2021 (726,8 em ci�ncias humanas, 606,2 em linguagens e c�digos, 577 em ci�ncias da natureza e 433,6 em matem�tica), a nota do ChatGPT no Enem foi 608,7.
O resultado � melhor do que o obtido por 79% dos alunos naquele ano -a m�dia foi 535. Seria suficiente para garantir acesso a cursos como servi�o social na Universidade Federal de Pernambuco e ci�ncias sociais na Universidade Federal Fluminense.
A avalia��o considerou o c�lculo que cada curso adota (o peso das disciplinas diverge a depender da gradua��o). A nota garantiria, de acordo com o Sisu (Sistema de Sele��o Unificada), o ingresso em 63 das 938 op��es listadas por dez das universidades federais mais bem colocadas no Ranking Universit�rio Folha de 2019.
As ci�ncias humanas foram o ponto forte da IA. A m�dia das notas dos cinco anos foi de 725,3, superior � de 523,3 pontos dos estudantes. Em 2017, com a melhor nota (785,3), o rob� foi superado por somente 775 candidatos (entre 4,7 milh�es).
O ChatGPT superou os concorrentes org�nicos tamb�m nas �reas de linguagem e de ci�ncias naturais. A nota m�dia foi de 641,4 (ante 516,1) e de 639,2 (ante 492,5), respectivamente.
Na compara��o, os resultados nas provas de matem�tica s�o quase desoladores. Em m�dia, o rob� acumulou 443,1 pontos, abaixo dos 527,1 obtidos por candidatos reais. Acertou entre 13,6% e 27,3% das quest�es em cada aplica��o -algu�m que chutasse todas as respostas deveria acertar algo como 20%.
Um artigo cient�fico divulgado na �ltima quarta-feira (29) fez uma an�lise semelhante � da reportagem. Nele, pesquisadores das universidades de S�o Paulo (USP), S�o Francisco (USF) e Campinas (Unicamp) chegaram a um padr�o de desempenho parecido, com notas sofridas em matem�tica.
Para Ricardo Primi, um dos autores, uma poss�vel explica��o � que essas quest�es exigem que o rob� extraia as informa��es da pergunta e siga uma linha de racioc�nio, como montar a conta necess�ria, para chegar � resposta. No caso de humanas e linguagens, basta acessar dados que ele j� tenha visto, sem precisar executar nada.
No estudo do grupo, o resultado melhorou com uma indu��o ao GPT -quando, em vez de apenas perguntar e esperar a r�plica, os pesquisadores deram alguns exemplos de quest�es respondidas antes. Os acertos subiram ainda mais quando pediram que a tecnologia justificasse as respostas.
"Quando se apresenta um problema em texto, talvez ele n�o tenha esse mesmo dado no processo de treinamento. Ele n�o viu os padr�es dos passos do racioc�nio explicitamente", diz Primi.
A disciplina aparece como calcanhar de Aquiles do sistema desde o seu lan�amento. A OpenAI chegou a anunciar melhorias na �rea no fim de janeiro.
Em mar�o, a empresa lan�ou uma atualiza��o desse sistema, o GPT-4, mas ela ainda n�o est� amplamente dispon�vel. Nos testes oficiais, a nova vers�o mostrou desempenho melhor do que a antiga em provas criadas para humanos em rela��o ao antecessor.
REDA��O
No teste de reda��o, a reportagem passou ao rob� a mesma instru��o do Enem, utilizando como exemplo a prova de 2021. O enunciado pedia um texto dissertativo-argumentativo sobre "invisibilidade e registro civil: garantia de acesso � cidadania no Brasil".
O Enem considera cinco compet�ncias para avalia��o textual. De cara, os dois especialistas consultados ressaltaram que o texto ultrapassaria as 30 linhas permitidas.
Segundo Adriano Chan, que deu � reda��o do ChatGPT nota 760, o texto foi coeso, mas deixou a desejar nos demais itens. O professor aponta que o rob� pecou em v�rgulas e na constru��o sint�tica, mostrou pouco repert�rio sociocultural, falhou em argumentar com dados concretos e em propor uma interven��o para resolver o problema.
A corre��o da professora J�ssica Dorta identificou problemas semelhantes, com uma nota de 640. Ela tirou mais pontos por falta de coes�o e descontou pelas propostas de interven��o.
METODOLOGIA
O modelo matem�tico adotado pelo Enem, a Teoria de Resposta ao Item, prev� itens calibrados conforme par�metros de discrimina��o (se diferencia os candidatos de acordo com o n�vel de conhecimento naquele tema), dificuldade e probabilidade de acerto casual. Al�m do n�mero de acertos, o c�lculo considera quais perguntas foram respondidas corretamente.
Para chegar � nota final do ChatGPT, a reportagem reproduziu essa metodologia com base nos dados do Inep (Instituto Nacional de Estudos e Pesquisas Educacionais).
Por meio de uma interface para programadores, o rob� respondeu a cada pergunta apenas uma vez, indicando a alternativa que julgava correta, sem exemplo pr�vio. Como a tecnologia n�o interpreta imagens, foram usadas as vers�es do Enem de ledor, que s�o lidas em voz alta para candidatos com dificuldades visuais, com as descri��es oficiais de fotos e gr�ficos.
O GPT tamb�m foi configurado para ser o menos criativo poss�vel nas respostas, a fim de limitar eventuais "divaga��es". A alternativa escolhida foi extra�da das r�plicas do rob�.
Sistemas de linguagem como o GPT funcionam a partir de treinamento: s�o alimentados com bilh�es de dados textuais, dos quais extraem padr�es de encadeamento de palavras. Nesse processo, o rob� pode j� ter visto algumas das quest�es das provas aplicadas.
Os dados conhecidos pelo ChatGPT datam at� setembro de 2021, ou seja, h� uma chance de ele j� ter se deparado com perguntas e respostas de quatro edi��es do Enem testadas. O fen�meno, chamado de contamina��o, no entanto, parece ter efeito limitado.
Ao divulgar o GPT-4, pesquisadores ligados � OpenAI puseram a ferramenta para resolver uma s�rie de provas, como o SAT (esp�cie de Enem americano) e o teste para se tornar advogado nos EUA. Constataram que a contamina��o pouco impactava o resultado final: a nota era parecida mesmo desconsiderando as perguntas que a IA conhecia de antem�o.
Uma an�lise do Enem removendo os conte�dos contaminados � imposs�vel, j� que a OpenAI n�o abre ao p�blico quais foram os textos usados no processo de treinamento da m�quina. No teste brasileiro, os resultados das provas mais antigas foram semelhantes ao desempenho na prova mais recente.
*Para comentar, fa�a seu login ou assine