Um grupo de pesquisadores da Universidade do Estado da Pensilvânia (Penn State) analisou 210 mil textos gerados pelo programa GPT-2, da startup OpenAI, criadora do ChatGPT, e descobriram que há neles diversas formas de plágio, relata reportagem de Fabrício Moraes, da Revista Pesquisa Fapesp.
Segundo o texto, os pesquisadores buscaram indícios de três diferentes tipos de plágio: a transcrição literal, obtida copiando e colando trechos; a paráfrase, que troca palavras por sinônimos a fim de obter resultados ligeiramente diferentes; e o uso de uma ideia elaborada por outra pessoa sem mencionar sua autoria, mesmo que formulada de maneira diferente.
“A conclusão do estudo foi de que todos os três tipos de cópia estão presentes. E, quanto maior é o conjunto de parâmetros usados para treinar os modelos, mais frequentemente a má conduta foi registrada. A análise utilizou dois tipos de modelos – os pré-treinados, baseados em um amplo espectro de dados, e os de ajuste fino, aprimorados pela equipe da PennState a fim de concentrar e refinar a análise em um conjunto menor de documentos científicos e jurídicos, artigos acadêmicos relacionados à Covid-19 e solicitações de patentes. A escolha desse tipo de conteúdo não foi ocasional – nesses textos, a prática de plágio é considerada muito problemática e não costuma ser tolerada”, anota o texto.
Um dos autores do trabalho, Dongwon Lee, cientista da computação da Faculdade de Tecnologia e Ciências da Informação da Penn State, afirma que constatou que o plágio aparece de formatos diferentes. Os achados serão divulgados na Web Conference, um evento da ACM que acontece entre 30 de abril e 4 de maio na cidade de Austin, nos Estados Unidos. (Veja reportagem completa AQUI)