Recentes revelações em um processo judicial mostram que a OpenAI pode ter usado mais de 100.000 livros para treinar seu modelo GPT-3, potencialmente infringindo direitos autorais de escritores e editoras. A acusação é feita pela Authors Guild, um grupo de escritores dos EUA, que também afirma que a empresa apagou os dados usados e demitiu os funcionários ligados ao projeto assim que a ação legal começou. Os conjuntos de dados, chamados “books1” e “books2”, somavam aproximadamente 50 bilhões de palavras.
Inicialmente, a OpenAI hesitou em compartilhar detalhes, alegando questões de confidencialidade, mas acabou admitindo a exclusão dos dados, que representavam 16% do material usado para desenvolver o GPT-3, conforme um documento técnico de 2020. Os pesquisadores que trabalharam nesses dados já não fazem mais parte da OpenAI, e a empresa tem trabalhado para manter em segredo suas identidades e os detalhes dos dados, apesar das pressões do Authors Guild, que argumenta que o público merece saber dessas práticas.
A OpenAI assegura que os modelos atuais, como o ChatGPT e outras APIs, não foram criados com esses dados polêmicos, que foram usados pela última vez em 2021 e eliminados no ano seguinte por falta de uso. Em meio a este processo judicial, a OpenAI firmou parcerias com vários jornais internacionais, como Associated Press, Axel Springer, Le Monde e Financial Times, visando o treinamento responsável de seus modelos de IA.