
23/08/2025
Nesta quarta (20), a Folha de S.Paulo processou a OpenAI, acusando a criadora do ChatGPT de usar seu conteúdo para treinar a plataforma de inteligência artificial sem qualquer pagamento ou autorização. E isso é algo que deve interessar a todos nós.
O jornal afirma que é possível obter, pelo sistema, a íntegra de material exclusivo a assinantes no mesmo dia em que são publicados, o que contraria a afirmação das big techs de que os robôs apenas aprendem com os textos, sem reproduzi-los. Isso configuraria concorrência desleal e violação de direitos autorais.
A ação exige que a OpenAI pare de usar o conteúdo do veículo e pague indenização. A Folha também requer que a OpenAI destrua os modelos que usaram seu material protegido.
Em um repositório de funcionários da OpenAI na plataforma GitHub, a Folha, o UOL e o Globo aparecem entre os principais conjuntos de dados para treinamento do ChatGPT. Apenas em julho, GPT bots, cuja função é o treinamento de modelos da OpenAI, acessaram mais de 45 mil vezes o site da Folha.
O Estadão, concorrente direto da Folha, repercutiu o caso, conversando com a Folha e tentando falar (sem resposta) com a OpenAI. Mas o curioso foi “entrevistar” o próprio ChatGPT sobre a ação. A conclusão da plataforma desagradaria seus criadores: “o uso de conteúdo protegido por paywall é um ponto crítico contra a OpenAI porque mostra que não se trata apenas de ‘treinar modelos com dados públicos’, mas sim de usar material exclusivo e monetizado, o que enfraquece a defesa baseada em fair use e fortalece a alegação de concorrência desleal.”
A ação da Folha, que corre na Justiça de São Paulo, se parece à do The New York Times contra a OpenAI e a Microsoft, iniciada nos EUA em dezembro de 2023. O jornal americano afirma que a OpenAI deveria pagar bilhões de dólares em indenização, interromper a coleta de seu conteúdo e destruir os modelos criados com ele.
O problema é que, pela maneira como esses modelos são criados, não é possível extrair um conteúdo específico depois que ele foi usado no seu treinamento. Remover um conteúdo significaria destruir o modelo e recriá-lo do zero, sem aquela fonte.
Mais que uma contenda entre duas empresas, essa ação é mais uma que evidencia o desprezo das big techs por direitos autorais. Entendo que todos nós usamos o incrível poder da IA e que isso só é possível por ela ser treinada com quantidades insanas de informações, e isso não deve ser mudado.
Mas, como esses produtos rendem bilhões de dólares às big techs, é mais que justo que elas paguem aos produtores pelo conteúdo hoje usurpado. Ou então que liberem gratuitamente as versões mais poderosas de seus produtos a todo mundo.
O que você acha dessa disputa?