A Meta, empresa controladora de plataformas como Facebook, Instagram e WhatsApp, está no centro de uma controvérsia significativa envolvendo o uso de materiais protegidos por direitos autorais para treinar seus modelos de inteligência artificial (IA). Documentos judiciais recentemente divulgados revelam que a empresa baixou ilegalmente mais de 81 terabytes (TB) de livros de bibliotecas online conhecidas por hospedarem conteúdo pirata, como a Library Genesis (LibGen) e a Z-Library, para alimentar seus sistemas de IA.

Aquisição de Dados e Métodos Utilizados

De acordo com os documentos, a Meta utilizou métodos de compartilhamento de arquivos via torrent para baixar esses materiais. Mensagens internas indicam que funcionários estavam cientes da ilegalidade dessa prática. Em uma comunicação de abril de 2023, o pesquisador Nikolay Bashlykov expressou preocupação, afirmando: “Baixar torrent de um laptop corporativo não parece certo”. Além disso, ele alertou sobre os riscos legais associados ao uso de endereços IP da Meta para baixar conteúdo pirata.

A decisão de utilizar o conjunto de dados da LibGen foi tomada após consulta direta com o CEO Mark Zuckerberg, conforme revelam os e-mails internos. Isso contradiz declarações anteriores de que ele não estava envolvido nessas decisões.

Implicações Legais e Resposta da Meta

A descoberta dessas práticas levou a processos judiciais movidos por autores e artistas, incluindo a comediante Sarah Silverman e o escritor Ta-Nehisi Coates, que acusam a Meta de violação de direitos autorais. Eles alegam que suas obras foram usadas sem permissão para treinar os modelos de IA da empresa.

Em sua defesa, a Meta argumenta que o uso desses materiais se enquadra no conceito de “uso justo” (fair use), uma doutrina que permite o uso limitado de obras protegidas para fins como pesquisa ou educação. No entanto, o volume massivo de dados obtidos ilegalmente e a tentativa de ocultação dessas atividades podem enfraquecer essa defesa.

Repercussão e Impacto na Indústria de IA

Este caso destaca desafios significativos na interseção entre desenvolvimento de IA e direitos autorais. A dependência de grandes volumes de dados para treinar modelos de IA levanta questões éticas e legais sobre a origem desses dados e o respeito aos direitos dos criadores originais.

Se a Meta for considerada culpada, isso pode estabelecer um precedente para ações legais futuras contra outras empresas de tecnologia que utilizam materiais protegidos sem autorização em seus processos de treinamento de IA. Isso poderia levar a uma reavaliação das práticas de coleta de dados na indústria e possivelmente à implementação de regulamentações mais rígidas para proteger os direitos dos autores.

A controvérsia em torno das práticas da Meta na aquisição de dados para treinar seus modelos de IA serve como um alerta para a indústria de tecnologia. É imperativo que as empresas equilibrem a busca por inovação com o respeito aos direitos de propriedade intelectual, garantindo que o desenvolvimento tecnológico avance de maneira ética e legal.

Leia também: