Piratería y copyright en la era de ChatGPT

Las contradicciones entre la industria del copyright y la aceleración del desarrollo de la inteligencia artificial están llegando a un limite.

Si le creemos los números a OpenAI, las inteligencias artificiales están siendo usadas por un 10% de la humanidad. Pero prácticamente por definición, estas inteligencias están entrenadas con textos que en su gran mayoría no están licenciados para su uso comercial gratuitamente.

Las empresas de desarrollo de inteligencia artificial están teniendo consecuencias por infringir derechos de autor, pero son menores. El tema, como siempre, es que al tener miles de millones de dólares provenientes de capital de riesgo pueden pagar para resolver estos juicios como un "costo de hacer negocios". El juicio que hasta ahora promete pagar la mayor cantidad de dinero a los autores cuyos libros fueron utilizados para el entrenamiento de IA es de 1.500 millones de dólares2. Esto es para Anthropic, una empresa que en su ultima valoración (en mi opinión, inflada) en septiembre de 2025 valía 183.000 millones de dólares3. El monto del juicio no es menor, pero la empresa va a sobrevivir habiéndose beneficiado de este extractivismo de propiedad intelectual(?)

Desde ya antes de la IA no me cerraba el sistema de "derechos de autor" que tenemos, pero creo que este problema expone que las mismas empresas de tecnología están llegando a una especie de crisis del copyright. Esto está particularmente evidenciado en la forma que estas empresas utilizan los mismos sitios y archivos explicitamente piratas para descargar estos libros. Meta utilizó 81 TB de libros descargados de Library Genesis (LibGen) y de Anna's Archive4. Anthropic también5. OpenAI utilizó Books1 y Books2, datasets armados en base a libros pirateados6. Ya que a los chinos no les importa nada, DeepSeek admite públicamente en sus papers que usan datasets de Anna's Archive7.

Me parece importante utilizar las palabras correctas al describir estas cosas. Ninguna de estas empresas se "robó" nada, porque copiar no es robar. Y de hecho, creo que muchos de los mismos argumentos que vienen utilizando las piratas aplican acá también. Por eso me parece muy gracioso cuando supuestos "anarquistas" de internet utilizan la misma terminología que utilizan los terratenientes de propiedad intelectual:

Me parecen mas interesantes dos análisis distintos a estos:

Por un lado, el de Anna's Archive, que es un archivo pirata cuyo objetivo principal es preservar el conocimiento y la cultura de la humanidad para siempre. Básicamente, consiguen colecciones masivas de muchos tipos de libros y los distribuyen públicamente para que haya la mayor cantidad de copias posibles. Como mencioné anteriormente, las colecciones de Anna's Archive son constantemente usadas por todas las empresas de IA para entrenar modelos. Bueno, los locos del Archive vieron esto y pensaron como utilizarlo para ayudar a su proyecto, así que ofrecen servicios de descarga rápida e incluso acceso a colecciones todavía no lanzadas a las empresas de IA, a cambio de que que les paguen o les den otras colecciones de libros nuevas8, como una especie de trueque informático pirata.

Por otro lado, el argumento de Molly White es uno optimista: que las empresas de IA utilicen todo el conocimiento abierto (tipo Wikipedia/Creative Commons), pero que a su vez colaboren y aporten financieramente a ese mismo conocimiento. Les recomiendo leer su artículo, pero acá van algunas citas mal traducidas por su servidor:

Esta es la situación [anti-IA] en la que se encuentran hoy en día muchos creadores, particularmente en respuesta al entrenamiento de IA. Pero las soluciones que están buscando – licencias más restrictivas, muros de pago (paywalls), o no directamente no publicar – arriesgan destruir los mismos bienes comunes que originalmente buscaron construir.

Pero el problema de constantemente intentar restringir las definiciones de "libre" [o "gratis"] es que es imposible escribir una licencia que perfectamente prohibe cada posibilidad que [un autor] diga "no, así no [usen mi creación]" y simultáneamente mantener los beneficios de acceso abierto y gratuito. Si esto es lo que un creador realmente quiere, entonces probablemente deberían volver a un modelo de derechos de autor más tradicional en donde cualquier reutilizador de su obra tenga que negociar términos individualmente con el autor; pero esto compromete el propósito de [las licencias libres] y limita el reuso permitido solo a aquellos que cuentan con el tiempo, los medios y el poder de negociación para negociar caso por caso.

Creo que el punto de los dos análisis es el mismo: las IAs no deberían ser una cuestión de ser anti- (aparte porque no es una posición útil en el mundo real), sino de que son una utilización más de una cultura cada vez más abierta.

No nos podemos olvidar que lo que están haciendo estas grandes empresas hoy en día es lo mismo por lo que se persiguió a Aaron Swartz, solo que en mayor escala.

En otro artículo, Anna's Archive profundiza en su posición relacionada a la IA: plantea muchas empresas (principalmente chinas) recibieron acceso de alta velocidad con el servicio que mencioné antes, mientras que la mayoría de las empresas de EEUU y otros países decidieron no aceptar la oferta por miedo a la utilización de material con copyright, y creen que esto es un problema económico y de seguridad nacional para EEUU: dicen que el occidente tiene que reconsiderar su posición en cuanto al copyright urgentemente.

Si el occidente quiere mantenerse en la vanguardia en la carrera de los LLMs, y, en última instancia, de la AGI [Inteligencia Artificial General] tiene que reconsiderar su posición en cuanto al copyright, y pronto. Por más que estés o no de acuerdo en nuestra posición moral [que hay que archivar y disponibilizar gratuitamente todo el conocimiento humano], esto se está convirtiendo en un asunto económico, y hasta de seguridad nacional. [..]

¿Terminará la IA con el copyright? ¿O las empresas de IA lograran suficientes acuerdos con los dueños de los "derechos de autor" para que no les sea un problema?

Les dejo con un par de memes: