«`html
La defensa del «uso justo» se tambalea: un estudio revela que los LLMs no solo aprenden, sino que plagian bloques enteros de texto.
Durante años, Silicon Valley nos ha vendido una narrativa reconfortante: las inteligencias artificiales no copian, «aprenden». Nos dijeron que funcionan como un estudiante que lee mil libros para entender la gramática, pero que jamás memoriza el texto palabra por palabra. Sin embargo, esa defensa legal acaba de recibir un golpe devastador. Un estudio reciente de las universidades de Stanford y Yale ha demostrado que Gemini 2.5, el modelo avanzado de Google, es capaz de regurgitar casi el 80% del primer libro de Harry Potter. Y esto cambia las reglas del juego para siempre.
🔥 En 3 claves:
- La evidencia del plagio: Gemini 2.5 replicó el 76,8% de «Harry Potter y la Piedra Filosofal» palabra por palabra.
- El fin del «Uso Legítimo»: Si la IA almacena copias exactas, las tecnológicas pierden su principal escudo legal contra demandas millonarias.
- Precedentes costosos: Anthropic ya tuvo que pagar 1.500 millones de dólares por almacenar obras piratas, marcando el inicio de una era de litigios.
El problema de memorización de Gemini 2.5: una fotocopiadora glorificada
Hasta ahora, compañías como OpenAI, Google y Meta se escudaban en la doctrina del «Fair Use» (uso legítimo). Argumentaban que sus modelos transformaban los datos de entrenamiento en algo nuevo. Pero la realidad técnica ha demostrado ser mucho más cruda. Los investigadores descubrieron que, al incentivar a los modelos a completar frases específicas, estos empezaban a recitar pasajes enteros de obras protegidas.
No es un caso aislado. Mientras que Gemini 2.5 alcanzó una precisión del 76,8% reproduciendo la obra de J.K. Rowling, el modelo Grok 3 no se quedó atrás, replicando un 70,3% del mismo texto. Obras como Juego de Tronos y El Hobbit también fueron vulnerables a esta extracción forzada.

Y aquí viene lo interesante…
El problema no es que la IA haya leído el libro; el problema es que, técnicamente, lo ha comprimido y almacenado en sus parámetros. Esto contradice la afirmación de que los LLM solo retienen conceptos abstractos. Si puedes extraer el libro casi íntegro, entonces el modelo no es solo una herramienta de creación, es una base de datos de contenido no licenciado.
«La reproducción de un libro completo es claramente una infracción de derechos, planteando la pregunta de si ocurre con frecuencia suficiente como para hacer a las empresas de IA responsables indirectamente.»
El coste millonario de la «Memoria Eidética»
Las consecuencias de este hallazgo no son teóricas; ya tienen precio. El año pasado, un tribunal estadounidense dictaminó que, aunque el entrenamiento podría ser uso legítimo, el almacenamiento de obras piratas es una línea roja. Anthropic aprendió esta lección por las malas, desembolsando una multa de 1.500 millones de dólares para cerrar una demanda.
En Europa, la situación es igual de tensa. Un tribunal alemán falló a favor de la asociación GEMA contra OpenAI, al demostrarse que el modelo había memorizado letras de canciones protegidas. Para entender más sobre cómo la tecnología está redefiniendo el marco legal, puedes visitar nuestro análisis en Virtua Barcelona.
La defensa de las Big Tech: «Es culpa del usuario»
Frente a la evidencia, la respuesta de la industria ha sido predecible: culpar al método. Empresas como Anthropic argumentan que los investigadores utilizaron técnicas de «jailbreaking» que un usuario promedio no aplicaría. Sostienen que extraer el texto de Harry Potter de una IA requiere más esfuerzo que simplemente comprar el libro o descargarlo ilegalmente.
Sin embargo, expertos como Ben Zhao, de la Universidad de Chicago, cuestionan la ética misma del desarrollo. ¿Es necesario ingerir material con copyright para crear una IA avanzada? La respuesta podría redefinir el futuro de modelos como Gemini 2.5. Si quieres estar al día con estos debates éticos, revisa nuestro Blog General.

Preguntas Frecuentes sobre Gemini 2.5 y Copyright
¿Es legal que Gemini 2.5 haya leído Harry Potter?
La lectura no es el problema, sino la reproducción. Si el modelo puede generar el texto exacto, los tribunales pueden considerar que la empresa está distribuyendo copias ilegales de la obra, violando el copyright.
¿Puedo ser demandado por usar contenido generado por IA que plagia libros?
Es un área gris. Actualmente, la responsabilidad recae principalmente en las empresas que entrenan los modelos (como Google o OpenAI), pero el uso comercial de textos plagiados generados por IA podría acarrear riesgos legales para el usuario final en el futuro.
¿Van a eliminar estos modelos por culpa de los derechos de autor?
No desaparecerán, pero es probable que veamos «lobotomías» digitales. Las empresas tendrán que aplicar filtros más agresivos o reentrenar sus modelos excluyendo datos protegidos, lo que podría hacer que la IA sea temporalmente «menos inteligente» o más costosa.
Fuente original de la noticia: Expansión / Financial Times.
«`