Cloudflare lanza una función para bloquear apropiación de contenidos por parte de los bots IA
Kevin Zhu | Julio 9, 2024
Ciudad de Panamá, Panamá. — El pasado miércoles 3 de julio, la plataforma de nube en internet, Cloudflare, lanza al mercado la función de bloquear todos los bots con IA pueda acceder a las páginas web con cloudflare debido a que la compañía ha detectado apropiación no consentida de contenidos por bots hechas por grandes compañías tecnológicas con el fin de alimentar a la Inteligencia Artificial que las mismas compañías crean para vender al mercado.
De acuerdo con un blog publicada por Cloudflare, ¨aunque algunas empresas de IA identifican claramente sus bots de extracción de contenidos web, no todas son transparentes¨. Además, destaca algunos ejemplos como Google que paga 60 millones de dólares a la red social Reddit para usar los contenidos subidos por los usuarios a la plataforma.
Otro de los ejemplos dado es la alegación de la actriz Scarlett Johansson que, según ella, OpenAI usó su voz para el nuevo asistente personal sin los consentimientos de ella. Adicionalmente, da el ejemplo de Perplexity, una IA GPT similar a la que ofrece OpenAI, donde es acusada de falsificar identidad por pasar como visitantes web legítimos para extraer y usar los materiales extraídos de la página web visitada para alimentar a la IA.
Aunque el 29 de septiembre de 2023 la compañía Cloudflare dio a conocer la capacidad para bloquear el acceso a los bots no fraudulentas, según estadística proporcionada por la misma empresa, señala que el 85.2% de los clientes de Cloudflare prefieren bloquear los accesos de los bots ¨buenos¨ aunque éstas no representan una amenaza de apropiación de contenidos.
¨Los clientes de Cloudflare prefirieron la acción de los rastreadores de IA¨. Gráfica tomada de Cloudflare.
Apoya al Periodismo Independiente con su Publicidad
Contáctanos en contacto@prensanacionalpa.com
Para entender cómo se diferencian los bots buenos de los malos, hay que entender qué es el archivo robots.txt. Elarchivo es como un ¨código de conducta¨ para los bots, donde señalan indicaciones de las cosas que puede hacer el bot bueno, son normativas que administra las actividades del bot dentro de una página web, cada una traen sus instrucciones para los bots visitantes buenos. Los bots malos, de lo contrario, no siguen las instrucciones del robots.txt.
¨Estos robots "rastrean" páginas web e indexan el contenido para que pueda aparecer en los resultados de los motores de búsqueda. Un archivo robots.txt ayuda a administrar las actividades de estos rastreadores web para que no sobrecarguen al servidor web que aloja el sitio web ni indexen páginas que no están destinadas a la vista pública¨, señala Cloudflare.
Debido a esa problemática, Cloudflare, a través de su plataforma, implementa la opción de ¨raspadores y rastreadores de IA¨ (AI Scrapers and Crawlers en inglés), donde bloquea el acceso a los bots con IA, ya sea maliciosa o no. La función está disponible para acceso gratuito y suscrita a la plataforma.
¨Esta función se actualizará automáticamente con el tiempo a medida que veamos nuevas huellas digitales de bots infractores que identifiquemos como rastreadores web para el entrenamiento de modelos¨, indicó Cloudflare.
Apoya al Periodismo Independiente con su Publicidad
Contáctanos en contacto@prensanacionalpa.com
Actividad de los bots de IA, gráfica recopilada en Cloudflare.
De acuerdo con los análisis de Cloudflare, ¨Si observamos el número de solicitudes realizadas a los sitios de Cloudflare, vemos que Bytespider, Amazonbot, ClaudeBot y GPTBot son los cuatro principales rastreadores de IA. ByteDance, la empresa china propietaria de TikTok, utiliza Bytespider para recopilar datos de entrenamiento para sus modelos de lenguaje de gran tamaño (LLM), incluidos los que dan soporte a su rival ChatGPT, Doubao. Amazonbot y ClaudeBot siguen a Bytespider en volumen de solicitudes. Amazonbot, que supuestamente se utiliza para indexar el contenido de las respuestas a las preguntas de Alexa, envió el segundo mayor número de solicitudes y ClaudeBot, que se utiliza para entrenar al chatbot de Claude, ha aumentado recientemente su volumen de solicitudes¨.
Gráfica recopilada en Cloudflare.
De acuerdo con estadísticas de Cloudflare, 40.4% de los sitios web con Cloudflare en uso son visitada por el bot IA de la compañía ByteDance, empresa conocida por su producto virtual TikTok. Luego sigue de segundo el bot GPTBot, de la compañía OpenAI, con 35.46%. Esos números son una demostración más de las masivas actividades de los bots IA.
Apoya al Periodismo Independiente con su Publicidad
Contáctanos en contacto@prensanacionalpa.com
Traducción: ¨Distribución de agentes de usuario no permitida en robots.txt¨. Gráfica recopilada en Cloudflare.
Se puede apreciar que, generalmente, los sitios webs con instrucciones robots.txt protegidos con Cloudflare bloquean más los bots IA como GPTBot, CCBot o Google-Extended ya sea completamente o parcialmente, pero no deshabilitan bots IA como Bytespider o Claudebot, dando más ventajas a los no bloqueados para que cometan fraudes informáticos.
Se puede apreciar que, generalmente, los sitios webs con instrucciones robots.txt protegidos con Cloudflare bloquean más los bots IA como GPTBot, CCBot o Google-Extended ya sea completamente o parcialmente, pero no deshabilitan bots IA como Bytespider o Claudebot, dando más ventajas a los no bloqueados para que cometan fraudes informáticos.
Apoya al Periodismo Independiente con su Publicidad
Contáctanos en contacto@prensanacionalpa.com