En un desarrollo significativo dentro del ámbito de la inteligencia artificial, la startup Perplexity ha sido criticada por supuestamente eludir las solicitudes explícitas de no raspar datos de varios sitios web, como se destaca en un informe reciente de la empresa de infraestructura de internet Cloudflare. Las acusaciones sugieren que Perplexity ha estado participando en prácticas engañosas para acceder a datos de sitios que han tomado medidas para prevenir tales acciones.
Cloudflare publicó hallazgos que indican que Perplexity pudo eludir las restricciones impuestas por numerosos sitios web que utilizaron archivos "robots.txt", los cuales sirven como guías para los rastreadores web sobre lo que se debe y no se debe indexar. A pesar de que estas directrices indican claramente sus preferencias, la investigación de Cloudflare señaló que Perplexity intentó ocultar su identidad mientras raspaba contenido, infringiendo así los derechos y elecciones de estos editores web.
La táctica principal empleada por Perplexity implica, según se informa, cambiar la configuración de "user agent" de sus bots. Estas configuraciones se utilizan para identificar la naturaleza del tráfico web que visita un sitio, incluyendo información sobre el tipo de navegador y el sistema operativo. Al alterar estos identificadores, Perplexity podría enmascarar su huella digital, lo que lleva a la obtención no autorizada de datos de los sitios protegidos. El análisis de Cloudflare reveló que este comportamiento era generalizado, afectando a "decenas de miles de dominios" y resultando en millones de solicitudes diarias.
Tras las quejas de sus clientes sobre las actividades de Perplexity, Cloudflare llevó a cabo pruebas adicionales que confirmaron las estrategias evasivas de la startup. Se observó que Perplexity no solo había manipulado los user agents, sino que también utilizó configuraciones de navegador genéricas que podrían imitar navegadores web populares como Google Chrome, complicando así los esfuerzos de detección.
En respuesta a estas acusaciones, un representante de Perplexity caracterizó las declaraciones de Cloudflare como una táctica promocional, insistiendo en que no se accedió a contenido no autorizado. La empresa supuestamente afirmó que el bot destacado por Cloudflare ni siquiera estaba asociado con Perplexity, un punto de controversia que plantea preguntas sobre la responsabilidad en el sector de scraping de IA.
La iniciativa de Cloudflare sigue una tendencia más amplia en la comunidad tecnológica, donde hay una creciente preocupación por el impacto de las tecnologías de IA en la propiedad y modelos de publicación web tradicionales. Esta situación no es exclusiva de Perplexity; se sitúa dentro de una conversación más amplia sobre la ética del raspado de datos y las metodologías de entrenamiento de IA. El lanzamiento de nuevas herramientas por parte de Cloudflare, diseñadas para combatir el raspado de datos, refleja un enfoque proactivo para salvaguardar la integridad de los dominios contra accesos no autorizados.
El enfrentamiento de Perplexity con Cloudflare no es la primera instancia en la que la startup enfrenta un escrutinio respecto al raspado no autorizado. El año pasado, medios de comunicación denunciaron acusaciones similares, afirmando que Perplexity había replicado su contenido sin permiso, destacando tensiones persistentes dentro de los paisajes de IA y medios.
A medida que las discusiones sobre el uso justo y la tecnología de IA continúan evolucionando, las ramificaciones de tales incidentes probablemente influirán en las prácticas operativas de las empresas involucradas en el raspado de datos, lo que llevará a una reevaluación del respeto por los derechos digitales y el copyright dentro de la esfera del desarrollo de IA.