Cloudflare acusa Perplexity de fugir das restrições de bots

A Cloudflare acusou publicamente a Perplexity AI de usar rastreadores da web furtivos e não declarados para contornar as restrições padrão de bots definidas pelos sites. Em uma postagem detalhada no blog, a Cloudflare alegou que a Perplexity não está apenas ignorando as diretivas robots.txt, mas também usando intervalos de IP alternativos e agentes de usuário camuflados para mascarar a atividade de sua infraestrutura de web scraping.

O foco doacusaçãoé que o Perplexity está contornando um padrão comum da web usado para evitar indexação ou raspagem indesejada. Isso acontece quando um rastreador acessa um site sem se identificar adequadamente ou quando evita ativamente a detecção, apresentando-se falsamente por meio de strings de agente de usuário enganosas ou vindo de uma infraestrutura não associada à rede de bots conhecida da empresa. Segundo a Cloudflare, é exatamente isso que a Perplexity tem feito.

A Cloudflare observou que os IPs envolvidos na atividade não correspondiam às informações declaradas pelo rastreador da Perplexity. Ele disse que o rastreador público da Perplexity, chamado PerplexityBot, respeita as regras de exclusão. No entanto, o tráfego em questão veio de uma infraestrutura totalmente diferente, com agentes de usuário genéricos ou vazios, e continuou a solicitar dados mesmo quando os sites proibiram explicitamente os rastreadores. A Cloudflare afirma que, ao bloquear esses bots, o tráfego mudaria para outra rede para tentar novamente, apontando para uma evasão deliberada.

A Perplexity respondeu às alegações dizendo que acessa apenas páginas públicas e atribuiu a atividade de rastreamento a um provedor terceirizado. A empresa não negou diretamente o uso desses dados em seus produtos. No entanto, a Cloudflare argumentou que essa resposta contorna o problema central: o tráfego ainda chegava aos sites sem seguir as restrições claramente publicadas e foi rastreado até as operações de back-end do Perplexity.

A preocupação mais ampla da Cloudflare é que algumas empresas de IA estão cada vez mais ignorando os padrões da web, enquanto constroem produtos comerciais com base em conteúdo copiado. A postagem enfatizou que milhões de sites que usam os serviços da Cloudflare estabeleceram regras para bloquear rastreadores específicos ou todos os bots automatizados, e que essas regras devem ser respeitadas por qualquer pessoa que atue de boa fé. A Cloudflare também disse que está trabalhando para fortalecer suas ferramentas de mitigação de bots e começou a bloquear essas técnicas de evasão de forma mais agressiva.

A tensão surge em meio ao crescente escrutínio sobre como as empresas de IA adquirem seus dados de treinamento. À medida que a concorrência na IA se intensifica, mais empresas são apanhadas a ultrapassar os limites da recolha ética de dados. Este caso envolvendo Perplexity contribui para um debate mais amplo sobre transparência, permissão e como as ferramentas de IA devem ser treinadas.

Mais leitura:NLRB acusa Apple de esmagar esforços de sindicalização na loja de Nova York