Immagine di rawpixel.com su Freepik
Cloudflare ha pubblicato un report dettagliato che accusa Perplexity AI di aggirare le regole di accesso ai contenuti web, sollevando un nuovo fronte di conflitto tra piattaforme di sicurezza informatica e aziende di intelligenza artificiale.
L’azienda americana, leader nei servizi di protezione per siti web, accusa Perplexity di raccogliere dati da milioni di pagine ignorando le norme tecniche adottate per limitare i crawler (software che navigano automaticamente per il web raccogliendo informazioni e indicizzando i contenuti dei siti).
Perplexity, dal canto suo, nega le accuse, sostenendo che si tratta di un errore di interpretazione da parte di Cloudflare.
Scontro tecnico e commerciale tra due realtà strategiche
La tensione nasce da interessi diversi, Cloudflare fornisce infatti servizi di gestione del traffico bot per oltre 2,5 milioni di siti, mentre Perplexity AI sviluppa assistenti intelligenti basati su LLM che necessitano di accedere a contenuti online per generare risposte personalizzate.
Di recente, Cloudflare ha lanciato l’iniziativa Content Independence Day, che consente ai suoi clienti di bloccare automaticamente i crawler AI utilizzati per addestrare modelli linguistici, rafforzando la tutela dei contenuti originali online.
Le accuse: tecniche elusive e mancato rispetto delle regole web
Secondo il report, Perplexity avrebbe utilizzato strategie tecniche opache per eludere i controlli di accesso, come l'uso di reti diverse per camuffare l'origine delle richieste, la falsificazione dell’user-agent per far apparire il traffico come proveniente da browser legittimi o ignorare le direttive del file robots.txt, che serve a indicare ai crawler le pagine da escludere.
Queste azioni, secondo Cloudflare, sarebbero finalizzate ad aggirare le preferenze esplicite dei webmaster, generando milioni di richieste giornaliere e costi aggiuntivi significativi per i server coinvolti.
La replica di Perplexity: “Non siamo bot malevoli”
Perplexity AI replica che Cloudflare non è in grado di distinguere tra assistenti AI utilizzati dagli utenti e crawler automatizzati non autorizzati e dichiara: “Se non si riesce a distinguere un assistente digitale utile da uno scraper malevolo, non si dovrebbero prendere decisioni su cosa sia traffico legittimo”.
Secondo l'azienda, il traffico generato dai propri strumenti proviene da interazioni reali degli utenti, che pongono domande per le quali l’IA consulta fonti online al fine di elaborare risposte sintetiche e continua sostenendo che Cloudflare avrebbe erroneamente attribuito a Perplexity fino a 6 milioni di richieste giornaliere provenienti da BrowserBase, un servizio terzo che fornisce accesso web per agenti AI.
Conseguenze e precedenti
Intanto Cloudflare ha rimosso Perplexity dall’elenco dei bot autorizzati nella sua piattaforma di gestione e ha aggiornato i propri sistemi per facilitare il blocco selettivo da parte dei clienti.
Perplexity non è nuova a controversie sul riuso dei contenuti: Forbes, Time e Wired hanno accusato l’azienda di generare risposte che riproducono materiale protetto senza citarne la provenienza. Nel 2024, Perplexity ha avviato un accordo di revenue sharing con alcuni editori, nel tentativo di regolamentare l’utilizzo dei contenuti giornalistici all’interno delle sue risposte AI.
Una questione di regole e trasparenza nell’ecosistema AI
Il caso Cloudflare-Perplexity riporta l’attenzione su un nodo centrale dell’intelligenza artificiale moderna: come bilanciare l’accesso libero alle informazioni online con la protezione del lavoro editoriale e dei dati.
L’assenza di standard normativi internazionali unificati rende complesso stabilire limiti chiari tra uso legittimo e scraping aggressivo, ma a maggior ragione in questo particolare contesto, la trasparenza nei meccanismi di raccolta e utilizzo dei dati diventa cruciale.