« Furtivité de crawling » de Perplexity AI détectée dans une étude de Cloudflare

perplexity logo

Une série de tests révèle une activité de crawling furtif par Perplexity AI, où le moteur de réponse IA tente de contourner les blocages réseau en dissimulant notamment son identité.

Perplexity AI contourne les blocages web en dissimulant son identité, selon une étude de Cloudflare. Les tests montrent que Perplexity a même accédé à des sites web de test expressément configurés pour bloquer les crawlers via robots.txt et des règles WAF spécifiques. Les réponses de l’IA contenaient des informations provenant de ces sites protégés, bien qu’ils n’aient jamais été rendus publiquement accessibles ni indexés par les moteurs de recherche. Perplexity AI qualifie l’étude de Cloudflare d’argumentaire commercial.

User-agent

Les modèles d’IA comme Perplexity dépendent des informations sur Internet pour formuler leurs réponses. Ils parcourent le web pour découvrir et indexer les informations. Les sites web tentent de contrer cela en utilisant le fichier standard Robots.txt, qui indique aux entreprises d’IA quelles pages peuvent être indexées et lesquelles ne le peuvent pas.

Perplexity AI fournit des informations sur un site web qui devrait bloquer les crawlers. Source : Cloudflare.

C’est apparemment sans compter sur Perplexity. L’entreprise d’IA contournerait cela en modifiant le ‘user agent’ de ses bots. « Nous voyons constamment des preuves que Perplexity modifie régulièrement son user-agent et ses ASN sources pour masquer son activité de crawling, et ignore les fichiers robots.txt – ou parfois ne les récupère même pas », selon Cloudflare. Ainsi, le trafic semble provenir d’utilisateurs aléatoires plutôt que d’un crawler.

« Nous avons constaté que Perplexity utilise non seulement leur user-agent déclaré, mais aussi un navigateur générique conçu pour se faire passer pour Google Chrome sur macOS lorsque leur crawler déclaré a été bloqué », selon Cloudflare.

Transparence

Le porte-parole de Perplexity, Jesse Dwyer, a qualifié le billet de blog de Cloudflare d’« argumentaire commercial » dans un e-mail adressé à TechCrunch. « Les captures d’écran du blog montrent qu’aucun contenu n’a été ouvert », écrit-il. Dans un e-mail de suivi, Dwyer a affirmé que le bot mentionné dans le blog de Cloudflare « n’est même pas le nôtre ».

lire aussi

Perplexity lance son propre outil de recherche approfondie

Les critiques sur le comportement de Perplexity rejoignent les préoccupations plus larges concernant la transparence et le contrôle sur Internet. Les administrateurs de sites web exigent que les crawlers utilisent des identités claires, fournissent des informations de contact et ne se cachent pas derrière des profils de navigateur génériques. Il est également attendu que les crawlers divulguent leurs adresses IP et respectent les limites et règles établies par les sites web.