Abbey

Abbey est un outil développé par KLH permettant aux marques d'analyser si les robots des LLM peuvent accéder à leur contenu. Entrez une URL pour obtenir un rapport détaillé.

Analyse robots.txt

Vérifie si les bots IA (GPTBot, ClaudeBot, PerplexityBot, etc.) sont bloqués par la politique robots.txt du site.

Détection WAF / CDN

Identifie Cloudflare, Akamai, Fastly, Imperva et détecte la gestion active des bots.

Score d'accessibilité

Grille d'évaluation avec score de confiance pour chaque bot IA de 6 marques, accompagnée de preuves.

Ce que nous vérifions

Notre scanner exécute une série de vérifications en 6 étapes pour évaluer comment un site interagit avec les bots IA de 6 fournisseurs différents.

Analyse robots.txt

Le fichier robots.txt est la première ligne de défense d'un site pour contrôler l'accès des crawlers. Nous vérifions :

1Présence et accessibilité du fichier robots.txt (HTTP 200 vs 404/403)
2Règles pour les bots OpenAI : GPTBot, OAI-SearchBot
3Règles pour les bots Anthropic : Claude-Web, ClaudeBot, anthropic-ai
4Règles pour les bots Perplexity : Perplexity-User, PerplexityBot
5Règles pour Google-Extended, Applebot-Extended, CCBot (Common Crawl)
6Déclaration de sitemaps dans le robots.txt (directive Sitemap:)

Infrastructure / CDN

Nous identifions l'infrastructure sous-jacente du site pour comprendre quelles protections sont en place :

1Résolution DNS (enregistrements A, AAAA, CNAME) pour détecter les CDN
2Recherche ASN via Team Cymru : identification du numéro AS et de l'organisation (ex : AS13335 = Cloudflare)
3Détection Cloudflare : ASN, CNAME *.cloudflare.net, en-têtes cf-ray, server: cloudflare
4Détection Akamai : ASN, CNAME *.edgekey.net / *.akamaiedge.net
5Détection Fastly : ASN AS54113, CNAME *.fastly.net
6Détection Imperva/Incapsula : ASN, CNAME *.incapdns.net
7Détection AWS CloudFront : ASN, CNAME *.cloudfront.net

WAF / Gestion des bots

Nous envoyons des requêtes HTTP avec différents User-Agents pour détecter les mécanismes de protection actifs :

1En-têtes WAF : cf-ray, cf-cache-status (Cloudflare), x-akamai-transformed (Akamai), x-fastly-request-id (Fastly), x-iinfo (Imperva)
2Cookies WAF : __cf_bm, cf_clearance (Cloudflare), ak_bmsc, _abck (Akamai), incap_ses_*, visid_incap_* (Imperva), datadome, _px (PerimeterX)
3Pages de challenge : détection de « Just a moment... », /cdn-cgi/challenge-platform, challenges.cloudflare.com, CAPTCHA, reCAPTCHA, hCaptcha
4Limitation de débit : réponse HTTP 429 avec en-tête Retry-After
5Analyse différentielle par User-Agent : comparaison des réponses entre un navigateur classique et les bots IA

Accès des bots OpenAI

Nous évaluons l'accessibilité réelle du site pour chaque bot OpenAI en croisant politique déclarée et comportement observé :

1GPTBot (crawl d'entraînement) : politique robots.txt + réponse HTTP observée + présence WAF
2OAI-SearchBot (recherche ChatGPT) : politique robots.txt + réponse HTTP observée + présence WAF
3ChatGPT-User (navigation utilisateur) : analyse basée sur la réponse WAF/challenge
4Score composite 0-100 par marque combinant politique, accès observé et activité WAF

Accès des bots Anthropic

Nous évaluons l'accessibilité du site pour les bots d'Anthropic (Claude) :

1Claude-Web : politique robots.txt + réponse HTTP observée + présence WAF
2ClaudeBot : politique robots.txt + réponse HTTP observée + présence WAF
3anthropic-ai : politique robots.txt + réponse HTTP observée + présence WAF
4Score composite 0-100 combinant tous les signaux pour les bots Anthropic

Accès des bots Perplexity

Nous évaluons l'accessibilité du site pour les bots de recherche de Perplexity :

1Perplexity-User : politique robots.txt + réponse HTTP observée + présence WAF
2PerplexityBot : politique robots.txt + réponse HTTP observée + présence WAF
3Score composite 0-100 combinant tous les signaux pour les bots Perplexity

Accès IA Google

Nous vérifions la politique robots.txt pour la directive d'entraînement IA de Google :

1Google-Extended : politique robots.txt uniquement (pas de sondage HTTP — c'est une directive robots.txt uniquement)
2Contrôle si Google utilise votre contenu pour Gemini et d'autres fonctionnalités IA

Accès IA Apple

Nous vérifions la politique robots.txt pour la directive d'entraînement IA d'Apple :

1Applebot-Extended : politique robots.txt uniquement (pas de sondage HTTP — c'est une directive robots.txt uniquement)
2Contrôle si Apple utilise votre contenu pour les fonctionnalités Apple Intelligence

Accès Common Crawl

Nous évaluons l'accessibilité du site pour le bot de Common Crawl :

1CCBot : politique robots.txt + réponse HTTP observée + présence WAF
2Les données de Common Crawl sont largement utilisées pour l'entraînement de modèles IA par de nombreuses organisations