AI Bot Identifier
Entrez une URL pour analyser les règles robots.txt, les signaux WAF/CDN et les schémas de blocage des bots IA (OpenAI, Anthropic, Perplexity, Google, Apple, Common Crawl). Obtenez un rapport détaillé avec des scores de confiance.
Ce que nous vérifions
Notre scanner exécute une série de vérifications en 6 étapes pour évaluer comment un site interagit avec les bots IA de 6 fournisseurs différents.
Analyse robots.txt
Le fichier robots.txt est la première ligne de défense d'un site pour contrôler l'accès des crawlers. Nous vérifions :
- 1Présence et accessibilité du fichier robots.txt (HTTP 200 vs 404/403)
- 2Règles pour les bots OpenAI : GPTBot, OAI-SearchBot
- 3Règles pour les bots Anthropic : Claude-Web, ClaudeBot, anthropic-ai
- 4Règles pour les bots Perplexity : Perplexity-User, PerplexityBot
- 5Règles pour Google-Extended, Applebot-Extended, CCBot (Common Crawl)
- 6Déclaration de sitemaps dans le robots.txt (directive Sitemap:)
Infrastructure / CDN
Nous identifions l'infrastructure sous-jacente du site pour comprendre quelles protections sont en place :
- 1Résolution DNS (enregistrements A, AAAA, CNAME) pour détecter les CDN
- 2Recherche ASN via Team Cymru : identification du numéro AS et de l'organisation (ex : AS13335 = Cloudflare)
- 3Détection Cloudflare : ASN, CNAME *.cloudflare.net, en-têtes cf-ray, server: cloudflare
- 4Détection Akamai : ASN, CNAME *.edgekey.net / *.akamaiedge.net
- 5Détection Fastly : ASN AS54113, CNAME *.fastly.net
- 6Détection Imperva/Incapsula : ASN, CNAME *.incapdns.net
- 7Détection AWS CloudFront : ASN, CNAME *.cloudfront.net
WAF / Gestion des bots
Nous envoyons des requêtes HTTP avec différents User-Agents pour détecter les mécanismes de protection actifs :
- 1En-têtes WAF : cf-ray, cf-cache-status (Cloudflare), x-akamai-transformed (Akamai), x-fastly-request-id (Fastly), x-iinfo (Imperva)
- 2Cookies WAF : __cf_bm, cf_clearance (Cloudflare), ak_bmsc, _abck (Akamai), incap_ses_*, visid_incap_* (Imperva), datadome, _px (PerimeterX)
- 3Pages de challenge : détection de « Just a moment... », /cdn-cgi/challenge-platform, challenges.cloudflare.com, CAPTCHA, reCAPTCHA, hCaptcha
- 4Limitation de débit : réponse HTTP 429 avec en-tête Retry-After
- 5Analyse différentielle par User-Agent : comparaison des réponses entre un navigateur classique et les bots IA
Accès des bots OpenAI
Nous évaluons l'accessibilité réelle du site pour chaque bot OpenAI en croisant politique déclarée et comportement observé :
- 1GPTBot (crawl d'entraînement) : politique robots.txt + réponse HTTP observée + présence WAF
- 2OAI-SearchBot (recherche ChatGPT) : politique robots.txt + réponse HTTP observée + présence WAF
- 3ChatGPT-User (navigation utilisateur) : analyse basée sur la réponse WAF/challenge
- 4Score composite 0-100 par marque combinant politique, accès observé et activité WAF
Accès des bots Anthropic
Nous évaluons l'accessibilité du site pour les bots d'Anthropic (Claude) :
- 1Claude-Web : politique robots.txt + réponse HTTP observée + présence WAF
- 2ClaudeBot : politique robots.txt + réponse HTTP observée + présence WAF
- 3anthropic-ai : politique robots.txt + réponse HTTP observée + présence WAF
- 4Score composite 0-100 combinant tous les signaux pour les bots Anthropic
Accès des bots Perplexity
Nous évaluons l'accessibilité du site pour les bots de recherche de Perplexity :
- 1Perplexity-User : politique robots.txt + réponse HTTP observée + présence WAF
- 2PerplexityBot : politique robots.txt + réponse HTTP observée + présence WAF
- 3Score composite 0-100 combinant tous les signaux pour les bots Perplexity
Accès IA Google
Nous vérifions la politique robots.txt pour la directive d'entraînement IA de Google :
- 1Google-Extended : politique robots.txt uniquement (pas de sondage HTTP — c'est une directive robots.txt uniquement)
- 2Contrôle si Google utilise votre contenu pour Gemini et d'autres fonctionnalités IA
Accès IA Apple
Nous vérifions la politique robots.txt pour la directive d'entraînement IA d'Apple :
- 1Applebot-Extended : politique robots.txt uniquement (pas de sondage HTTP — c'est une directive robots.txt uniquement)
- 2Contrôle si Apple utilise votre contenu pour les fonctionnalités Apple Intelligence
Accès Common Crawl
Nous évaluons l'accessibilité du site pour le bot de Common Crawl :
- 1CCBot : politique robots.txt + réponse HTTP observée + présence WAF
- 2Les données de Common Crawl sont largement utilisées pour l'entraînement de modèles IA par de nombreuses organisations