AI Bot Identifier

Entrez une URL pour analyser les règles robots.txt, les signaux WAF/CDN et les schémas de blocage des bots IA (OpenAI, Anthropic, Perplexity, Google, Apple, Common Crawl). Obtenez un rapport détaillé avec des scores de confiance.

Analyse robots.txt
Vérifie si les bots IA (GPTBot, ClaudeBot, PerplexityBot, etc.) sont bloqués par la politique robots.txt du site.
Détection WAF / CDN
Identifie Cloudflare, Akamai, Fastly, Imperva et détecte la gestion active des bots.
Score d'accessibilité
Grille d'évaluation avec score de confiance pour chaque bot IA de 6 marques, accompagnée de preuves.

Ce que nous vérifions

Notre scanner exécute une série de vérifications en 6 étapes pour évaluer comment un site interagit avec les bots IA de 6 fournisseurs différents.

1

Analyse robots.txt

Le fichier robots.txt est la première ligne de défense d'un site pour contrôler l'accès des crawlers. Nous vérifions :

  • 1Présence et accessibilité du fichier robots.txt (HTTP 200 vs 404/403)
  • 2Règles pour les bots OpenAI : GPTBot, OAI-SearchBot
  • 3Règles pour les bots Anthropic : Claude-Web, ClaudeBot, anthropic-ai
  • 4Règles pour les bots Perplexity : Perplexity-User, PerplexityBot
  • 5Règles pour Google-Extended, Applebot-Extended, CCBot (Common Crawl)
  • 6Déclaration de sitemaps dans le robots.txt (directive Sitemap:)
2

Infrastructure / CDN

Nous identifions l'infrastructure sous-jacente du site pour comprendre quelles protections sont en place :

  • 1Résolution DNS (enregistrements A, AAAA, CNAME) pour détecter les CDN
  • 2Recherche ASN via Team Cymru : identification du numéro AS et de l'organisation (ex : AS13335 = Cloudflare)
  • 3Détection Cloudflare : ASN, CNAME *.cloudflare.net, en-têtes cf-ray, server: cloudflare
  • 4Détection Akamai : ASN, CNAME *.edgekey.net / *.akamaiedge.net
  • 5Détection Fastly : ASN AS54113, CNAME *.fastly.net
  • 6Détection Imperva/Incapsula : ASN, CNAME *.incapdns.net
  • 7Détection AWS CloudFront : ASN, CNAME *.cloudfront.net
3

WAF / Gestion des bots

Nous envoyons des requêtes HTTP avec différents User-Agents pour détecter les mécanismes de protection actifs :

  • 1En-têtes WAF : cf-ray, cf-cache-status (Cloudflare), x-akamai-transformed (Akamai), x-fastly-request-id (Fastly), x-iinfo (Imperva)
  • 2Cookies WAF : __cf_bm, cf_clearance (Cloudflare), ak_bmsc, _abck (Akamai), incap_ses_*, visid_incap_* (Imperva), datadome, _px (PerimeterX)
  • 3Pages de challenge : détection de « Just a moment... », /cdn-cgi/challenge-platform, challenges.cloudflare.com, CAPTCHA, reCAPTCHA, hCaptcha
  • 4Limitation de débit : réponse HTTP 429 avec en-tête Retry-After
  • 5Analyse différentielle par User-Agent : comparaison des réponses entre un navigateur classique et les bots IA
4

Accès des bots OpenAI

Nous évaluons l'accessibilité réelle du site pour chaque bot OpenAI en croisant politique déclarée et comportement observé :

  • 1GPTBot (crawl d'entraînement) : politique robots.txt + réponse HTTP observée + présence WAF
  • 2OAI-SearchBot (recherche ChatGPT) : politique robots.txt + réponse HTTP observée + présence WAF
  • 3ChatGPT-User (navigation utilisateur) : analyse basée sur la réponse WAF/challenge
  • 4Score composite 0-100 par marque combinant politique, accès observé et activité WAF
5

Accès des bots Anthropic

Nous évaluons l'accessibilité du site pour les bots d'Anthropic (Claude) :

  • 1Claude-Web : politique robots.txt + réponse HTTP observée + présence WAF
  • 2ClaudeBot : politique robots.txt + réponse HTTP observée + présence WAF
  • 3anthropic-ai : politique robots.txt + réponse HTTP observée + présence WAF
  • 4Score composite 0-100 combinant tous les signaux pour les bots Anthropic
6

Accès des bots Perplexity

Nous évaluons l'accessibilité du site pour les bots de recherche de Perplexity :

  • 1Perplexity-User : politique robots.txt + réponse HTTP observée + présence WAF
  • 2PerplexityBot : politique robots.txt + réponse HTTP observée + présence WAF
  • 3Score composite 0-100 combinant tous les signaux pour les bots Perplexity
7

Accès IA Google

Nous vérifions la politique robots.txt pour la directive d'entraînement IA de Google :

  • 1Google-Extended : politique robots.txt uniquement (pas de sondage HTTP — c'est une directive robots.txt uniquement)
  • 2Contrôle si Google utilise votre contenu pour Gemini et d'autres fonctionnalités IA
8

Accès IA Apple

Nous vérifions la politique robots.txt pour la directive d'entraînement IA d'Apple :

  • 1Applebot-Extended : politique robots.txt uniquement (pas de sondage HTTP — c'est une directive robots.txt uniquement)
  • 2Contrôle si Apple utilise votre contenu pour les fonctionnalités Apple Intelligence
9

Accès Common Crawl

Nous évaluons l'accessibilité du site pour le bot de Common Crawl :

  • 1CCBot : politique robots.txt + réponse HTTP observée + présence WAF
  • 2Les données de Common Crawl sont largement utilisées pour l'entraînement de modèles IA par de nombreuses organisations