Crawl et Indexation : comment ça marche ?

Mis à jour le : 22/10/2025
Technique

Vous publiez un nouvel article. Vous attendez. 3 jours plus tard : toujours pas dans Google. Vous soumettez l’URL dans Search Console. 1 semaine plus tard : toujours rien. Vous ne comprenez pas comment Google découvre réellement vos pages. Ce n’est pas magique. Ce n’est pas instantané. C’est un processus technique en 4 étapes que je vais vous expliquer en détails.

Crawl vs Indexation : les deux étapes que 80% des gens confondent

Avant de plonger dans le technique, clarifions les termes. La majorité des gens disent : « Mon site n’est pas indexé dans Google. » Ce qu’ils veulent dire : soit leur site n’est pas crawlé (Google ne le visite pas), soit il est crawlé mais pas indexé (Google le visite mais ne le met pas dans sa base de données).

Ce sont deux problèmes différents avec deux solutions différentes.

Le Crawl : Google découvre vos pages

Le crawl, c’est quand Googlebot (le robot de Google) visite votre site web pour découvrir et lire vos pages. Imaginez Google comme un bibliothécaire qui parcourt Internet. Le crawl, c’est le bibliothécaire qui entre dans votre magasin, se promène dans les rayons, et regarde ce qui est disponible.

Ce que ça implique techniquement : Googlebot envoie une requête HTTP à votre serveur, votre serveur répond avec le code HTML de votre page, Googlebot télécharge le HTML, CSS, JavaScript, il analyse le contenu et extrait tous les liens présents, et il ajoute ces nouveaux liens à sa file d’attente (crawl queue). Preuve qu’une page a été crawlée : vous la voyez dans vos logs serveur avec le user-agent « Googlebot ».

L’Indexation : Google stocke vos pages

L’indexation, c’est quand Google décide de stocker votre page dans sa base de données pour pouvoir la montrer dans les résultats de recherche. Le bibliothécaire a parcouru votre magasin (crawl). Maintenant, il décide quels produits méritent d’être ajoutés au catalogue officiel de la bibliothèque (indexation). Tous les produits vus ne seront pas forcément catalogués.

Google analyse la qualité et l’utilité de la page crawlée, il vérifie si elle respecte les règles (pas de noindex, pas de duplicate, etc.), il la compare aux autres pages similaires déjà indexées, si elle passe tous les filtres, elle est ajoutée à l’index, et elle devient alors éligible pour apparaître dans les résultats de recherche. Preuve qu’une page est indexée : vous la trouvez en recherchant site:votresite.com/url-exacte dans Google.

Le piège classique : crawlé n’égale pas indexé

Scénario réel que je vois chaque semaine : un client me dit « Google ne voit pas mon site ! » Je vérifie les logs serveur : Googlebot visite le site 200 fois par jour. Je vérifie Google Search Console : 1247 pages « Découvertes, actuellement non indexées ».

Traduction : Google crawle le site (il le visite), mais il n’indexe pas les pages (il ne les met pas dans ses résultats).

Pourquoi ? Parce que crawl et indexation sont deux décisions séparées avec des critères différents. On peut avoir : crawlé + indexé (parfait, la page peut ranker), crawlé + non indexé (Google visite mais juge la page non pertinente), non crawlé + non indexé (Google ne trouve pas ou n’a pas accès à la page), ou non crawlé + indexé (cas rare, ancienne URL dans l’index mais plus visitée).

Pourquoi cette distinction est cruciale

Si votre problème est le crawl, les solutions sont : architecture, sitemap, liens internes, vitesse serveur, robots.txt. Si votre problème est l’indexation, les solutions sont : qualité contenu, duplicate, canonicals, balises meta, autorité. Diagnostiquer le mauvais problème égale appliquer les mauvaises solutions.

On va voir les deux en détail dans ce guide.

Comment Googlebot crawle votre site ?

Voici exactement ce qui se passe quand Googlebot visite votre site. En quatre étapes techniques.

Étape 1 – Découverte des URLs (crawl queue)

Il a une file d’attente géante (crawl queue) contenant des milliards d’URLs à visiter.

Vos URLs arrivent dans cette file par quatre moyens :

Liens externes. Un site A fait un lien vers votre page X. Googlebot crawle le site A, trouve le lien, ajoute votre page X à sa file d’attente. C’est comme ça que Google a découvert Internet dans les années 90 : en suivant les liens de page en page.
Liens internes : Googlebot crawle votre page d’accueil. Il trouve 50 liens vers d’autres pages de votre site. Il ajoute ces 50 URLs à sa file d’attente. Puis il crawle ces pages, trouve de nouveaux liens, etc. C’est pourquoi le maillage interne est crucial : sans liens, vos pages sont invisibles.
Sitemap XML : Vous créez un fichier sitemap.xml listant toutes vos URLs importantes. Vous le soumettez dans Google Search Console. Googlebot lit ce fichier et ajoute toutes les URLs à sa file d’attente. Attention, piège : le sitemap ne garantit PAS le crawl ou l’indexation. C’est juste une suggestion….
Soumission manuelle : Vous soumettez une URL directement dans Search Console (« Demander une indexation »). Google l’ajoute en priorité à la file d’attente. Limite : quelques soumissions par jour maximum. Ça ne scale pas.

Toutes les URLs ne sont pas égales. Google priorise selon : la popularité (pages avec beaucoup de backlinks égale priorité haute), la fraîcheur (pages récemment modifiées égale crawl plus fréquent), la profondeur (pages proches de la home 2-3 clics égale crawlées plus souvent), et l’historique (pages crawlées régulièrement dans le passé égale anticipation de mises à jour). Résultat : votre home peut être crawlée 10 fois par jour. Une vieille page de catégorie enfouie à 7 clics : 1 fois par mois.

Étape 2 – Fetch et analyse du code

Googlebot prend une URL dans sa file d’attente. Il envoie une requête HTTP GET vers votre serveur. Votre serveur répond avec le code HTML de votre page. Googlebot télécharge alors : le code HTML brut, les fichiers CSS référencés (pour comprendre la mise en page), les fichiers JavaScript (pour les sites dynamiques), et parfois les images (pour analyser le contenu visuel).

Google crawle AVANT de rendre la page. Ça veut dire qu’il voit d’abord le HTML source, pas ce que voit un humain dans son navigateur.

Pour les sites JavaScript : Google fait un deuxième passage appelé « rendering » où il exécute le JS pour voir le contenu final. Ce processus peut prendre plusieurs heures ou jours après le crawl initial.

Étape 3 – Extraction des liens et signaux

Googlebot analyse le HTML téléchargé. Il extrait tous les liens vers d’autres pages. Ces liens sont ajoutés à la crawl queue pour être visités plus tard.

Il ne suit QUE les liens avec balise a href. Il ignore les liens en JavaScript uniquement (sans balise a), les liens dans iframe, les liens obfusqués, et les liens en Flash….
Il extrait les métadonnées et signaux SEO : balises title et meta description, balises meta robots (noindex, nofollow, etc.), balises link rel canonical, balises link rel alternate hreflang, données structurées Schema.org, et balises Open Graph.
Il extrait le contenu textuel : tous les textes visibles (paragraphes, titres H1-H6), le texte alternatif des images (alt), et les ancres de liens (texte cliquable).
Il extrait les signaux techniques : vitesse de chargement (Core Web Vitals), présence d’HTTPS, mobile-friendliness, et erreurs JavaScript éventuelles.

Étape 4 – Décision d’indexation

Google a maintenant crawlé et analysé votre page. Il doit décider : cette page mérite-t-elle d’être indexée ?

Cette décision repose sur des dizaines de critères (on verra la liste complète plus bas), mais voici les principaux :

Critères POUR indexer :

Contenu original et utile, répond à une intention de recherche claire, suffisamment de texte (minimum 100-150 mots), pas de duplicate avec d’autres pages du site, page techniquement accessible (200 OK), pas de balise noindex, et site a une autorité minimale (pour nouveaux sites).

Critères CONTRE l’indexation :

Contenu dupliqué (interne ou externe), contenu thin (trop court ou sans valeur), page de mauvaise qualité (spam, erreurs, pub intrusive), problèmes techniques (4xx, 5xx, redirections infinies), et balises bloquantes (noindex, canonical vers autre page).

Résultat possible #1 : Indexation

La page est ajoutée à l’index Google. Elle devient éligible pour apparaître dans les résultats de recherche. Elle sera régulièrement re-crawlée pour détecter les mises à jour.

Résultat possible #2 : Non-indexation

La page reste dans le statut « Découverte, actuellement non indexée ». Google l’a vue, mais ne la juge pas assez pertinente pour l’index. Elle peut être reconsidérée plus tard si elle change ou gagne en autorité.

Résultat possible #3 : Indexation temporaire puis déclassement

La page est indexée initialement, puis retirée de l’index après réévaluation. Ça arrive souvent avec du contenu de faible qualité qui ranke brièvement puis disparaît.

Temps total du processus

De la publication au crawl : 1 heure à 2 semaines (selon priorité).

Du crawl au rendering (si JS) : quelques heures à plusieurs jours.

Du crawl à l’indexation : instantané à plusieurs semaines.

Timeline typique pour un site établi : Jour 0, vous publiez l’article. Jour 0 plus 2h, Googlebot crawle (car vous avez un bon crawl budget). Jour 0 plus 6h, page indexée et visible dans site:votresite.com. Jour 1-7, page commence à ranker selon qualité et concurrence.

Timeline typique pour un nouveau site : Jour 0, vous publiez l’article. Jour 7, premier crawl (Google est prudent avec nouveaux sites). Jour 14-30, indexation si contenu jugé pertinent. Jour 30-90, ranking progressif si le site gagne en autorité.

Maintenant, parlons du crawl budget qui détermine combien de pages Google va crawler sur votre site.

Le Crawl Budget : pourquoi Google ne crawle pas tout votre site

Vous avez 10 000 pages sur votre site. Google crawle 50 pages par jour. À ce rythme, il faudra 200 jours pour crawler l’intégralité de votre site. Et encore, si aucune page n’est ajoutée entre-temps.

Bienvenue dans le concept de crawl budget.

Qu’est-ce que le crawl budget ?

Le crawl budget, c’est le nombre de pages que Googlebot accepte de crawler sur votre site pendant une période donnée (généralement par jour). Pourquoi Google limite-t-il le nombre de pages qu’il crawle ? Pour trois raisons techniques :

Raison 1 – Ressources serveur limitées. Googlebot ne veut pas surcharger votre serveur. Si votre hébergement est lent ou fragile, Google ralentit automatiquement son crawl pour ne pas crasher votre site. C’est une protection pour vous et pour lui.

Raison 2 – Ressources Google limitées. Google doit crawler des milliards de pages sur des millions de sites. Il ne peut pas tout crawler en permanence. Il doit prioriser. Un site avec 500 pages de qualité aura plus de crawl budget qu’un site avec 10 000 pages de faible qualité.

Raison 3 – Efficacité algorithmique. Google a appris avec l’expérience quelles pages méritent d’être crawlées fréquemment. Il optimise son budget en se concentrant sur les pages qui changent, qui ont du trafic, qui sont populaires. Crawler une vieille page qui n’a pas bougé depuis 3 ans et qui n’a aucun backlink ? Perte de temps.

Qui doit s’inquiéter du crawl budget ?

Bonne nouvelle : la majorité des sites n’ont PAS de problème de crawl budget. Google le dit explicitement dans sa documentation officielle. Si votre site a moins de 1000 pages et est mis à jour occasionnellement, vous n’avez probablement pas de souci.

Vous DEVEZ vous inquiéter du crawl budget si :

Vous avez un gros site (plus de 10 000 pages indexables). Exemple typique : e-commerce avec des milliers de produits, site média avec des années d’archives, marketplace avec des milliers de fiches. Vous ajoutez massivement du contenu régulièrement. Exemple : site d’actualité qui publie 50 articles par jour, plateforme UGC (user-generated content) avec des centaines de nouvelles pages quotidiennes, agrégateur de petites annonces. Vous constatez dans Search Console que des pages importantes ne sont pas crawlées depuis des semaines. Google crawle massivement des pages inutiles (facettes, paramètres URL, doublons) au lieu de vos vraies pages de contenu.

Vous n’avez probablement PAS de problème si :

Votre site a moins de 1000 pages. Vous publiez quelques contenus par semaine maximum. Toutes vos pages importantes sont crawlées régulièrement. Search Console ne montre pas d’alertes crawl.

Comment vérifier votre crawl budget ?

Méthode 1 : Google Search Console. Allez dans Paramètres, puis Statistiques d’exploration. Vous voyez trois graphiques : Nombre total de requêtes d’exploration (combien de pages Google a tenté de crawler), Taille totale du téléchargement (combien de données Google a téléchargées), et Durée moyenne de téléchargement d’une page.

Ce qui est normal : 50 à 500 requêtes par jour pour un petit site (moins de 500 pages), 500 à 5000 requêtes par jour pour un site moyen (500 à 5000 pages), 5000 à 50 000 requêtes par jour pour un gros site (plus de 10 000 pages). Une durée de téléchargement inférieure à 500ms (serveur rapide).

Ce qui est problématique : le crawl stagne ou diminue alors que vous ajoutez du contenu, la durée de téléchargement dépasse 1000ms (serveur trop lent), et vous voyez des pics massifs de crawl sur des pages inutiles (facettes, paramètres).

Méthode 2 : Analyse des logs serveur. Plus précis mais plus technique. Récupérez vos logs Apache ou Nginx, filtrez les requêtes avec user-agent Googlebot, comptez combien de pages uniques sont crawlées par jour, et identifiez quelles sections du site sont les plus crawlées. Outil recommandé : Screaming Frog Log File Analyser, OnCrawl, Botify (pour gros sites).

Exemple réel : e-commerce 50 000 produits

Client e-commerce. 50 000 fiches produits. 20 000 pages de catégories et filtres. 70 000 pages totales indexables.

Problème constaté : Google crawle 1000 pages par jour. À ce rythme, il faut 70 jours pour crawler tout le site. Pire : 60% du crawl budget va sur des pages filtres inutiles (couleur égale rouge ET taille égale M ET prix égale 20-30 euros). Les nouveaux produits ajoutés mettent 3 semaines à être crawlés.

Solution appliquée : robots.txt bloque les facettes inutiles, canonical sur les pages filtres vers la catégorie principale, sitemap XML contient uniquement les pages produits et catégories principales, maillage interne renforcé depuis home vers nouveaux produits, et pagination optimisée (pas de lien vers page 47).

Résultat après 2 mois : crawl budget passe de 1000 à 3500 pages par jour, 90% du crawl va sur produits et catégories importantes, et nouveaux produits crawlés en moins de 48h.

Voyons maintenant 7 facteurs qui influencent votre crawl budget.

Les 7 facteurs qui influencent votre crawl budget

Google décide combien de pages crawler sur votre site selon sept critères. Certains vous pouvez les contrôler. D’autres non.

Facteur 1 – Autorité du site (popularité)

Plus votre site est populaire et autoritaire, plus Google lui alloue de crawl budget. Logique : un site avec beaucoup de backlinks et de trafic produit probablement du contenu qui mérite d’être crawlé fréquemment.

Ce qui augmente l’autorité :

Backlinks de qualité (nombre et diversité), trafic organique élevé, mentions et citations externes, historique positif (site existant depuis longtemps sans pénalité), et engagement utilisateur (CTR, temps sur site, pages vues).

Exemple concret : Le New York Times publie 200 articles par jour. Google crawle probablement leur site toutes les 10 minutes. Votre blog personnel publie 1 article par mois. Google crawle peut-être une fois par semaine. Même si vous optimisez techniquement votre blog à la perfection, vous n’aurez jamais le crawl budget du NYT. L’autorité joue un rôle majeur.

Ce que vous pouvez faire : construire progressivement votre autorité via netlinking et contenu de qualité. C’est un travail de long terme, mais ça paie sur tous les aspects du SEO, pas seulement le crawl.

Facteur 2 – Fraîcheur du contenu

Google crawle plus fréquemment les sites qui mettent à jour leur contenu régulièrement. Si votre site n’a pas bougé depuis 6 mois, Google réduira naturellement la fréquence de crawl. Pourquoi crawler souvent un site qui ne change jamais ?

Sites haute fréquence : Sites d’actualité : crawlés plusieurs fois par heure, sites e-commerce qui ajoutent des produits quotidiennement : crawlés plusieurs fois par jour, et blogs actifs (plusieurs articles par semaine) : crawlés quotidiennement.

Sites basse fréquence : Sites vitrines statiques : crawlés une fois par semaine ou mois, blogs abandonnés : crawlés très occasionnellement, et archives anciennes non mises à jour : crawlées très rarement.

Astuce SEO : même si vous n’ajoutez pas de nouveau contenu, mettre à jour des articles existants (améliorer, enrichir, actualiser) signale à Google que votre site est actif. Résultat : crawl budget maintenu.

Exemple : vous avez un article « Meilleurs smartphones 2023 ». En janvier 2025, vous le mettez à jour vers « Meilleurs smartphones 2025 », ajoutez les nouveaux modèles, supprimez les obsolètes, et changez la date de publication. Google détecte le changement, crawle la page, et maintient votre site dans sa rotation régulière.

Facteur 3 – Vitesse de réponse du serveur

Si votre serveur est lent, Google ralentit automatiquement son crawl pour ne pas le surcharger. Google mesure en temps réel combien de temps votre serveur met à répondre. Si ça prend trop longtemps, il limite le nombre de requêtes simultanées.

Seuils de performance :

Moins de 200ms : excellent, Google peut crawler agressivement. 200-500ms : correct, crawl normal. 500-1000ms : moyen, crawl légèrement réduit. Plus de 1000ms : problématique, Google limite fortement le crawl pour ne pas crasher votre serveur.

Causes de lenteur serveur :

Hébergement sous-dimensionné (serveur mutualisé surchargé, ressources CPU/RAM insuffisantes), site non optimisé (requêtes base de données lentes, pas de cache), pics de trafic (le serveur rame, Google détecte, réduit le crawl), et plugins/scripts lourds (WordPress avec 40 plugins, JavaScript massif).

Comment vérifier :

Dans Google Search Console, Paramètres puis Statistiques d’exploration, regardez « Durée moyenne de téléchargement d’une page ». Si c’est au-dessus de 500ms, vous avez un problème de performance serveur.

Ce que vous pouvez faire :

Upgrader votre hébergement (passer d’un mutualisé à un VPS ou serveur dédié), activer la mise en cache (page cache, object cache, CDN), optimiser votre base de données (index manquants, requêtes lentes), et réduire le poids des pages (compresser images, minifier CSS/JS).

Résultat direct : serveur plus rapide égale crawl budget plus élevé, pages crawlées plus souvent, et indexation plus rapide.

Facteur 4 – Structure et architecture du site

Google crawle en suivant les liens. Si vos pages importantes sont enfouies à 7 clics de profondeur, Google mettra plus de temps à les découvrir et les crawlera moins souvent.

Règle d’or : shallow site architecture

Toutes vos pages importantes doivent être accessibles en maximum 3 clics depuis la home. Home vers catégorie (1 clic), catégorie vers sous-catégorie (2 clics), sous-catégorie vers page finale (3 clics). Maximum.

Architecture problématique : Home vers Produits vers Catégorie A vers Sous-catégorie B vers Sous-sous-catégorie C vers Produit X égale 6 clics. Google crawle rarement. Page considérée comme peu importante.

Architecture optimale : Home vers Catégorie A vers Produit X égale 2 clics. Google crawle régulièrement. Page considérée comme importante.

Impact crawl budget :

Pages à 1-2 clics de la home : crawlées quotidiennement ou plusieurs fois par jour. Pages à 3-4 clics : crawlées hebdomadairement. Pages à 5 clics et plus : crawlées mensuellement ou très rarement.

Ce que vous pouvez faire :

Simplifier les niveaux de catégories (max 2-3 niveaux), ajouter des liens depuis la home vers pages importantes (blocs « Nouveautés », « Articles populaires »), et renforcer le maillage interne (chaque article lie vers 3-5 autres articles pertinents).

Facteur 5 – Qualité et duplicate content

Google apprend avec le temps. Si votre site contient beaucoup de contenu dupliqué ou de faible qualité, Google réduira progressivement le crawl budget. Logique : pourquoi crawler 1000 pages si 80% sont des doublons ou du spam ?

Signaux de mauvaise qualité qui réduisent le crawl :

Duplicate content massif (descriptions produits identiques, pages générées automatiquement), thin content (pages avec moins de 100 mots, peu de valeur), erreurs 404 nombreuses (Google crawle, tombe sur des erreurs, gaspille du budget), soft 404 (pages vides qui renvoient 200 OK au lieu de 404), et spam (keyword stuffing, contenu auto-généré de mauvaise qualité).

Exemple e-commerce : Vous avez 5000 produits. 3000 ont la description par défaut du fabricant (duplicate externe). 1000 ont moins de 50 mots de description. 500 sont en rupture de stock depuis 2 ans (pages vides). Google détecte ça, considère votre site de faible qualité, réduit le crawl budget. Résultat : vos nouveaux produits de qualité mettent 3 semaines à être crawlés car Google gaspille son budget sur les pages pourries.

Solution : Supprimer ou noindex les pages de faible qualité, réécrire les descriptions dupliquées, rediriger les produits rupture de stock définitive, et utiliser canonical pour gérer les doublons légitimes (variations couleur par exemple).

Facteur 6 – Erreurs serveur et 4xx

Chaque fois que Google crawle une page et tombe sur une erreur, il gaspille du crawl budget. Google crawle votre sitemap. 200 URLs sur 500 renvoient 404. Google a gaspillé 40% de son crawl budget sur des pages mortes.

Erreurs qui gaspillent le crawl :

404 Not Found (page supprimée mais toujours linkée), 500 Internal Server Error (bug serveur), 503 Service Unavailable (serveur down temporairement), et timeout (serveur trop lent, ne répond pas dans le délai imparti).

Comment diagnostiquer : Search Console, onglet Couverture, section « Erreur ». Vous voyez toutes les URLs que Google a tenté de crawler sans succès. Priorisez la correction des erreurs sur pages importantes ou très linkées.

Ce que vous pouvez faire :

Corriger les 404 (rediriger vers page pertinente ou supprimer le lien source), corriger les erreurs serveur 500 (debug code, upgrade hébergement), et nettoyer le sitemap (retirer toutes les URLs en erreur).

Facteur 7 – Fichiers bloquants (robots.txt, meta noindex)

Si vous bloquez Googlebot avec robots.txt ou meta noindex, il ne crawlera évidemment pas ces pages. Mais attention au piège : parfois on bloque par erreur des pages qu’on voulait indexer.

Erreur classique numéro 1 : Pendant le développement du site, vous mettez un Disallow tout dans robots.txt pour empêcher l’indexation. Vous lancez le site en production. Vous oubliez de retirer le Disallow. Résultat : Google ne crawle rien. Site invisible.

Erreur classique numéro 2 : Vous mettez meta name robots content noindex sur une catégorie de produits pour éviter le duplicate. Problème : cette catégorie contient 200 produits. Google ne crawle pas la catégorie, ne trouve pas les liens vers les produits, ne crawle donc pas les produits non plus. 200 pages invisibles à cause d’un seul noindex mal placé.

Ce que vous devez vérifier :

Testez robots.txt dans Search Console (Paramètres puis Outil de test du fichier robots.txt), vérifiez qu’aucune page importante n’a de meta noindex, et vérifiez les canonicals (une page avec canonical vers une autre page ne sera pas indexée).

Maintenant que vous connaissez les facteurs qui influencent le crawl, voyons comment diagnostiquer concrètement si vos pages sont crawlées et indexées.

Comment vérifier si vos pages sont crawlées et indexées

Vous publiez du contenu. Vous voulez savoir : Google a-t-il crawlé ma page ? Est-elle indexée ? Pourquoi elle n’apparaît pas dans les résultats ?

Cinq méthodes de diagnostic, de la plus simple à la plus avancée.

Méthode 1 – Recherche site: dans Google

La méthode la plus rapide pour vérifier l’indexation. Tapez dans Google : site:votresite.com/url-exacte-de-votre-page. Si la page apparaît : elle est indexée. Si rien n’apparaît : soit elle n’est pas indexée, soit elle est désindexée.

Exemple : Vous venez de publier votresite.com/blog/article-seo-2025. Vous tapez site:votresite.com/blog/article-seo-2025 dans Google. Résultat : page trouvée avec titre et description égale indexée. Rien ne s’affiche égale pas encore indexée.

Limite de cette méthode : elle ne vous dit pas POURQUOI la page n’est pas indexée. Elle ne vous dit pas non plus si Google a tenté de la crawler. C’est juste un check rapide.

Astuce avancée : Tapez site:votresite.com sans URL spécifique pour voir combien de pages de votre site sont indexées au total. Google affiche « Environ X résultats ». Comparez ce chiffre avec le nombre de pages que vous voulez indexer. Gros écart égale problème d’indexation massif.

Méthode 2 – Google Search Console (inspection d’URL)

Beaucoup plus précis que la recherche site:. Search Console vous donne l’état exact de votre page du point de vue de Google. Comment faire : connectez-vous à Search Console, en haut, utilisez l’outil « Inspecter une URL », collez l’URL complète de votre page, et appuyez sur Entrée.

Google vous renvoie l’une de ces réponses :

« L’URL est sur Google » : la page est indexée et peut apparaître dans les résultats. Vous voyez la date du dernier crawl, l’user-agent utilisé (desktop ou mobile), et si la page est mobile-friendly.

« L’URL est sur Google mais présente des problèmes » : indexée mais avec des warnings (erreurs JavaScript, ressources bloquées, etc.). Pas critique mais à surveiller.

« L’URL n’est pas sur Google » : pas indexée. Search Console vous donne la raison : Découverte actuellement non indexée (Google l’a vue mais juge qu’elle n’apporte pas de valeur), Explorée actuellement non indexée (Google l’a crawlée mais décide de ne pas l’indexer), Exclue par la balise noindex (vous avez bloqué l’indexation vous-même), Page avec redirection (la page redirige vers une autre), Introuvable 404 (page n’existe pas ou plus), ou Bloquée par le fichier robots.txt (vous empêchez le crawl).

Ce que vous pouvez faire ensuite : Si pas indexée mais devrait l’être : cliquez sur « Demander une indexation ». Google ajoutera votre page en priorité à sa file de crawl. Attention : limite de quelques soumissions par jour. Ne soumettez que les pages vraiment importantes.

Méthode 3 – Analyser les logs serveur (niveau avancé)

La méthode la plus précise pour voir si Googlebot crawle réellement votre site. Les logs serveur enregistrent chaque requête HTTP reçue, y compris celles de Googlebot.

Ce que vous voyez dans les logs :

Quelles pages Googlebot visite exactement, à quelle fréquence (nombre de crawls par jour), quel user-agent il utilise (Googlebot Desktop, Googlebot Mobile, Googlebot Image, etc.), combien de temps il reste sur chaque page, et quelles réponses HTTP votre serveur renvoie (200, 301, 404, 500, etc.).

Comment accéder aux logs :

Hébergement mutualisé : logs souvent accessibles via cPanel ou l’interface d’admin. VPS ou serveur dédié : logs Apache dans /var/log/apache2/access.log ou Nginx dans /var/log/nginx/access.log. Outils d’analyse : Screaming Frog Log File Analyser (gratuit jusqu’à 1000 lignes), OnCrawl ou Botify (payant, pour gros sites).

Exemple d’analyse :

Vous téléchargez vos logs du dernier mois. Vous filtrez toutes les requêtes avec user-agent contenant « Googlebot ». Vous constatez : Googlebot a crawlé 847 pages uniques sur votre site de 2500 pages. 60% des crawls vont sur votre blog, 30% sur les pages produits, 10% sur des pages de catégories vides ou inutiles. Vos nouveaux articles sont crawlés en moyenne 3 jours après publication. Certaines vieilles pages n’ont pas été crawlées depuis 6 mois.

Décision : Vous renforcez le maillage interne vers les pages produits pour augmenter leur crawl, vous bloquez les catégories vides dans robots.txt pour économiser du crawl budget, et vous soumettez manuellement vos nouveaux articles dans Search Console pour accélérer le crawl.

Méthode 4 – Sitemap XML et rapports Search Console

Votre sitemap XML liste toutes les URLs que vous voulez voir indexées. Search Console vous dit combien Google en a réellement indexé. La différence entre les deux révèle des problèmes.

Comment faire :

Dans Search Console, allez dans Sitemaps, vous voyez : nombre d’URLs soumises dans votre sitemap, nombre d’URLs découvertes par Google, nombre d’URLs indexées.

Scénarios et diagnostic :

500 URLs soumises, 500 découvertes, 500 indexées : parfait, tout fonctionne. Votre sitemap est lu et toutes les pages sont indexées. 500 URLs soumises, 0 découverte : Google ne lit pas votre sitemap. Vérifiez que l’URL du sitemap est correcte dans Search Console, que le sitemap est accessible (pas bloqué par robots.txt ou login), et que le format XML est valide. 500 URLs soumises, 500 découvertes, 200 indexées : Google a crawlé toutes les pages mais n’en a indexé que 40%. Problème de qualité de contenu ou duplicate. Analysez les pages non indexées pour trouver le pattern. 1000 URLs soumises, 300 indexées : 70% de vos pages ont un problème (qualité, duplicate, etc.). Erreur « Sitemap illisible » : problème de format XML. Erreur « URLs absentes du sitemap » : Google a trouvé des URLs non listées (normal ou signe de mauvaise architecture).

Méthode 5 – Vérifier le fichier robots.txt

Ce fichier peut bloquer le crawl sans que vous le réalisiez. Comment faire : allez sur votresite.com/robots.txt et lisez les directives.

Exemple de robots.txt correct :

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://votresite.com/sitemap.xml

Erreurs classiques :

User-agent: *
Disallow: /

Tout le site est bloqué. Google ne peut rien crawler.

User-agent: Googlebot
Disallow: /blog/

Votre blog est invisible pour Google.

Dans Search Console : Paramètres, puis Outil de test du fichier robots.txt. Collez votre robots.txt, testez des URLs spécifiques pour voir si elles sont bloquées.

Diagnostic : Bloque uniquement répertoires admin/cart : OK. Bloque des pages à indexer : problème. Bloque tout le site : erreur critique.

Conclusion

Le crawl et l’indexation sont deux piliers de la visibilité sur le web. En optimisant l’architecture, le fichier robots.txt et le maillage interne, vous assurez un accès fluide aux pages et favorisez leur indexation par Google. Si vous ne maitrisez pas ces concepts, pensez à me contacter pour que je puisse vous proposer un audit SEO et corriger vos erreurs techniques…

Sommaire :

Add a header to begin generating the table of contents

Crawl et Indexation : comment ça marche ?

Crawl vs Indexation : les deux étapes que 80% des gens confondent

Le Crawl : Google découvre vos pages

L’Indexation : Google stocke vos pages

Le piège classique : crawlé n’égale pas indexé

Pourquoi cette distinction est cruciale

Comment Googlebot crawle votre site ?

Étape 1 – Découverte des URLs (crawl queue)

Étape 2 – Fetch et analyse du code

Étape 3 – Extraction des liens et signaux

Étape 4 – Décision d’indexation

Temps total du processus

Le Crawl Budget : pourquoi Google ne crawle pas tout votre site

Qu’est-ce que le crawl budget ?

Qui doit s’inquiéter du crawl budget ?

Comment vérifier votre crawl budget ?

Exemple réel : e-commerce 50 000 produits

Les 7 facteurs qui influencent votre crawl budget

Facteur 1 – Autorité du site (popularité)

Facteur 2 – Fraîcheur du contenu

Facteur 3 – Vitesse de réponse du serveur

Facteur 4 – Structure et architecture du site

Facteur 5 – Qualité et duplicate content

Facteur 6 – Erreurs serveur et 4xx

Facteur 7 – Fichiers bloquants (robots.txt, meta noindex)

Comment vérifier si vos pages sont crawlées et indexées

Méthode 1 – Recherche site: dans Google

Méthode 2 – Google Search Console (inspection d’URL)

Méthode 3 – Analyser les logs serveur (niveau avancé)

Méthode 4 – Sitemap XML et rapports Search Console

Méthode 5 – Vérifier le fichier robots.txt

Conclusion

Contactez-moi et discutons de votre projet !