12 raisons pour lesquelles Google ne crawle pas vos pages

Vous avez publié une page. Vous attendez. Une semaine passe. Deux semaines. Un mois. Vous vérifiez Search Console : Google n’a jamais crawlé votre page. Elle n’apparaît nulle part. C’est comme si elle n’existait pas. Il existe 12 raisons techniques pour lesquelles Googlebot ne crawle pas une page. Voici comment identifier la vôtre et la corriger.

Aucun lien ne pointe vers la page

Google découvre les pages en suivant des liens. Si aucun lien interne ou externe ne pointe vers votre page, Google ne la trouvera jamais. C’est la raison numéro un des pages orphelines non crawlées.

Scénario typique : Vous créez une nouvelle page produit. Vous ne l’ajoutez dans aucun menu. Vous ne la liez depuis aucun article. Vous ne la mettez pas dans votre sitemap. Résultat : page complètement isolée. Google ne peut pas la découvrir.

Comment vérifier : Faites un crawl avec Screaming Frog sur votre site. Dans le rapport, cherchez « Orphan pages » ou pages avec zéro lien entrant. Ce sont vos pages invisibles pour Google.

Solution : Ajoutez au minimum un lien interne depuis une page déjà indexée (idéalement depuis la home ou une catégorie), ajoutez la page dans votre sitemap XML, créez quelques liens internes depuis des articles de blog pertinents, et si c’est une page stratégique, ajoutez-la dans le menu principal.

Résultat attendu : Google crawle la page dans les 24-72h suivant l’ajout du premier lien depuis une page déjà crawlée régulièrement.

Le fichier robots.txt bloque le crawl

Vous avez peut-être bloqué la page dans votre robots.txt sans le savoir. Erreur très courante, notamment sur WordPress ou avec certains plugins SEO mal configurés.

Erreurs classiques :

User-agent: *
Disallow: /wp-content/

Bloque toutes vos images et CSS (mauvais pour le rendering).

Disallow: ?

Bloque toutes les URLs avec paramètres (mauvais pour l’e-commerce avec filtres).

Disallow: /tag/

Bloque toutes vos pages de tags (peut être volontaire ou non selon votre stratégie).

Comment vérifier : Allez dans Search Console, Paramètres, Outil de test du fichier robots.txt. Entrez l’URL de votre page. Si elle est bloquée, vous verrez « Bloqué » en rouge.

Solution : Modifiez votre robots.txt pour retirer la ligne qui bloque votre page. Si vous utilisez WordPress avec Yoast ou Rank Math, vérifiez les paramètres robots.txt du plugin. Attention : après modification, il faut attendre que Google re-crawle votre robots.txt (généralement sous 24h).

Piège à éviter : Ne bloquez JAMAIS une URL dans robots.txt si vous voulez qu’elle soit désindexée. Bloquer dans robots.txt empêche le crawl mais ne désindexe pas. Utilisez meta noindex à la place.

Le serveur renvoie 403 Forbidden ou 401 Unauthorized

Votre page nécessite peut-être une authentification ou des permissions spécifiques. Google ne peut pas se connecter, donc il ne peut pas crawler.

Cas typiques :

Page derrière un login (espace client, contenu premium). Page protégée par IP (restriction géographique ou firewall). Page en mode maintenance. Htaccess mal configuré qui bloque tous les bots.

Comment vérifier : Ouvrez une fenêtre de navigation privée (sans être connecté à votre site). Essayez d’accéder à la page. Si vous voyez une page de connexion ou une erreur 403, Google voit la même chose. Utilisez aussi l’outil « Inspecter une URL » dans Search Console pour voir l’erreur exacte.

Solution : Si la page doit être publique : retirez la protection par mot de passe, retirez les restrictions IP sauf pour les bots légitimes, et vérifiez les règles htaccess. Si la page doit rester privée : c’est normal qu’elle ne soit pas crawlée, ajoutez meta noindex au cas où Google y accéderait via une fuite, et ne la mettez pas dans votre sitemap.

Erreur DNS ou serveur injoignable

Si votre serveur est down ou inaccessible quand Google tente de crawler, il reviendra plus tard mais réduira progressivement la fréquence de crawl.

Causes courantes : Serveur mutualisé surchargé qui crash régulièrement, maintenance mal planifiée (vous coupez le serveur quand Googlebot arrive), firewall qui bloque par erreur les IPs de Google (certains antispam trop agressifs), et problème DNS (domaine mal configuré ou expiré).

Comment détecter : Dans Search Console, onglet « Paramètres », puis « Statistiques d’exploration ». Regardez le graphique « État d’hôte ». Si vous voyez des pics d’erreurs « Erreur du serveur » ou « Erreur DNS », c’est que votre serveur était down quand Google a tenté de crawler.

Solution : Passez sur un hébergement plus fiable si vous avez des downtime réguliers. Vérifiez que les IPs de Googlebot ne sont pas bloquées par votre firewall (liste officielle des IPs sur Google). Mettez en place un monitoring (UptimeRobot, Pingdom) pour être alerté des downtime. Si maintenance nécessaire, faites-la aux heures creuses (3h-6h du matin heure locale).

Budget de crawl épuisé sur d’autres pages

Google a crawlé ses 500 pages quotidiennes sur votre site, mais votre nouvelle page n’en faisait pas partie car elle est moins prioritaire que d’autres.

Cas typique gros site : Vous avez 10 000 pages. Vous publiez 10 nouveaux produits. Ces produits sont à 5 clics de profondeur dans votre architecture. Google crawle d’abord vos pages populaires (home, catégories principales, best-sellers). Il épuise son crawl budget avant d’arriver à vos nouveaux produits profondément enfouis. Résultat : vos nouveaux produits ne sont pas crawlés pendant plusieurs semaines.

Solution : Ajoutez vos nouveaux produits dans un bloc « Nouveautés » sur la home (les met à 1 clic de profondeur). Liez-les depuis des articles de blog récents. Soumettez-les manuellement dans Search Console pour priorité crawl. Optimisez votre crawl budget général (on voit ça dans la section suivante).

Le sitemap XML ne contient pas la page

Si vous comptez sur le sitemap pour que Google découvre vos pages et que la page n’y est pas, Google ne la trouvera que s’il tombe dessus par un lien (ce qui peut prendre du temps).

Erreurs classiques sitemap : Sitemap généré automatiquement par un plugin mais mal configuré (exclut certaines catégories). Sitemap statique que vous oubliez de mettre à jour manuellement. Sitemap avec limite de 50 000 URLs et vos nouvelles pages dépassent cette limite (il faut créer plusieurs sitemaps ou un sitemap index).

Comment vérifier : Allez sur votresite.com/sitemap.xml (ou le chemin de votre sitemap). Cherchez manuellement votre URL (Ctrl+F). Si elle n’apparaît pas, elle n’est pas dans le sitemap.

Solution : Si plugin WordPress (Yoast, Rank Math, etc.) : vérifiez les paramètres d’inclusion/exclusion. Si sitemap généré par votre CMS : vérifiez qu’il se régénère automatiquement. Si sitemap manuel : ajoutez l’URL et re-soumettez le sitemap dans Search Console. Si plus de 50 000 URLs : créez un sitemap index qui pointe vers plusieurs sitemaps enfants.

Important : Même avec un sitemap parfait, Google n’est pas obligé de crawler immédiatement. Le sitemap est une suggestion, pas un ordre. Mais ça accélère significativement la découverte.

JavaScript bloque le contenu avant le rendering

Votre page charge du contenu via JavaScript après le chargement initial. Googlebot doit donc attendre le rendering pour voir le contenu. Si le rendering échoue ou est trop lent, Google peut abandonner.

Scénario problématique : Page vide au chargement initial (juste un div id= »app »). JavaScript fetch le contenu depuis une API. Contenu s’affiche après 3 secondes. Googlebot crawle en deux phases : fetch HTML puis rendering JavaScript. Si le JavaScript ne s’exécute pas correctement côté Google, il ne voit qu’une page vide. Résultat : page crawlée techniquement mais contenu non vu par Google.

Comment tester : Utilisez l’outil « Inspecter une URL » dans Search Console. Cliquez sur « Tester l’URL en direct ». Puis « Afficher la page explorée ». Comparez le HTML brut (onglet « HTML ») avec la version rendue (onglet « Capture d’écran » et « Plus d’infos »). Si gros écart, vous avez un problème de rendering.

Solution : Privilégiez le Server-Side Rendering (SSR) ou Static Site Generation (SSG) pour le contenu important. Si vous utilisez React/Vue/Angular, utilisez Next.js, Nuxt, ou frameworks avec SSR. Assurez-vous que vos ressources JavaScript ne sont pas bloquées par robots.txt. Optimisez le temps d’exécution JavaScript (moins de 5 secondes pour rendering complet).

Alternative si refonte impossible : Implémentez le Dynamic Rendering (servez du HTML pré-rendu uniquement aux bots, JavaScript normal aux utilisateurs). Attention : Google tolère cette pratique mais préfère le SSR classique.

Le site est trop récent et Google n’a pas encore découvert votre domaine

Nouveau site, nouveau domaine, aucun backlink, aucune mention nulle part. Google ne sait même pas que vous existez. Le crawl initial d’un nouveau site peut prendre plusieurs semaines.

Timeline typique nouveau site : Jour 0 : vous lancez le site. Jour 1-7 : Google ne connaît pas votre existence (sauf si vous soumettez le sitemap). Jour 7-14 : premier crawl après soumission Search Console. Jour 14-30 : crawl sporadique, Google teste la qualité. Jour 30-90 : si contenu de qualité détecté, crawl devient régulier.

Comment accélérer : Soumettez immédiatement votre sitemap dans Google Search Console. Soumettez votre site dans Google Business Profile si local. Obtenez quelques backlinks basiques (annuaires de qualité, sites partenaires). Créez des profils sur réseaux sociaux avec lien vers votre site (Google crawle aussi via liens sociaux). Publiez du contenu régulièrement dès le lancement (signale un site actif).

Réalité : Un site complètement nouveau mettra 1-3 mois avant d’avoir un crawl budget normal. C’est le délai pour que Google établisse la confiance. Pas de solution miracle.

La page est en noindex

Évident mais ça arrive plus souvent qu’on croit. Vous avez mis une balise meta noindex sur la page pendant le dev et vous avez oublié de la retirer. Ou un plugin l’a ajoutée automatiquement.

Comment ça se passe techniquement : Google crawle la page, lit le meta name= »robots » content= »noindex », enregistre l’instruction, et arrête le processus. La page ne sera jamais indexée tant que la balise est présente.

Erreurs classiques WordPress : Réglages, Lecture, case « Demander aux moteurs de recherche de ne pas indexer ce site » cochée (bloque tout le site). Yoast SEO : paramètre « Autoriser les moteurs de recherche à afficher dans les résultats de recherche » sur Non. Rank Math : Robots Meta sur « No Index ». Plugin de staging/maintenance oublié actif en production.

Comment vérifier : Affichez le code source de votre page (clic droit, Afficher le code source). Cherchez (Ctrl+F) « noindex ». Si vous trouvez meta name= »robots » content= »noindex », c’est le problème. Ou utilisez l’extension Chrome « META SEO inspector » qui affiche toutes les balises meta instantanément.

Solution : Retirez la balise noindex du code source ou des paramètres du plugin. Attendez que Google re-crawle la page (ou soumettez via Search Console). Vérifiez ensuite avec site:votreurl que la page apparaît bien.

Pagination mal gérée (paramètres ignorés)

Vous avez une pagination de type votresite.com/blog?page=5. Google ignore souvent les paramètres URL et ne crawle que votresite.com/blog (page 1). Résultat : pages 2, 3, 4, 5 etc. jamais crawlées.

Pourquoi Google fait ça : Les paramètres URL créent souvent du duplicate content (tri, filtres, tracking). Google a appris à être prudent et ignore beaucoup de paramètres par défaut. Si votre pagination utilise ?page=, ?p=, &start=, Google peut considérer ça comme du duplicate et ne crawler que la première page.

Comment vérifier : Dans Search Console, allez dans Paramètres, puis Exploration. Regardez la section « Paramètres d’URL ». Vous pouvez voir comment Google traite les paramètres courants. Alternativement, faites site:votresite.com/blog?page= dans Google. Si aucun résultat, vos pages paginées ne sont pas crawlées.

Solutions :

Solution 1 (recommandée) : Utilisez des URLs de pagination propres sans paramètres : votresite.com/blog/page/2/, votresite.com/blog/page/3/, etc. Google les crawle comme des pages normales.

Solution 2 : Ajoutez rel= »next » et rel= »prev » dans le head de vos pages paginées (méthode classique mais Google l’a officiellement abandonnée en 2019, fonctionne encore partiellement).

Solution 3 : Listez toutes vos pages paginées dans votre sitemap XML.

Solution 4 (si paramètres obligatoires) : Dans Search Console, Paramètres ancienne version si accessible, ou via Google Search Central, configurez comment Google doit gérer le paramètre « page » (lui dire que ça pagine le contenu, pas du duplicate).

Trop de redirections en chaîne

Votre page A redirige vers B, qui redirige vers C, qui redirige vers D. Google abandonne après 3-5 redirections en chaîne.

Exemple concret : URL 1 : votresite.com/vieux-article (301 redirect). URL 2 : votresite.com/old-article (301 redirect). URL 3 : votresite.com/ancien-article (301 redirect). URL 4 : votresite.com/article-final (page réelle). Google suit les 3 premières redirections puis abandonne. La page finale n’est jamais crawlée.

Comment ça arrive : Refonte de site non planifiée (plusieurs migrations successives). Changements multiples de structure d’URLs. Plugin de redirection mal configuré qui crée des boucles.

Comment détecter : Screaming Frog : section « Response Codes », filtrez les 301/302. Regardez la colonne « Redirect chain » pour voir les chaînes. Search Console : parfois visible dans les erreurs avec message « Problème de redirection ».

Solution : Nettoyez les redirections en chaîne. Redirigez toutes les URLs intermédiaires directement vers la destination finale. Exemple : URL 1, 2, 3 redirigent toutes directement vers URL 4 (pas de chaîne). Maximum acceptable : 1 redirection (A vers B). Deux redirections max en cas de force majeure.

Le site est pénalisé ou en sandbox

Si Google a pénalisé votre site (manuellement ou algorithmiquement) ou si vous êtes un tout nouveau site en période de « sandbox » (observation), le crawl peut être fortement réduit.

Pénalité manuelle : Vous avez fait du black hat SEO (spam, backlinks toxiques, contenu volé, cloaking). Google vous a pénalisé manuellement. Visible dans Search Console, section « Actions manuelles ». Impact : crawl budget réduit drastiquement, désindexation partielle ou totale possible.

Pénalité algorithmique : Pas de notification officielle mais votre site a été frappé par une mise à jour algo (Panda pour contenu faible, Penguin pour liens spam). Impact : perte de rankings et réduction progressive du crawl budget (Google considère votre site moins pertinent).

Sandbox (nouveaux sites) : Théorie non confirmée officiellement mais observée par de nombreux SEO. Les nouveaux sites (moins de 6 mois) sont « observés » par Google avec un crawl budget très limité. Impact : vos pages mettent beaucoup de temps à être crawlées et indexées même si techniquement tout est bon.

Comment savoir : Pénalité manuelle : vérifiez Search Console, Actions manuelles. Pénalité algo : chute brutale de trafic après une mise à jour Google (vérifiez les dates des updates). Sandbox : site nouveau avec très peu de crawl malgré optimisations techniques correctes.

Solution :

Pénalité manuelle : corrigez le problème mentionné dans Search Console, soumettez une demande de réexamen. Pénalité algo : améliorez massivement la qualité du contenu et du profil de liens, attendez la prochaine mise à jour. Sandbox : patience, continuez de publier du contenu de qualité, obtenez des backlinks légitimes progressivement.

Voilà les 12 raisons principales pour lesquelles Google ne crawle pas….

Une fois que vous avez corrigé la raison qui bloque le crawl, Google devrait visiter votre page dans les 24-72h (si vous avez demandé une indexation manuelle) ou 1-2 semaines naturellement. Mais crawl ≠ indexation. Il est possible que Google crawle votre page et décide de ne pas l’indexer. Si c’est votre cas, consultez notre guide sur les 9 raisons du statut « Explorée, actuellement non indexée » .

Sommaire :
    Add a header to begin generating the table of contents

    Contactez-moi et discutons de votre projet !