9 raisons pour lesquelles Google crawle mais n’indexe pas

Votre page est crawlée (vous le voyez dans les logs ou Search Console). Mais elle n’apparaît jamais dans les résultats. Status typique dans Search Console : « Explorée, actuellement non indexée ». Voici pourquoi…

Le contenu dupliqué (interne ou externe)

Google a crawlé votre page mais a détecté qu’elle est quasiment identique à une autre page (sur votre site ou ailleurs). Il décide de ne pas l’indexer pour éviter le duplicate.

Duplicate interne (sur votre site) : Descriptions de produits identiques (e-commerce qui reprend les descriptions fabricant pour 50 variantes couleur). Articles de blog quasi-identiques (vous avez réécrit 5 fois le même sujet avec des titres légèrement différents). Pages tags/catégories avec le même contenu.

Duplicate externe (copié depuis un autre site) : Vous avez copié-collé un article depuis un concurrent. Vous republiez du contenu syndiqué sans permission. Quelqu’un a volé votre contenu et Google considère sa version comme l’originale car publiée avant ou depuis un site plus autoritaire.

Comment détecter : Outil Siteliner.com : crawle votre site et détecte les duplicates internes. Copyscape ou Quetext : détecte le duplicate externe. Search Console : dans Couverture, les pages « Explorée, actuellement non indexée » sont souvent des duplicates. Screaming Frog : export toutes les meta descriptions et titles, cherchez les doublons dans Excel.

Solution :

Pour duplicate interne : utilisez rel canonical pour indiquer à Google quelle version est la principale, réécrivez les contenus pour les différencier, ou fusionnez les pages similaires en une seule plus complète. Pour duplicate externe : si c’est vous l’original, demandez le retrait du contenu volé (DMCA), sinon réécrivez votre version pour qu’elle soit unique.

Important : Google indexe généralement UNE version du contenu dupliqué (celle qu’il juge la meilleure). Les autres sont explorées mais non indexées. Si vous avez 100 pages produits avec la même description, Google en indexera peut-être 10 et ignorera les 90 autres.

Votre contenu est trop court

Google a crawlé votre page mais considère qu’elle n’apporte pas assez de valeur pour mériter une place dans l’index. Typique des pages avec moins de 100-150 mots sans réelle valeur ajoutée.

Exemples classiques : Fiches produits e-commerce avec juste le titre, prix, et bouton achat (50 mots). Articles de blog très courts (150 mots) sans profondeur. Pages tags ou catégories vides ou presque vides (juste une liste de titres). Pages « Coming soon » ou « En construction » avec peu de contenu.

Seuil officieux : Il n’y a pas de nombre de mots minimum officiel. Mais empiriquement, les pages avec moins de 300 mots ont beaucoup plus de mal à être indexées, surtout sur des sujets concurrentiels. Google privilégie le contenu complet qui répond pleinement à une intention de recherche.

Comment diagnostiquer : Screaming Frog : exportez toutes vos pages avec leur word count. Filtrez celles en dessous de 300 mots. Vérifiez leur statut d’indexation. Search Console : les thin content apparaissent souvent en « Explorée, actuellement non indexée ».

Solution :

Enrichissez le contenu : passez de 100 à 500+ mots avec informations utiles. Ajoutez des sections FAQ, des guides d’utilisation, des specs détaillées. Fusionnez plusieurs thin pages en une page complète. Si la page n’a vraiment rien à dire (page tag vide, catégorie sans produit) : mettez en noindex ou supprimez.

Cas particulier pages e-commerce : Même avec description courte, vous pouvez indexer si vous ajoutez : avis clients (user-generated content unique), guides d’achat ou conseils d’utilisation, comparatifs avec produits similaires, et vidéos ou visuels riches.

Une qualité globale du site trop faible

Google évalue la qualité globale de votre site. Si 80% de vos pages sont de mauvaise qualité, même vos nouvelles pages correctes auront du mal à être indexées. C’est l’effet « site de faible qualité ».

Signaux de faible qualité site : Taux de rebond très élevé (90%+), temps sur site très faible (moins de 30 secondes), peu ou pas de backlinks, site récent sans historique, beaucoup d’erreurs techniques (404, 500), et contenu majoritairement thin ou dupliqué.

Impact : Google réduit votre crawl budget ET votre « indexation budget » (concept non officiel mais observé). Même des pages décentes peinent à être indexées car Google n’a pas confiance dans votre site globalement.

Comment diagnostiquer : Comparez le nombre de pages publiées vs indexées dans Search Console. Si vous avez 1000 pages mais seulement 100 indexées (10%), c’est un signal de faible qualité globale. Analysez les Core Web Vitals dans Search Console (mauvaises perfs techniques participent à la perception de faible qualité). Vérifiez votre profil de backlinks (absence totale de liens entrants = signal de faible autorité).

Solution : C’est un travail de fond. Supprimez ou améliorez drastiquement les pages de faible qualité (mieux vaut 200 bonnes pages que 2000 mauvaises). Obtenez des backlinks de qualité progressivement. Améliorez les Core Web Vitals (vitesse, stabilité visuelle, interactivité). Publiez régulièrement du contenu de haute qualité. Attendez que Google réévalue votre site (peut prendre 3-6 mois).

La page orpheline ou trop profonde dans l’architecture

Google a crawlé la page (par exemple via le sitemap) mais elle n’a aucun lien interne qui y mène. Ou elle est à 6-7 clics de profondeur. Google la juge donc peu importante et décide de ne pas l’indexer.

Logique de Google : Si une page est importante, vous la liez depuis d’autres pages. Si elle n’a aucun lien interne, c’est probablement qu’elle n’est pas importante. Google peut donc choisir de ne pas la mettre dans l’index.

Comment ça arrive : Vous créez une landing page pour une campagne pub mais ne la liez nulle part sur le site. Vieille page que vous avez désormais cachée (retiré tous les liens) mais pas supprimée. Page générée automatiquement (paramètres, filtres) qui n’est liée que via le sitemap.

Comment détecter : Screaming Frog : comparez le crawl standard avec une importation de votre sitemap XML. Les pages dans le sitemap mais avec « 0 inlinks » dans le crawl sont orphelines. Search Console : parfois signalé comme « Explorée, actuellement non indexée » avec peu de liens entrants.

Solution : Ajoutez des liens internes depuis des pages pertinentes (minimum 2-3 liens). Intégrez la page dans votre navigation ou arborescence logique. Si c’est une landing temporaire, acceptez qu’elle ne soit pas indexée (ce n’est pas grave pour une page pub pure).

La balise canonical pointe vers une autre URL

Vous avez mis une balise link rel canonical qui pointe vers une autre page. Google respecte cette directive et n’indexe que l’URL canonique, pas la page actuelle.

Quand c’est voulu : Pages produits variantes couleur (toutes pointent vers la version bleue qui est la canonique). Pages avec paramètres de tri/filtres (toutes pointent vers la version par défaut). Version AMP d’un article (pointe vers la version desktop comme canonique).

Quand c’est une erreur : Plugin SEO mal configuré qui met une canonical incorrecte. Copier-coller du code d’une autre page en oubliant de changer la canonical. Canonical auto-générée incorrectement par le CMS.

Comment vérifier : Affichez le code source de votre page. Cherchez link rel canonical. Vérifiez que l’URL indiquée est bien la page actuelle (self-referencing canonical) ou volontairement une autre page.

Solution : Si erreur : corrigez la canonical pour qu’elle pointe vers l’URL actuelle. Si volontaire : c’est normal que la page ne soit pas indexée, l’URL canonique le sera.

Bonne pratique : Toute page que vous voulez indexer doit avoir une canonical auto-référencée (qui pointe vers elle-même). Exemple sur votresite.com/article-seo, le head contient link rel canonical href votresite.com/article-seo.

Du contenu non original ou agrégé

Votre page rassemble du contenu qui existe déjà ailleurs sur Internet. Google considère que la valeur ajoutée est insuffisante et ne l’indexe pas.

Exemples typiques : Agrégateurs de flux RSS (sites qui republient automatiquement des articles de blogs externes). Sites d’offres d’emploi qui scrapent les annonces d’autres sites. Sites de comparaison qui reprennent les descriptions de produits depuis les e-commerces. Sites d’actualité qui republient des dépêches AFP/Reuters sans réécriture.

Position de Google : Google préfère indexer la source originale. Si vous ne faites qu’agréger sans ajouter de valeur unique, il n’y a pas de raison d’indexer votre version en plus de l’original.

Comment se démarquer malgré l’agrégation : Ajoutez des commentaires, analyses, ou opinions personnelles sur chaque élément agrégé. Créez des comparatifs ou synthèses uniques. Ajoutez des filtres, outils, ou fonctionnalités que l’original n’a pas. Obtenez une licence officielle pour republier (avec permission de la source). Si vous agrégez des offres d’emploi, ajoutez des infos sur l’entreprise, le quartier, des conseils de candidature, etc.

Si vous ne pouvez pas ajouter de valeur : Acceptez que vos pages ne soient pas indexées ou passez sur un modèle noindex avec accès uniquement via recherche interne sur votre site.

Un site trop récent en période d’observation (Google Sandbox)

Théorie controversée mais largement observée : les nouveaux sites (moins de 6 mois) sont placés dans une « sandbox » où Google est très sélectif sur ce qu’il indexe.

Symptômes typiques : Votre site a 2 mois, vous publiez 50 articles de qualité, Google crawle tout, mais n’indexe que 10-15 pages, le reste reste en « Explorée, actuellement non indexée », et même les pages indexées rankent très mal malgré une bonne optimisation.

Pourquoi Google fait ça : Protection contre le spam. Les nouveaux sites doivent « prouver » leur qualité avant d’avoir un traitement normal. Google veut voir si vous allez maintenir la qualité ou si c’est un site spam qui va disparaître dans 3 mois.

Durée de la sandbox : Généralement 3 à 6 mois pour un site complètement nouveau. Peut être raccourcie si vous obtenez rapidement des signaux de qualité (backlinks autoritaires, trafic direct, engagement). Peut être prolongée si signaux négatifs (spam détecté, contenu copié).

Ce que vous pouvez faire : Patience, continuez de publier du contenu de qualité régulièrement, obtenez des backlinks de sites établis et autoritaires, générez du trafic par d’autres canaux (social, email, pub), et prouvez que vous êtes un site sérieux qui va durer. Après quelques mois, Google « lève » progressivement la sandbox et indexe massivement vos pages d’un coup.

Une page jugée non pertinente pour l’intention de recherche

Google analyse votre page et conclut qu’elle ne répond à aucune intention de recherche claire. Il décide donc de ne pas l’indexer car elle n’a aucune chance de ranker de toute façon.

Exemples de pages sans intention claire : Pages « À propos » génériques sans info utile. Pages de remerciement après inscription (merci de vous être inscrit). Pages intermédiaires de tunnel de conversion (étape 2 sur 5). Pages test ou draft que vous avez oublié de supprimer.

Logique de Google : Pourquoi indexer une page si personne ne va jamais la chercher ? Google optimise son index en ne gardant que des pages qui ont une chance d’être pertinentes pour au moins quelques requêtes.

Solution : Si la page est utile aux utilisateurs mais pas destinée au SEO : mettez-la en noindex (c’est normal qu’elle ne soit pas dans Google). Si vous voulez qu’elle soit indexée : réécrivez-la pour qu’elle cible une intention de recherche claire (qu’est-ce que quelqu’un pourrait chercher pour tomber sur cette page ?), ajoutez du contenu optimisé pour un mot-clé spécifique, et ajoutez de la valeur qui justifie son existence dans les résultats de recherche.

Problème de rendu JavaScript non détecté

Google a tenté de render votre page JavaScript mais a rencontré une erreur silencieuse. Le crawl technique s’est bien passé (200 OK) mais le contenu n’a pas été extrait correctement. Résultat : page crawlée mais Google la voit vide ou incomplète, donc ne l’indexe pas.

Erreurs JavaScript courantes :

Script qui dépend d’une ressource externe bloquée (Google ne peut pas charger la library). Erreur JavaScript dans la console qui stoppe l’exécution (un petit bug qui casse tout le rendering). Contenu qui se charge après un événement utilisateur (click, scroll) que Google ne simule pas. Timeout trop long (votre contenu met 10 secondes à charger, Google abandonne après 5).

Comment diagnostiquer : Search Console, Inspecter une URL, puis Tester l’URL en direct. Regardez la capture d’écran et comparez avec ce que vous voyez dans votre navigateur. Regardez la console JavaScript (onglet « Plus d’infos ») pour voir les erreurs. Utilisez le Mobile-Friendly Test de Google pour voir le rendu exact.

Solution :

Passez au Server-Side Rendering (SSR) si possible, c’est la solution la plus fiable. Assurez-vous que toutes les ressources JavaScript critiques sont accessibles (pas bloquées par robots.txt). Corrigez toutes les erreurs JavaScript visibles dans la console. Réduisez le temps de rendering (optimisation du code, lazy loading intelligent). Testez régulièrement avec les outils Google pour vérifier que le rendu fonctionne.

Sommaire :
    Add a header to begin generating the table of contents

    Contactez-moi et discutons de votre projet !