Comment ne pas référencer une page web ?
En matière de référencement web, il est parfois intéressant de ne pas référencer une page web, ou plutôt de ne pas l’indexer. En effet, certaines pages de votre site web peuvent ne pas avoir d’intérêt particulier pour Google. Dans ce type de cas, il est intéressant de savoir comment ne pas référencer une page web et comment empêcher son indexation par Google. Nous vous expliquons tout sur le sujet !
Pourquoi ne pas référencer une page web ?
Avant toute chose, il est important de rappeler quel est l’intérêt de déréférencer une page web. En effet, il s’agit là d’une pratique très spécifique, qui ne doit concerner qu’une petite série de pages de votre site internet.
Rappel sur le référencement et l’indexation d’une page web
Rappelons en premier lieu le principe de référencement et d’indexation d’un site web.
Une page web indexée est une page web connue et listée par les moteurs de recherche dans leurs résultats. Il faut savoir que Google et consorts utilisent des robots (des programmes) pour parcourir les pages d’un site internet.
Toute page jugée suffisamment qualitative par ces robots peut être référencée par un moteur de recherche (on parle d’indexation de la page pour désigner le fait d’ajouter la page dans les résultats des moteurs de recherche).
Une fois une page indexée, les internautes peuvent parfois tomber sur cette dernière au détour de leurs recherches internet.
On notera que l’indexation d’une page n’est pas suffisante pour gagner de la visibilité en ligne. Ce qui vous intéresse pour cela est le positionnement d’une page web, à savoir sa position dans les pages des résultats de recherche (SERP). C’est la différence entre indexation (la page est présente dans les SERP) et le référencement (la page est bien positionnée dans les SERP).
Mais l’indexation de la page reste la première étape essentielle pour gagner du trafic web.
Dans quels cas ne pas indexer une page ?
En toute logique, une page web non indexée est une page web totalement inconnue des moteurs de recherche. C’est donc une page qui n’apparaîtra jamais dans les SERP Google.
Sur le point du SEO, ne pas référencer ses pages web est forcément dramatique. Néanmoins, il existe des cas dans lesquels il peut être intéressant de ne pas faire référencer une page web dans les résultats de recherche.
Pour dire les choses globalement, les pages web à ne pas indexer sont celles que vous ne souhaitez pas mettre en avant auprès de votre public ou auprès de Google.
Il peut par exemple s’agir de pages sans aucun enjeu SEO, par exemple les pages légales (mentions légales, CGU, etc.). Il peut également s’agir de pages que vous ne souhaitez pas voir apparaître dans les résultats de recherche (une landing page par exemple).
À savoir : s’il est toujours possible de désindexer une page web déjà référencée, il sera préférable d’empêcher l’indexation dès la création de la page web.
Comment ne pas référencer une page web ? Les différentes options
Après avoir planté le décor, voyons ensemble comment ne pas référencer une page web, ou plutôt comment ne pas l’indexer.
Il existe en effet différentes techniques pour éviter l’indexation d’une page en particulier. Rappelons que ces techniques doivent être appliquées avec prudence, et uniquement sur les pages que vous ne souhaitez pas voir indexées par Google.
Le fichier robots.txt
Quand on parle d’indexation d’un site internet, le fichier robots.txt est forcément important.
Le fichier robots.txt est un fichier texte qui communique des autorisations aux moteurs de recherche. Il indique notamment si les robots de crawling peuvent indexer le site, et quelles sont les pages à indexer ou non.
Ce fichier doit être placé à la racine du site et peut contenir différentes consignes pour les moteurs de recherche.
Le fichier robots.txt peut empêcher l’indexation de certaines pages web. Pour cela, il faut utiliser la mention « Disallow: » suivie du chemin de la page à ne pas indexer.
Par exemple, si je souhaite ne pas indexer la page « www.mise-en-valeur.fr/referencement-naturel » de ce site web, je peux ajouter la ligne suivante dans mon fichier robots.txt :
User-agent: * Disallow: /referencement-naturel/
Attention, la commande Disallow va bloquer tout le répertoire. Dans mon exemple, l’URL « www.mise-en-valeur.fr/referencement-naturel/link-juice/ » serait aussi bloquée, car elle est contenue dans le répertoire « referencement-naturel ».
Cette technique sera uniquement intéressante si vous souhaitez empêcher l’indexation de quelques pages web ou de quelques répertoires. Forcément, elle sera moins pertinente si vous avez fréquemment intérêt à désindexer des pages web.
À savoir : notez également que le fichier robots.txt est aisément accessible. Mieux vaut donc éviter d’y lister les pages « sensibles » que vous souhaiteriez déréférencer, car n’importe qui pourrait alors rapidement avoir accès à ces pages en consultant votre fichier robots.txt !
Code source pour ne pas référencer une page (balise noindex)
Si le robots.txt peut empêcher l’indexation au niveau du site, il est également possible d’empêcher l’indexation au niveau de la page.
La balise Meta « noindex » permet de ne pas référencer une page web. Il s’agit d’un code à ajouter en en-tête de la page HTML, entre les balises <head>. Le code source pour ne pas référencer une page est le suivant :
<meta name="robots" content="noindex">
Les principaux moteurs de recherche prendront en compte cette directive et ne référenceront pas une page web qui contient cette balise. On notera néanmoins que la balise ne peut fonctionner que si la page en question n’est pas bloquée par le fichier robots.txt.
C’est notamment la technique préconisée par Google pour bloquer l’indexation dans la recherche.
À savoir : si vous souhaitez indexer une page qui avait préalablement reçu la balise « noindex », il peut être intéressant de remplacer « noindex » par « index » dans le code source de la page. Cela signifiera clairement aux moteurs de recherche qu’il y a eu un changement de règles concernant cette page.
Désindexer une page sur WordPress
On notera qu’il est parfois complexe de désindexer une page sur WordPress, notamment car l’accès aux balises <head> n’est pas permis. Il est donc difficile d’intégrer la valise noindex. Qu’à cela ne tienne !
Il existe différentes extensions qui peuvent permettre de désindexer chaque page.
La plupart des extensions SEO de WordPress permettent d’ajouter facilement une balise noindex, lors de l’édition d’une page ou d’un article. Ces extensions sont souvent gratuites ou en freemium, et offrent de nombreuses fonctionnalités en termes de référencement naturel.
Nous vous conseillons pour cela d’utiliser RankMaths, une excellente extension SEO pour WordPress. Il existe bien évidemment d’autres alternatives, comme YoastSEO ou SEOPress.
Il existe également des extensions uniquement conçues pour permettre d’ajouter la balise noindex (et qui n’ont donc pas d’autres fonctionnalités), à l’instar de noindex SEO.
Utilisation de mots de passe
Une manière plus élémentaire d’empêcher l’indexation d’une page web est de la rendre privée, et accessible uniquement par mot de passe.
Une page protégée par mot de passe ne peut pas être indexée par les moteurs de recherche. Si vous avez besoin de désindexer différentes parties de votre site parce qu’elles sont privées ou qu’il s’agit de contenu premium, la meilleure solution est de mette en place un système de mots de passe et d’accès utilisateurs.
Naturellement, cette technique ne fonctionne pas si vous avez besoin que la page en question puisse être accessible par tous les internautes qui utilisent votre site web (par exemple s’il s’agit des mentions légales).
La Google Search Console
Si vous souhaitez désindexer différentes pages déjà présentes sur Google, il est possible d’utiliser pour cela la Google Search Console.
Pour cela, il vous suffit de vous rendre sur votre compte Google Search Console et de suivre ces étapes :
- Dans « Indexation », cliquez sur « Suppressions ».
- Indiquez l’URL à supprimer.
- Choisissez entre supprimer uniquement l’URL (une seule page) ou toutes les URL avec ce préfixe (pour désindexer tout un répertoire, par exemple).
Cette solution permet uniquement de désindexer des pages sur Google, et pas sur les autres moteurs de recherche. C’est surtout une manière rapide de désindexer une page déjà référencée, mais sur laquelle vous avez ajouté une balise noindex, avant que Google ne la crawle à nouveau.
Quelles pages web faut-il désindexer ?
Vous aurez compris qu’il existe différentes solutions pour désindexer une page et empêcher son référencement. La balise noindex reste le meilleur moyen d’indiquer aux moteurs de recherche qu’une page ne doit pas être indexée.
Ceci dit, rappelons que le fait de ne pas référencer une page web reste une exception ! En théorie, vous avez forcément intérêt à ce que les pages de votre site internet soient connues de Google et de ses confrères.
Seules certaines pages de votre site web doivent être désindexées, et notamment les pages suivantes :
- Toutes les pages utilisées pour le back-office et les pages techniques.
- Toutes les pages réservées à un usage interne à l’entreprise (mieux vaut alors créer un intranet accessible par mot de passe).
- Les pages indexées par erreur et que vous souhaitiez privées.
- Les pages que vous ne souhaitez pas voir apparaître pour raison juridique ou stratégique.
- Les pages qui contiennent du contenu dupliqué (par exemple des fiches produits qui ont exactement les mêmes contenus).
- Les pages qui n’ont pas d’intérêt pour Google ou qui ne sont pas qualitatives.
Pour rappel, la recherche Google « site: » suivie de votre URL (par exemple « site:www.mise-en-valeur.fr ») permet d’afficher toutes les pages indexées de votre site web. C’est une bonne manière de repérer les pages que vous ne souhaitiez pas voir référencées sur Google.
Vous en savez désormais plus sur la désindexation d’une page web ! Pour affiner votre stratégie de référencement naturel, n’hésitez pas à consulter notre dossier spécial « pourquoi mon site n’apparait pas sur Google » s’il s’agit d’une problématique qui peut également vous toucher.