25 combos tueurs pour le site de Google : Opérateur
[*][*]
Il y a une application pour tout – le problème est que nous sommes tellement occupés à chasser le dernier jouet brillant que nous nous arrêtons rarement pour apprendre à bien utiliser des outils simples. En tant que SEO technique, l’un des outils pour lesquels je semble ne jamais cesser de trouver de nouvelles utilisations est le site : opérateur. J’y ai récemment consacré quelques diapositives dans ma présentation BlueGlassX, mais j’ai réalisé que ces 5 minutes n’étaient qu’une infime tranche de toutes les utilisations que j’ai trouvées au fil des ans.
Les gens se plaignent souvent que site:, en soi, est inexact (j’en parlerai plus à la fin de l’article), mais la magie réside dans la combinaison de site: avec d’autres opérateurs de requête. Donc, j’ai trouvé deux douzaines de combos tueurs qui peuvent vous aider à plonger profondément dans n’importe quel site.
1. site :exemple.com
Ok, celui-ci n’est pas vraiment une combinaison, mais commençons par les bases. Associé à un domaine ou sous-domaine racine, le [site:] renvoie une estimation du nombre de pages indexées pour ce domaine. La partie « estimée » est importante, mais nous y reviendrons plus tard. Pour une vue d’ensemble, je m’en tiens généralement au domaine racine (sans le “www”, etc.).
Chaque combo dans cet article aura un exemple cliquable (voir ci-dessous). Je choisis Amazon.com dans mes exemples, car ils sont assez grands pour que tous ces combos entrent en jeu :
Site : amazon.com
Vous vous retrouverez avec deux informations : (1) la liste réelle des pages de l’index et (2) le nombre de ces pages (entouré en violet ci-dessous) :
Je pense que nous pouvons tous convenir que 273 000 000 de résultats, c’est bien plus que ce que la plupart d’entre nous voudraient trier. Même si nous voulions faire autant de clics, Google nous arrêterait après 100 pages. Alors, comment pouvons-nous devenir plus sophistiqués et approfondir l’index Google ?
2. site :exemple.com/dossier
Le moyen le plus simple de plonger plus profondément dans ce gâchis est de fournir un sous-dossier (comme “/blog”) – ajoutez-le simplement à la fin du domaine racine. Ne laissez pas la simplicité de ce combo vous tromper – si vous connaissez l’architecture de base d’un site, vous pouvez l’utiliser pour explorer rapidement l’index et repérer les problèmes d’exploration.
site : amazon.com/books
3. site : sub.example.com
Vous pouvez également accéder à des sous-domaines spécifiques. Utilisez simplement le sous-domaine complet dans la requête. Je commence généralement par le n° 1 pour balayer tous les sous-domaines, mais le n° 3 peut être très utile dans des situations telles que la recherche d’un sous-domaine de développement ou de staging qui a peut-être été exploré accidentellement.
site : local.amazon.com
4. site:exemple.com dans URL:www
L’opérateur “inurl :” recherche un texte spécifique dans les URL indexées. Vous pouvez associer “site :” à “inurl :” pour trouver le sous-domaine dans l’URL complète. Pourquoi utiliseriez-vous ceci au lieu de #3 ? D’une part, “inurl :” recherchera le texte n’importe où dans l’URL, y compris le dossier et les noms de page/fichier. Pour le suivi des sous-domaines, cela peut ne pas être souhaitable. Cependant, “inurl:” est beaucoup plus flexible que de placer le sous-domaine directement dans la requête principale. Vous verrez pourquoi dans les exemples #5 et #6.
site:amazon.com inurl:local
5. site:exemple.com -inurl:www
Ajouter [-] à la plupart des opérateurs indique à Google de rechercher autre chose que ce texte particulier. Dans ce cas, en séparant “inurl:www”, vous pouvez le changer en “-inurl:www” et trouver toutes les URL indexées qui sont ne pas sur le sous-domaine “www”. Si “www” est votre sous-domaine canonique, cela peut être très utile pour trouver des URL non canoniques que Google a pu explorer.
site:amazon.com -inurl:www
6. site:example.com -inurl:www -inurl:dev -inurl:shop
Je ne vais pas énumérer toutes les combinaisons possibles d’opérateurs Google, mais gardez à l’esprit que vous pouvez enchaîner la plupart des opérateurs. Supposons que vous soupçonniez qu’il existe des sous-domaines errants, mais que vous n’êtes pas sûr de ce qu’ils sont. Vous connaissez cependant “www.”, “dev.” et “boutique”. Vous pouvez chaîner plusieurs opérateurs “-inurl:” pour supprimer tous ces sous-domaines connus de la requête, vous laissant avec une liste de tous les retardataires.
site:amazon.com -inurl:www -inurl:local -inurl:aws
7. site:exemple.com inurl:https
Vous ne pouvez pas mettre un protocole directement dans « site : » (par exemple « https : », « ftp : », etc.). Heureusement, vous pouvez mettre “https” dans un opérateur “inurl:”, vous permettant de voir toutes les pages sécurisées indexées par Google. Comme pour toutes les requêtes “inurl:”, cela trouvera “https” n’importe où dans l’URL, mais il est relativement rare de le voir ailleurs que dans le protocole.
site:amazon.com inurl:https
8. site:exemple.com inurl:param
Les paramètres d’URL peuvent être le rêve d’un Panda. Si vous vous inquiétez de quelque chose comme les tris de recherche, les filtres ou la pagination, et que votre site utilise des paramètres d’URL pour créer ces pages, vous pouvez utiliser “inurl:” plus le nom du paramètre pour les retrouver. Encore une fois, gardez à l’esprit que Google recherchera ce nom n’importe où dans l’URL, ce qui peut parfois causer des maux de tête.
site:amazon.com inurl:ref
Conseil de pro : Essayez l’exemple ci-dessus et vous remarquerez que “inurl:ref” renvoie toute URL contenant “ref”, pas seulement les paramètres d’URL traditionnels. Soyez prudent lorsque vous recherchez un paramètre qui est également un mot courant.
9. site:example.com -inurl:param
Peut-être voulez-vous savoir combien de pages de recherche sont indexées sans tri ou combien de pages de produits Google suit sans sélection de taille ou de couleur – ajoutez simplement [-] à votre instruction “inurl:” pour exclure ce paramètre. Gardez à l’esprit que vous pouvez combiner “inurl :” avec “-inurl :”, en incluant spécifiquement certains paramètres et en en excluant d’autres. Pour les sites de commerce électronique complexes, ces deux combinaisons peuvent à elles seules avoir des dizaines d’utilisations.
site:amazon.com -inurl:ref
10. site:example.com le texte va ici
Bien sûr, vous pouvez toujours combiner l’opérateur “site :” avec une requête textuelle ordinaire. Cela recherchera le contenu de la page entière dans le site donné. Comme les requêtes standard, il s’agit essentiellement d’une logique [AND]mais c’est un peu lâche [AND] – Google essaiera de faire correspondre tous les termes, mais ces termes peuvent être séparés sur la page ou vous pouvez obtenir des résultats qui n’incluent que certains des termes. Vous verrez que l’exemple ci-dessous correspond à l’expression “livres Kindle gratuits”, mais également à des expressions telles que “livres gratuits sur Kindle”.
site: amazon.com livres Kindle gratuits
11. site:example.com “le texte va ici”
Si vous souhaitez rechercher une expression exacte, mettez-la entre guillemets. Cette combinaison simple peut être extrêmement utile pour rechercher les copies en double et quasi-dupliquées sur votre site. Si vous craignez que l’une de vos descriptions de produits ne se répète sur des dizaines de pages, par exemple, sortez quelques termes uniques et mettez-les entre guillemets.
site:amazon.com “livres Kindle gratuits”
12. site:example.com/folder “le texte va ici”
Ceci est juste un rappel que vous pouvez combiner du texte (avec ou sans guillemets) avec presque toutes les combinaisons discutées précédemment. Limitez votre requête à votre blog ou à vos pages de magasin, par exemple, pour vraiment cibler votre recherche de doublons.
site: amazon.com/books “harry potter”
13. site:example.com ceci OU cela
Si vous voulez spécifiquement une logique [OR], Google prend en charge l’utilisation de “ou” dans les requêtes. Dans ce cas, vous récupérerez toutes les pages indexées sur le domaine qui contiennent “ceci” ou “cela” (ou les deux, comme pour tout [OR]). Cela peut être très utile si vous avez oublié exactement quel terme vous avez utilisé ou si vous recherchez une famille de mots-clés.
site:amazon.com edward OU jacob
Éditer: Astuce de chapeau à TracyMu dans les commentaires – c’est un cas où la capitalisation est importante. Utilisez soit “OU” en majuscules ou le tuyau “|” symbole. Si vous utilisez un “ou” minuscule, Google pourrait l’interpréter comme faisant partie d’une phrase.
14. site:example.com “top * façons”
L’astérisque [*] peut être utilisé comme caractère générique dans les requêtes Google pour remplacer le texte inconnu. Supposons que vous souhaitiez trouver tous les articles “Top X” sur votre blog. Vous pouvez utiliser “site :” pour cibler votre dossier de blog, puis “Top *” pour interroger uniquement ces messages.
site:amazon.com “top * livres”
Conseil de pro : Le joker [*] l’opérateur correspondra à un ou plusieurs mots. Ainsi, “top * questions” peut correspondre à “Top 40 Books” ou “Top Career Management Books”. Essayez l’exemple de requête ci-dessus pour plus d’exemples.
15. site:example.com “top 7..10 façons”
Si vous avez une plage spécifique de nombres à l’esprit, vous pouvez utiliser “X..Y” pour renvoyer n’importe quoi dans la plage de X à Y. Bien que l’exemple ci-dessus soit probablement un peu idiot, vous pouvez utiliser des plages sur n’importe quel type de -données de page, des identifiants de produits aux prix.
site:amazon.com “top 5..10 romans”
16. site:exemple.com ~mot
Le tilde [~] l’opérateur indique à Google de trouver des mots liés au mot en question. Supposons que vous vouliez trouver tous les articles de votre blog liés au concept de conseil – ajoutez simplement “~consulting” à la requête, et vous obtiendrez l’ensemble plus large de termes que Google juge pertinents.
site : amazon.com ~ gestion
17. site:exemple.com ~mot -mot
En utilisant [-] pour exclure le mot spécifique, vous pouvez dire à Google de trouver toutes les pages liées au concept qui ne ciblent pas spécifiquement ce terme. Cela peut être utile lorsque vous essayez d’évaluer votre ciblage par mots clés ou de créer un nouveau contenu basé sur la recherche de mots clés.
site:amazon.com ~gestion -gestion
18. site:example.com intitle: “le texte va ici”
L’opérateur “intitle:” correspond uniquement au texte qui apparaît dans la balise
site:amazon.com intitle:”harry potter”
19. site:example.com intitle: “texte * ici”
Vous pouvez utiliser presque toutes les variantes mentionnées dans (12)-(17) avec “intitle:” – je ne les énumérerai pas toutes, mais n’ayez pas peur d’être créatif. Voici un exemple qui utilise la recherche générique dans #14, mais qui la cible spécifiquement sur les titres de page.
site:amazon.com intitle:”the * games”
Conseil de pro : N’oubliez pas d’utiliser des guillemets autour de la phrase après “intitle :”, sinon Google affichera la requête comme une recherche de titre d’un mot plus un texte simple. Par exemple, “intitle:text va ici” recherchera “texte” dans le titre plus “va” et “ici” n’importe où sur la page.
20. intitle: “le texte va ici”
Celui-ci n’est pas vraiment un combo “site:”, mais il est tellement utile que j’ai dû l’inclure. Vous soupçonnez que d’autres sites pourraient copier votre contenu ? Mettez simplement n’importe quelle phrase unique entre guillemets après “intitle:” et vous pouvez trouver des copies sur l’ensemble du Web. C’est le moyen le plus rapide et le moins cher que j’ai trouvé pour trouver des personnes qui ont volé votre contenu. C’est aussi un bon moyen de vous assurer que les titres de vos articles sont uniques.
intitle:”cinquante nuances de grey”
21. “le texte va ici” -site:example.com
Si vous voulez être un peu plus sophistiqué, vous pouvez utiliser “-site:” et exclure les mentions de copie sur n’importe quel domaine (y compris le vôtre). Cela peut être utilisé avec du texte simple ou avec “intitle:” (comme dans #20). Inclure votre propre site peut être utile, juste pour avoir une idée de l’endroit où se situe votre capacité de classement, mais la soustraction de votre site vous permet de ne voir que les copies.
“amazon kindle” -site:amazon.com
22. site:example.com intext: “le texte va ici”
L’opérateur “intext:” recherche des mots clés dans le corps du document, mais ne recherche pas la balise
site:amazon.com intext:”le meilleur livre de tous les temps”
23. site:example.com “le texte va ici” -intitle:”le texte va ici”
Vous pourriez penser que #22 et #23 sont identiques, mais il y a une différence subtile. Si vous utilisez “intext :”, Google ignorera la balise
site:amazon.com intext:”meilleur livre de tous les temps” -intitle:”meilleur livre de tous les temps”
24. site:exemple.com type de fichier:pdf
L’un des inconvénients de “inurl :” est qu’il correspond à n’importe quelle chaîne de l’URL. Ainsi, par exemple, une recherche sur “inurl:pdf” pourrait renvoyer une page appelée “/guide-to-creating-a-great-pdf”. En utilisant “filetype:”, vous pouvez spécifier que Google recherche uniquement sur l’extension de fichier. Google peut détecter certains types de fichiers (comme les PDF) même sans extension “.pdf”, mais d’autres (comme “html”) semblent nécessiter une extension de fichier dans le document indexé.
site:amazon.com type de fichier:xls
25. site:.edu “le texte va ici”
Enfin, vous pouvez cibler uniquement le domaine de premier niveau (TLD), en omettant le domaine racine. Ceci est plus utile pour la création de liens et la recherche concurrentielle que le référencement sur la page, mais cela vaut vraiment la peine d’être mentionné. L’un des membres de notre communauté, Himanshu, a publié un excellent article sur son propre blog sur l’utilisation d’opérateurs de requête avancés pour la création de liens.
site:.edu “marketing en ligne”
Pourquoi pas Allintitle : & Allinurl : ?
Les référenceurs expérimentés se demandent peut-être pourquoi j’ai omis les opérateurs “allintitle:” et “allinurl:” – la réponse courte est que je les ai trouvés de moins en moins fiables au cours des deux dernières années. Utiliser “intitle:” ou “inurl:” avec vos mots-clés entre guillemets est généralement plus prévisible et tout aussi efficace, à mon avis.
Tout mettre au travail
Je veux vous donner une étude de cas rapide pour montrer que ces combos ne sont pas que des trucs de salon. Une fois, j’ai travaillé avec un site assez important que nous pensions avoir été touché par Panda. C’était un site de commerce électronique qui permettait aux membres de créer leurs propres magasins (pensez à Etsy, mais dans un secteur très différent). J’ai découvert quelque chose de très intéressant simplement en utilisant des combos “site:” (toutes les URL sont fictives, pour protéger le client) :
(1) site :exemple.com = 11M
Tout d’abord, j’ai constaté que le site avait un très grand nombre (11 millions) de pages indexées, notamment par rapport à son autorité globale. J’ai donc rapidement regardé l’architecture du site et trouvé un certain nombre de sous-dossiers. L’un d’eux était le sous-dossier “/stores”, qui contenait tous les magasins créés par les membres :
(2) site :exemple.com/magasins = 8,4 M
Plus de 8 millions de pages dans l’index de Google provenaient uniquement de ces magasins clients, dont beaucoup étaient vides. J’étais clairement sur la bonne voie. Enfin, simplement en parcourant quelques-uns de ces magasins, j’ai remarqué que chaque magasin créé par un membre avait ses propres filtres de recherche internes, qui utilisaient tous le paramètre “?filter” dans l’URL. Du coup, j’ai un peu rétréci :
(3) site : exemple.com/magasins inurl : filtre = 6,7 M
Plus de 60 % des pages indexées de ce site provenaient de filtres de recherche sur le contenu généré par les utilisateurs. Évidemment, ce n’était que le début de mon travail, mais j’ai trouvé un problème critique sur un très grand site en moins de 30 minutes, simplement en utilisant quelques combinaisons d’opérateurs de requête simples. Cela n’a pas pris 8 heures sur le bureau ni des millions de lignes de données Excel. J’ai juste dû faire preuve de logique et poser les bonnes questions.
Quelle est la précision du site : ?
Historiquement, certains référenceurs se sont plaints que les chiffres que vous obtenez de “site :” peuvent varier énormément dans le temps et les centres de données. Allons droit au but : ils ont tout à fait raison. Vous ne devriez pas prendre un seul chiffre que vous récupérez comme une vérité absolue. J’ai fait une expérience récemment pour mettre cela à l’épreuve. Toutes les 10 minutes pendant 24 heures, j’ai automatiquement demandé ce qui suit :
- Site : seomoz.org
- site: seomoz.org/blog
- site:seomoz.org/blog intitle:spam
Même en utilisant une adresse IP fixe (centre de données unique, vraisemblablement), les résultats variaient un peu, en particulier pour les requêtes larges. La plage pour chacun des combos “site :” sur 24 heures (144 mesures) était la suivante :
- 67 700 – 114 000
- 8 590 – 8 620
- 40 – 40
Sur deux ensembles d’adresses IP (blocs C uniques), la plage était encore plus grande (voir les données “/blog”) :
- 67 700 – 114 000
- 4 580 – 8 620
- 40 – 40
Cela signifie-t-il que “site :” est inutile ? Non pas du tout. Vous devez juste être prudent. Parfois, vous n’avez même pas besoin du nombre exact – vous êtes simplement intéressé à trouver des exemples d’URL qui correspondent au modèle en question. Même si vous avez besoin d’un décompte, la clé est de creuser. La plage la plus étroite de l’expérience était parfaitement cohérente sur 24 heures et dans les deux centres de données. Plus vous approfondissez, mieux vous vous portez.
Vous pouvez également utiliser des nombres relatifs. Dans mon exemple ci-dessus, peu importait si le nombre total de pages indexées de 11 millions était exact. Ce qui importait, c’était que j’étais capable d’isoler une grande partie de l’index sur la base d’un élément commun de l’architecture du site. En supposant que la marge d’erreur pour chacune de ces mesures était similaire – je n’étais intéressé que par les pourcentages relatifs à chaque étape. En cas de doute, prenez plus d’une mesure.
Gardez à l’esprit que ce problème n’est pas propre à l’opérateur “site :” : tous les résultats de recherche sur Google sont des estimations, en particulier les plus grands. Matt Cutts en a parlé dans une vidéo récente, ainsi que la façon dont vous pouvez utiliser le nombre de pages 2 pour parfois réduire la marge d’erreur :
Le véritable test d’un référencement
Si vous exécutez suffisamment de combos “site :” assez souvent, même à la main, vous pourriez éventuellement être accueilli par ceci :
Si vous avez réussi à déclencher un CAPTCHA sans utiliser d’automatisation, alors félicitations, mon ami ! Vous êtes un vrai SEO maintenant. Profitez de vos nouveaux outils et essayez de ne blesser personne.