SEO

Résoudre l’équation du sous-domaine : prévoir le trafic et la valeur lors de la fusion de sous-domaines

Sous-domaine ou non sous-domaine, telle est la question. Devez-vous conserver votre contenu sur des sous-domaines distincts ou sur le même domaine ? Si je fusionne mes sous-domaines, vais-je gagner ou perdre du trafic ? Combien?

Depuis mes premiers jours dans le référencement en 2004, le débat sous-dossier contre sous-domaine a fait écho dans presque toutes les discussions sur l’architecture de site auxquelles j’ai participé. Il semble trivial à bien des égards que nous nous concentrions si intensément sur ce qui se résume essentiellement à l’ordre des mots dans une URL, d’autant plus que www. est lui-même un sous-domaine. Cependant, pendant longtemps, il y a eu de bonnes raisons de considérer la question varier avec soin. Aujourd’hui, j’écris sur le problème en général, et je propose une stratégie programmatique pour répondre au débat sous-domaine/sous-dossier.

Pour les besoins de cet article, supposons qu’il existe une société nommée Exemple d’entreprise qui se vend cartes de baseball, maillots de baseball et chapeaux de base-ball. Ils ont deux choix pour mettre en place l’architecture de leur site.

Ils peuvent utiliser des sous-domaines…

  • http://baseball-cards.example.com
  • http://baseball-jerseys.example.com
  • http://baseball-hats.example.com

Ou, ils peuvent utiliser des répertoires…

  • http://www.example.com/baseball-cards
  • http://www.example.com/baseball-jerseys
  • http://www.example.com/baseball-hats

Beaucoup d’entre vous ont probablement traité la question exacte, et pour certains d’entre vous, cette question a surgi des dizaines, voire des centaines de fois. Pour ceux d’entre vous qui connaissent moins le problème, faisons un bref historique des sous-domaines, des sous-dossiers et de leur interaction avec l’algorithme de Google afin que nous puissions avoir une idée du paysage.

Sous-domaines et référenceurs : un rapide récapitulatif historique

Tout d’abord, très rapidement, voici la répartition de votre URL moyenne. Ce qui nous intéresse le plus, c’est de comparer les sous-domaine avec le annuaire pour déterminer ce qui pourrait être le meilleur pour les classements.

parties d'une URL

Cela peut me dater un peu, que ce soit en tant que Noob ou Old-Timer selon le moment où vous êtes entré dans le jeu. J’ai commencé directement après la mise à jour de Floride en 2003. A cette époque, si je me souviens bien, le débat sous-domaine/sous-dossier n’était pas aussi prononcé. La plupart des décisions que nous prenions à l’époque concernant les sous-domaines concernaient davantage des solutions techniques rapides (c’est-à-dire : mettre un sous-domaine sur une autre machine) qu’une optimisation explicite de la recherche.

Cependant, il semblait à cette époque que notre objectif en tant que référenceurs était simplement de trouver un endroit de plus pour pousser un mot-clé. Que nous utilisions des tirets (j’ai acheté un domaine à double tiret à un moment donné) ou des sous-domaines, les algos de Google semblaient, au moins temporairement, valoriser le sous-domaine comme étant riche en mots clés. Les domaines étaient chers, mais les sous-domaines étaient gratuits. De nombreux référenceurs, moi y compris, ont commencé à déployer des sites avec des tonnes de sous-domaines uniques et riches en mots clés.

Google n’était pas aveugle à cette manipulation, cependant, et à partir de 2004 environ, avec une certaine efficacité, Google a pu éliminer un avantage apparent du spam de sous-domaine. Cependant, il semblait encore persister dans une certaine mesure dans les discussions de 2006, 2007, 2008 et 2009. Pendant un certain temps, il semblait y avoir une plume dans le plafond des sous-domaines spécifiquement pour le référencement.

Avance rapide de quelques années et Google introduit une nouvelle fonctionnalité merveilleuse appelée encombrement de l’hôte et résultats en retrait. Beaucoup d’entre vous se souviennent probablement de cette fonctionnalité, mais essentiellement, si vous aviez deux pages du même classement d’hôte dans le top 10, la seconde serait tirée directement sous l’autre et recevrait un retrait pour une organisation utile. Ce fut un coup dur pour les stratégies de sous-domaine. Désormais, le classement des positions 1 et 10 sur le même hôte était essentiellement le même que celui de posséder les deux premières positions, mais sur des hôtes distincts, cela n’avait aucune valeur. Dans ce cas, il serait logique que “Example Business” utilise des sous-dossiers plutôt que des sous-domaines. Si le contenu partageait le même sous-domaine, chaque fois que leur site Web avait 2 listes dans le top 10 pour un mot-clé, la seconde serait bien rangée sous la première, sautant plusieurs positions. S’ils étaient sur des sous-domaines distincts, ils n’obtiendraient pas cet avantage.

Le surpeuplement d'hôtes rendu avantageux par la consolidation en un seul domaine

Google n’a pas été fait, cependant. Ils ont depuis enlevé nos belles listes en retrait et l’encombrement délibéré des hôtes et, en même temps, nous ont donné Panda. Les premiers avis sur Panda ont indiqué que la ségrégation des sous-domaines et des sous-domaines thématiques pourrait apporter des résultats positifs car Panda était appliqué au niveau du nom d’hôte. Désormais, il peut être judicieux pour “Example Business” d’utiliser des sous-domaines, en particulier si vous segmentez le contenu généré par les utilisateurs de faible qualité.

Compte tenu de ces changements, on comprend pourquoi le débat sur les sous-domaines a fait rage. Alors que beaucoup ont tenté de discréditer complètement le débat, il existe des raisons légitimes et algorithmiques de choisir un sous-domaine ou un sous-dossier.

Résolution de l’équation du sous-domaine

L’une des beautés du SEO contemporain est d’avoir accès à des données bien meilleures que jamais. Bien que je déplore la perte de données de mots-clés dans Google Analytics, il y a tellement d’autres données disponibles à portée de main que jamais auparavant. Nous avons maintenant la capacité de transformer l’intuition des SEO intelligents en mathématiques dures et froides.

Lorsque Virante, la société dont je suis CTO, a été approchée il y a quelques mois par un grand site web pour aider à répondre à cette question, nous avons sauté sur l’occasion. J’avais maintenant la capacité de transformer mes hypothèses et mes confiances en variables et variances et de construire une meilleure solution. Le client avait choisi d’aller avec la méthode du sous-domaine pendant de nombreuses années. Ils avaient entendu des concepts comme “Domain Authority” et se demandaient si leurs sous-domaines s’étendaient trop. Devraient-ils fusionner leurs sous-domaines ? Tous, ou juste quelques-uns ?

Choisir un modèle mathématique pour l’analyse

OK, maintenant pour les trucs amusants. Il y a beaucoup de choses que nous, en tant que référenceurs, ne savons pas, mais dont nous avons une assez bonne idée. Nous pourrions appeler ces hypothèses, nos instincts, notre expérience, nos intuitions mais, en mathématiques, nous pouvons nous y référer comme des variables. Pour chacune de ces hypothèses, nous avons également des niveaux de confiance. Nous pouvons être très confiants sur une de nos hypothèses (comme les backlinks améliorent les classements) et moins confiants sur une autre (un contenu plus long améliore les classements). Donc, nous avons nos variables et nous avons à quel point nous sommes confiants à leur sujet. Lorsque nous ne connaissons pas les valeurs réelles de ces variables (en science, nous les appellerions des variables indépendantes), Simulations de Monte-Carlo s’avèrent souvent être l’un des modèles mathématiques les plus efficaces que nous puissions utiliser.

Définition: Les méthodes de Monte Carlo (ou expériences de Monte Carlo) sont une large classe d’algorithmes de calcul qui reposent sur un échantillonnage aléatoire répété pour obtenir des résultats numériques ; c’est-à-dire en exécutant plusieurs fois des simulations afin de calculer ces mêmes probabilités de manière heuristique, tout comme en jouant et en enregistrant vos résultats dans une situation de casino réelle : d’où le nom. – Wikipédia

Avec les simulations de Monte Carlo, nous forçons essentiellement la force brute pour trouver une réponse. Nous proposons toutes les possibilités, les déposons dans un sac et en choisissons une dans le sac encore et encore jusqu’à ce que nous ayons un résultat moyen. Ou pensez-y de cette façon. Disons que je vous ai remis un sac avec 10 000 billes et que je vous ai demandé quelle couleur de marbre dans le sac est la plus courante. Vous pouvez tous les verser et essayer de les compter, ou vous pouvez secouer le sac et ensuite choisir 1 bille à la fois. Finalement, vous auriez un bon échantillon de billes et vous pourriez estimer cette réponse sans avoir à toutes les compter.

Nous pouvons faire la même chose ici. Au lieu de demander de quelle couleur est une bille, on demande “Si je fusionne une URL avec une autre, quelle est la probabilité qu’elle reçoive plus de trafic de Google ?”. Nous n’avons ensuite qu’à charger toutes les variables qui entrent dans la réponse à cette question dans notre sac proverbial (une base de données) et à sélectionner au hasard encore et encore pour obtenir une estimation.

Voici donc les détails, j’espère que vous pourrez suivre et le faire vous-même.

Étape 1 : Déterminer le paysage des mots clés

Ce que nous devons savoir, c’est chaque mot-clé possible pour lequel le client pourrait se classer, le volume de trafic potentiel disponible pour ce mot-clé et la valeur de ce mot-clé en termes de CPC. La valeur CPC nous permet de déterminer la vraie valeur du trafic, pas seulement le volume. Nous voulons améliorer le classement des mots-clés de valeur plutôt que des mots-clés aléatoires. Ce client en particulier se trouve dans un secteur très concurrentiel qui repose sur un grand nombre de mots-clés de moyenne/longue traîne. Nous avons construit une liste de plus de 46 000 mots-clés liés à leur industrie en utilisant GrepWords (vous pouvez utiliser SEMRush pour faire de même).

Étape 2 : Déterminer le paysage de la recherche

Nous devons maintenant savoir où ils se classent réellement pour ces mots-clés et nous devons connaître tous les sous-domaines potentiels que nous pourrions avoir besoin de tester. Nous avons mis en file d’attente les 46 000 mots-clés avec l’API AuthorityLabs et en 24 heures, nous avons obtenu les 100 meilleurs résultats de Google pour chacun. Nous avons ensuite analysé les données et extrait la position et le rang de chaque sous-domaine du site. Il y avait environ 25 sous-domaines que nous avons découverts, mais nous avons finalement choisi de n’analyser que les 9 qui constituaient la majorité du trafic sans marque.

Étape 3 : déterminer le chevauchement des liens

Enfin, nous devons connaître les liens pointant vers ces sous-domaines. S’ils ont tous des liens provenant des mêmes sites, nous pourrions ne tirer aucun avantage de la fusion des sous-domaines. À l’aide de l’appel Mozscape API Link Metrics, nous avons extrait les domaines de liaison racine pour chaque site. Lorsque nous effectuons notre simulation Monte Carlo, nous pouvons déterminer comment leurs profils de liens se chevauchent et prendre des décisions en fonction de cet impact.

Étape 4 : Créer nos hypothèses

Comme nous l’avons mentionné, il y a beaucoup de choses que nous ne savons pas, mais dont nous avons une bonne idée. Ici, nous pouvons ajouter nos hypothèses en tant que variables. Vous verrez des variables exprimées par X et Y dans ces hypothèses. C’est là que votre expertise en tant que SEO entre en jeu.


Question 1: Si deux sous-domaines se classent pour le même mot-clé dans le top 10, qu’advient-il du mot-clé le mieux classé ?
Hypothèse 1 : X % du temps, le deuxième classement sera perdu car Google valorise la diversité des domaines.
Exemple: Il s’avère que http://baseball-jerseys.example.com et http://baseball-hats.example.com se classent tous les deux dans le top 10 pour le mot-clé “Baseball Hats and Jerseys”. Nous supposons que 30 % du temps, le plus bas des deux classements sera perdu car Google valorise la diversité des domaines.

Question 2: Si deux sous-domaines se classent pour le même mot-clé dans le top 10, qu’advient-il du sous-domaine le mieux classé ?
Hypothèse 2 : En fonction des X % de chevauchement de liens, il y a Y % de chances d’améliorer 1 position.
Exemple: Il s’avère que http://baseball-jerseys.example.com et http://baseball-hats.example.com se classent tous les deux dans le top 10 pour le mot-clé “Baseball Hats and Jerseys”. Nous supposons que 70 % du temps, sur la base de X % de chevauchement de liens, la page la mieux classée montera d’une position.

Question 3: Si deux sous-domaines fusionnent, qu’advient-il de tous les classements des sous-domaines les mieux classés, même en l’absence de classements doubles ?
Hypothèse 3 : En fonction de X % de chevauchement de liens, il y a Y % de chances d’améliorer 1 position.
Exemple: Sur les mots clés où http://baseball-jerseys.example.com et http://baseball-jerseys.example.com n’ont pas de classements de mots clés qui se chevauchent, nous que 20 % du temps, sur la base de X % de chevauchement de liens, leurs mots-clés amélioreront 1 position.

Ce ne sont là que quelques-unes des questions que vous voudrez peut-être inclure dans votre méthode de modélisation. Il peut y avoir d’autres facteurs que vous souhaitez prendre en compte, et vous le pouvez certainement. Le modèle peut être assez flexible.

Étape 5 : Essayez de ne pas mettre le feu à l’ordinateur

Alors maintenant que nous avons nos variables, l’idée est de sortir la bille proverbiale du sac. Nous allons créer un scénario aléatoire en utilisant nos hypothèses, sous-domaines et mots-clés et déterminer quel est le résultat de ce scénario aléatoire unique. Nous répéterons ensuite cela des centaines de milliers de fois pour obtenir le résultat moyen pour chaque groupe de sous-domaines.

Nous devons essentiellement faire ce qui suit…

  1. Sélectionnez un ensemble aléatoire de sous-domaines.

    Par exemple, il peut s’agir des sous-domaines 1, 2 et 4. Il peut également s’agir de tous les sous-domaines.

  2. Déterminer le chevauchement des liens entre les sous-domaines
  3. Parcourez chaque mot-clé classant les sous-domaines que nous avons déterminés lors de la création du mot-clé et du paysage de recherche à l’étape 2. Ensuite, pour chaque classement…
    1. Sélectionnez au hasard notre réponse à #1 (c’est-à-dire : est-ce la 3 fois sur 10 que nous perdrons des classements ?)
    2. Sélectionnez au hasard notre réponse à #2 (c’est-à-dire : est-ce la 7 fois sur 10 que nous augmenterons le classement ?)
    3. Sélectionnez au hasard notre réponse à #3 (c’est-à-dire : est-ce la 2 fois sur 10 que nous augmenterons le classement ?)
  4. Découvrez quelle sera notre nouvelle valeur de trafic et de recherche.

    Une fois que vous appliquez ces variables ci-dessus, vous pouvez deviner quel sera le nouveau classement. Utilisez le volume de recherche, le CPC et le CTR estimé par classement pour déterminer ce que seront le nouveau trafic et la valeur du trafic.

  5. Ajoutez-le
    Additionnez le volume de recherche estimé et la valeur de recherche estimée pour chacun des mots-clés.
  6. Stockez ce résultat
  7. Répétez des centaines de milliers de fois.
    Dans notre cas, nous avons fini par répéter environ 800 000 fois pour nous assurer que nous avions un écart serré autour des combinaisons individuelles.

Étape 6 : Analysez les résultats

OK, alors maintenant vous avez 800 000 résultats, alors qu’est-ce qu’on fait ? La première chose que nous faisons segmente ces résultats par leur combinaison de sous-domaines. Dans ce cas, nous avions un peu plus de 500 combinaisons de sous-domaines différentes. Deuxièmement, nous établissons un trafic moyen et une valeur de trafic pour chacune de ces combinaisons de sous-domaines à partir de ces 800 000 résultats. Nous pouvons ensuite représenter graphiquement tous ces résultats pour voir quelle combinaison de sous-domaines avait, en moyenne, le trafic et la valeur prédits les plus élevés.

Pour être honnête, les graphiques sont un moyen terrible de trouver la réponse, mais c’est le meilleur outil dont nous disposons pour le transmettre dans un article de blog. Vous pouvez voir exactement pourquoi ci-dessous. Avec plus de 500 combinaisons potentielles différentes de sous-domaines, il est difficile de les visualiser toutes en même temps. Dans le graphique ci-dessous, vous les voyez tous, chaque barre représentant le score moyen d’une combinaison de sous-domaine individuelle. Pour tous les graphiques suivants, j’ai pris un échantillon aléatoire de seulement 50 des combinaisons de sous-domaines afin qu’il soit plus facile à visualiser.

Grand graphique

Comme mentionné précédemment, l’une des choses que nous essayons de prédire n’est pas seulement le volume du trafic, mais aussi la valeur de ce trafic en le multipliant par la valeur CPC de chaque mot-clé pour lequel ils se classent. Ceci est important si vous vous souciez plus des termes commerciaux de valeur que de n’importe quel mot-clé pour lequel ils pourraient se classer.

Comme l’indique le graphique ci-dessus, certaines combinaisons de sous-domaines ont plus influencé le trafic que la valeur, et vice-versa. Avec cette simulation, nous avons pu trouver une combinaison de sous-domaines qui maximisait la valeur ou l’équation de trafic. Une entreprise qui gagne de l’argent grâce à la publicité display pourrait préférer regarder le trafic, tandis qu’une entreprise qui gagne de l’argent grâce à la vente de biens accorderait probablement plus d’attention au nombre de valeur du trafic.

La simulation de Monte Carlo a révélé quelques tendances intéressantes. Parmi les sous-domaines testés, 3 en particulier avaient tendance à avoir un effet de classement négatif sur presque toutes les combinaisons. Chaque fois qu’un bon sous-domaine était fusionné, ces 3 se mélangeaient avec des combinaisons pour réduire légèrement le volume de trafic et les valeurs de trafic. Il s’est avéré que ces 3 sous-domaines avaient très peu de backlinks et uniquement des classements de mots-clés de marque. Par la suite, il y a eu d’énormes chevauchements de mots clés et presque aucun avantage de lien net lors de la fusion. Nous avons pu facilement les exclure du plan de fusion des sous-domaines. Nous n’aurions jamais deviné cela, ou vu cette tendance, sans ce type de modélisation mathématique.

Enfin, nous avons pu examiner de près les combinaisons de fusion de sous-domaines qui offraient plus de valeur de recherche et moins de trafic de recherche, ou vice-versa. En fin de compte, cependant, 3 options se disputaient la première place. Ils étaient statistiquement indiscernables les uns des autres en termes de trafic potentiel et de valeur de trafic. Cela signifiait que le client n’était pas lié à une seule solution potentielle, il pouvait peser d’autres facteurs comme la difficulté de fusionner certains sous-domaines et les préoccupations politiques internes.

Incertitude de modélisation

En tant que référenceurs, il y en a une tonne que nous ne connaissons pas. Au fil du temps, nous construisons une énorme quantité d’hypothèses et, avec ces hypothèses, des niveaux de confiance pour chacune. Je suis très confiant qu’une redirection 301 transmettra les classements, mais pas à 100%. Je suis assez confiant que l’utilisation de mots clés dans le titre améliore le classement, mais pas à 100 %. La beauté de l’approche de Monte Carlo est qu’elle nous permet de tracer nos incertitudes.

Les graphiques que vous avez vus ci-dessus étaient les moyennes (moyennes) pour chacune des combinaisons de sous-domaines. Il y avait en fait des centaines de résultats différents générés pour chacune de ces combinaisons de sous-domaines. Si nous devions tracer ces différents résultats, ils pourraient ressembler à ce que vous voyez dans l’image ci-dessus. Si j’avais juste pris une décision instinctive et modélisé ce que je pensais, sans donner de fourchette, j’aurais trouvé un seul point de données. Au lieu de cela, j’ai estimé mes incertitudes, je les ai transformées en une plage de valeurs et j’ai laissé les calculs me dire comment ces incertitudes se dérouleraient. Nous mettons ce que nous ne savons pas dans le graphique, pas seulement ce que nous savons. En représentant graphiquement toutes les possibilités, je peux présenter une réponse plus précise, bien que moins spécifique, à mon client. Peut-être une meilleure façon de le dire est la suivante : lorsque nous suivons simplement notre instinct, nous choisissons 1 bille du sac et espérons que c’est la bonne.

Plats à emporter

  1. Si vous êtes une agence ou un consultant, il est temps d’intensifier votre jeu. Votre instinct est peut-être meilleur que celui de n’importe qui d’autre, mais il existe de meilleures façons d’utiliser vos connaissances pour obtenir une réponse que de simplement y réfléchir.
  2. Ne présumez pas que quoi que ce soit dans notre industrie est inconnaissable. L’incertitude qui existe est en grande partie due au fait que nous, en tant qu’industrie, n’avons pas encore choisi d’adopter les outils qui sont clairement à notre disposition dans d’autres sciences qui peuvent prendre en compte ces incertitudes. Arrêtez d’avoir l’air confus et prenez un scientifique ou un statisticien à bord.
  3. Dans la mesure du possible, consultez les données. En tant que propriétaire de petite entreprise ou commerçant, exigez que votre fournisseur vous donne des raisons valables et vérifiables pour apporter des modifications.
  4. En cas de doute, répéter. Testez toujours et répétez toujours vos tests. Prendre des décisions confiantes et axées sur la recherche vous donnera un avantage sur vos concurrents qu’ils ne peuvent espérer défaire.

Suivre

C’est une période passionnante pour les spécialistes du marketing de recherche. Notre industrie mûrit rapidement à la fois dans son accès aux données et dans son utilisation de techniques améliorées. Si vous avez d’autres questions à ce sujet, n’hésitez pas à les poser dans les commentaires ci-dessous ou à me contacter sur Twitter (@rjonesx). J’aimerais discuter d’autres idées d’améliorations que vous pourriez avoir !



(Article traduit de moz.com)

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Index