La prochaine génération de signaux de classement

Simon

il y a 4 ans

Tous les 3-4 ans, il y a un grand changement ou un ajout aux mesures clés que Google (et, dans une moindre mesure, MSN/Bing et Yahoo!) utilise pour commander des résultats de recherche compétitifs.

1996-1999 : Utilisation des mots-clés sur la page + métadonnées

1999 – 2002 : PageRank + sur la page

2002 – 2005 : Texte d’ancrage + Nom de domaine + PageRank + On-Page

2005 – 2009 : Autorité de domaine + Diversité des domaines de liaison + Modélisation des sujets + Texte d’ancrage + Nom de domaine + PageRank + On-Page

En 2010 et 2011, nous avons déjà vu l’entrée des signaux sociaux de Facebook et Twitter. Les récentes histoires de flux de clics ont révélé que Google et Bing utilisent des données de flux de clics (Bing l’a fait publiquement au cours des 3 dernières années, Google plus discrètement et probablement plus longtemps), bien qu’il s’agisse probablement d’un point de données relativement petit pour les deux.

Je suis convaincu que la prochaine génération de signaux de classement s’appuiera sur trois (relativement) nouveaux groupes de mesures.

Contenu de la page

#1 : Signaux de marque

L’une des raisons pour lesquelles Google a mis tant de temps à pénaliser JCPenney (c’était le premier spam qui m’a été signalé fin 2009) est que leurs évaluateurs humains et les données des utilisateurs suggéraient probablement qu’il s’agissait en fait d’un assez bon résultat pour des recherches comme “robes” et “literie”. ” Le nom de la marque signifiait que les gens se sentaient bien à propos de la liste et Google, jusqu’à la mauvaise presse, ne ressentait pas le besoin de prendre des mesures punitives, si la méthodologie était manipulatrice (je suis presque sûr qu’ils étaient au courant de la manipulation depuis longtemps, mais voulait le résoudre de manière algorithmique).

Pour des millions de recherches de vente au détail axées sur les transactions, les résultats de Google sont, pour être honnête, facilement et souvent manipulés. Nous pourrions trouver des centaines d’exemples en quelques heures seulement, mais celui ci-dessous remplit plutôt bien l’objectif.

Je viens d’acheter de nouveaux pumas jaunes (ceux-ci), mais la meilleure page possible que Google pourrait renvoyer (probablement celle-ci) est introuvable, et la plupart des deux premières pages de résultats ne sont pas assez spécifiques – un bon nombre don Je n’offre même pas de pumas jaunes que j’ai pu trouver !

Google veut résoudre ce problème, et un très bon moyen consiste à séparer les “marques” qui produisent des chercheurs et des clients satisfaits des “génériques” – des sites qu’ils ont souvent classés comme “affiliés légers” ou “expériences utilisateur médiocres”. En tant que webmasters et partisans des petites entreprises sur le Web, nous pourrions nous plaindre, mais en tant que chercheurs, même nous pouvons convenir que Puma, Amazon et Zappos seraient de très bons résultats pour une requête comme celle ci-dessus.

Alors, quels types de signaux Google pourrait-il utiliser pour déterminer si un site est une “marque” ou non ?

Ce ne sont là que quelques exemples de types et de sources de données – Google/Bing peut examiner des dizaines, voire des centaines d’entrées (y compris l’application de l’apprentissage automatique à des sous-ensembles sélectionnés de sites de marque par rapport à des sites sans marque pour identifier les correspondances de modèles qui pourraient ne pas être immédiatement apparentes aux créateurs d’algorithmes humains).

Comme vous pouvez l’imaginer, de nombreux sites manipulateurs pourraient copier un certain nombre de ces signaux, mais les moteurs peuvent probablement avoir un impact significatif sur la qualité. La mise à jour Vince de 2009 est souvent désignée comme un premier effort dans ce sens par Google.

#2 : Associations d’entités

Les moteurs de recherche se sont traditionnellement appuyés sur un algorithme relativement universel – un algorithme qui évalue les pages en fonction des métriques disponibles, sans fluctuations massives entre les secteurs verticaux. Au cours des dernières années, cependant, les chercheurs avertis et de nombreux référenceurs ont noté un changement distinct vers un modèle où certains types de sites ont une plus grande opportunité de répondre à certaines requêtes. Les chances ne sont pas nécessairement contre les étrangers, mais les moteurs semblent privilégier les types de fournisseurs de contenu susceptibles de répondre à l’intention des utilisateurs.

Par exemple, lorsqu’un utilisateur effectue une recherche sur “jarrets d’agneau”, il peut être judicieux de donner un coup de pouce supplémentaire aux sites dont le contenu est axé sur les recettes et la nourriture.

Cette même logique pourrait s’appliquer à “The King’s Speech” où le moteur pourrait privilégier les sites axés sur les films comme RottenTomatoes, IMDB, Flixster ou Metacritic.

Bill Slawski a brillamment écrit sur les entités dans le passé :

Plutôt que de simplement rechercher des marques, il est plus probable que Google essaie de comprendre quand une requête inclut une entité – une personne, un lieu ou une chose spécifique, et si elle peut identifier une entité, cette identification peut influencer les résultats de recherche que vous voyez …

… J’ai déjà écrit sur le sujet, lorsque Google a obtenu un brevet nommé Query rewriting with entity detection en mai 2009, que j’ai couvert dans Boosting Brands, Businesses, and Other Entities : How a Search Engine Might Assume a La requête implique une recherche sur le site.

La récente acquisition de Metaweb par Google est remarquable pour un certain nombre de raisons. L’un d’eux est que Metaweb a développé une approche de catalogage de différents noms pour la même entité, de sorte que, par exemple, lorsque Google voit des noms sur le Web tels que Terminator ou Governator ou Conan le barbare ou Kindergarten Cop, il peut facilement associer ces mentions avec Arnold Schwarzenegger.

Les associations d’entités peuvent être utilisées pour aider à renforcer les signaux de marque, classer les types de requêtes (et les types de résultats) et probablement aider à déclencher des résultats verticaux/universels comme les lieux/cartes, les images, les vidéos, etc.

#3 : Évaluateurs de la qualité humaine et comportement des utilisateurs (de confiance)

En novembre dernier, j’ai écrit un article sur mon blog personnel intitulé “L’algorithme + la foule ne suffisent pas”

Au cours de la dernière décennie, le monde en ligne a été gouverné par deux forces jumelles : la foule et l’algorithme. Les « utilisateurs » collectifs d’Internet (The Crowd) créent, cliquent et évaluent, tandis que les équations mathématiques ajoutent de l’évolutivité et de la possibilité de trouver ces quantités écrasantes de données (The Algorithm). Comme la lune au-dessus de l’océan, l’attraction de ces deux forces contribue à créer des marées de popularité (et d’obscurité) sur Internet. L’information est plus accessible, utile et égalitaire que jamais.

Mais ces derniers temps, du moins pour moi, les faiblesses de ce système crowdsourcé + algorithmique se manifestent, et la prochaine révolution semble inévitable.

Étant donné que Google vient de lancer une extension Web Chrome pour permettre aux utilisateurs de bloquer les sites de leur choix dans les SERP et les nombreuses tentatives d’exploiter les données des utilisateurs dans les résultats de recherche (rappelez-vous SideWiki, SearchWiki, Starred Results), il y a fort à parier que le pur – le biais de l’algorithme s’infiltre lentement. Bing utilise un panel d’examinateurs de la qualité de la recherche, tout comme Google (bien que ce dernier continue d’être très secret à ce sujet).

Les deux examinent les données de flux de clics (une forme d’informations basées sur l’utilisateur). Voici un ancien ingénieur de la qualité de la recherche Google notant que Google a utilisé la même forme d’analyse de flux de clics via sa barre d’outils qu’ils ont reproché à Bing d’avoir appliqué.

Tout cela suggère fortement que davantage d’informations sur les utilisateurs et l’utilisation seront collectées et utilisées pour aider à classer les résultats. Il est beaucoup plus difficile d’y accéder que de lier des données et, particulièrement difficile de jouer sans apparaître “non naturel” par rapport aux modèles de trafic Web normaux. J’ai déjà expliqué que je n’aime pas les signaux directs des clics sur les résultats de recherche, mais de nombreux points de données auxiliaires pourraient être collectés et utilisés, y compris des informations sur les endroits où les utilisateurs ont de “bonnes” expériences utilisateur sur le Web.

J’attends avec impatience vos réflexions sur la prochaine génération de signaux de classement et sur ce que Google/Bing pourrait faire ensuite pour surmonter des problèmes tels que JCPenneyGate, la perception du spam parmi les technophiles et les fermes de contenu. Il semble difficile d’imaginer que l’un ou l’autre reposera simplement sur un système dont ils savent qu’il peut être joué.

ps J’ajouterais également que les résultats verticaux/universels et davantage de “réponses instantanées” continueront d’augmenter en importance/visibilité dans les SERP pour les deux moteurs (bien que ce ne soient pas vraiment des “signaux de classement” classiques)

pps Si vous êtes PRO et que vous êtes intéressé par les signaux de marque en particulier (et par certaines tactiques de création de marque suggérées), n’hésitez pas à rejoignez notre webinaire ce vendredi.

(Article traduit de moz.com)