Moteurs de rechercheSEO

La révolution de l’apprentissage automatique : comment cela fonctionne et son impact sur le référencement

L’apprentissage automatique est déjà très important. C’est ici, et il est utilisé dans bien plus d’entreprises que vous ne le pensez. Il y a quelques mois, j’ai décidé d’approfondir ce sujet pour en savoir plus. Dans l’article d’aujourd’hui, je vais plonger dans un certain nombre de détails techniques sur son fonctionnement, mais je prévois également de discuter de son impact pratique sur le référencement et le marketing numérique.

Pour référence, consultez la présentation de Rand Fishkin sur la façon dont nous sommes entrés dans un monde à deux algorithmes. Rand aborde en détail l’impact de l’apprentissage automatique sur la recherche et le référencement dans cette présentation, et son influence sur le référencement. J’en reparlerai plus tard.

Pour le plaisir, j’inclurai également un outil qui vous permet de prédire vos chances d’obtenir un retweet en fonction d’un certain nombre de choses : votre autorité sociale Followerwonk, si vous incluez des images, des hashtags et plusieurs autres facteurs similaires. J’appelle cet outil le Twitter Engagement Predictor (TEP). Pour construire le TEP, j’ai créé et entraîné un réseau de neurones. L’outil acceptera vos commentaires, puis utilisera le réseau de neurones pour prédire vos chances d’obtenir un RT.

Le TEP exploite les données d’une étude que j’ai publiée en décembre 2014 sur l’engagement Twitter, où nous avons examiné les informations de 1,9 million de tweets originaux (par opposition aux RT et aux favoris) pour voir quels facteurs ont le plus amélioré les chances d’obtenir un retweet.

Mon parcours d’apprentissage automatique

J’ai eu mon premier aperçu significatif de l’apprentissage automatique en 2011 lorsque j’ai interviewé Peter Norvig de Google, et il m’a expliqué comment Google l’avait utilisé pour enseigner Google Traduction.

Fondamentalement, ils ont examiné toutes les traductions linguistiques qu’ils pouvaient trouver sur le Web et en ont tiré des leçons. Il s’agit d’un exemple très intense et compliqué d’apprentissage automatique, et Google l’avait déployé en 2011. Qu’il suffise de dire que tous les principaux acteurs du marché, tels que Google, Apple, Microsoft et Facebook, tirent déjà parti de l’apprentissage automatique de nombreuses manières intéressantes. .

En novembre, lorsque j’ai décidé que je voulais en savoir plus sur le sujet, j’ai commencé à faire diverses recherches d’articles à lire en ligne. Il ne fallut pas longtemps avant que je tombe sur cet excellent cours sur l’apprentissage automatique sur Coursera. Il est enseigné par Andrew Ng de l’Université de Stanford et offre un aperçu impressionnant et approfondi des bases de l’apprentissage automatique.

Avertissement: Ce cours est long (19 sections au total avec une moyenne de plus d’une heure de vidéo chacune). Cela nécessite également une compréhension du calcul pour passer à travers les mathématiques. Dans le cours, vous serez immergé dans les mathématiques du début à la fin. Mais le fait est le suivant : si vous avez des connaissances en mathématiques et de la détermination, vous pouvez suivre un cours en ligne gratuit pour commencer avec ce genre de choses.

De plus, Ng vous guide à travers de nombreux exemples de programmation en utilisant un langage appelé Octave. Vous pouvez ensuite utiliser ce que vous avez appris et créer vos propres programmes d’apprentissage automatique. C’est exactement ce que j’ai fait dans l’exemple de programme inclus ci-dessous.

Concepts de base de l’apprentissage automatique

Tout d’abord, permettez-moi d’être clair : ce processus n’a pas fait de moi un expert de premier plan sur ce sujet. Cependant, j’en ai suffisamment appris pour vous fournir une introduction utile à certains concepts clés. Vous pouvez diviser l’apprentissage automatique en deux classes : supervisé et non supervisé. Tout d’abord, je vais jeter un œil à l’apprentissage automatique supervisé.

Apprentissage automatique supervisé

À son niveau le plus élémentaire, vous pouvez considérer l’apprentissage automatique supervisé comme la création d’une série d’équations pour s’adapter à un ensemble connu de données. Disons que vous voulez un algorithme pour prédire les prix des logements (un exemple que Ng utilise fréquemment dans les classes Coursera). Vous pourriez obtenir des données qui ressemblent à ceci (notez que les données sont totalement inventées) :

Dans cet exemple, nous avons des données historiques (fictives) qui indiquent le prix d’une maison en fonction de sa taille. Comme vous pouvez le constater, le prix a tendance à augmenter à mesure que la taille de la maison augmente, mais les données ne correspondent pas à une ligne droite. Cependant, vous pouvez calculer une ligne droite qui correspond assez bien aux données, et cette ligne pourrait ressembler à ceci :

Cette ligne peut ensuite être utilisée pour prédire le prix des maisons neuves. Nous traitons la taille de la maison comme “l’entrée” de l’algorithme et le prix prédit comme la “sortie”. Par exemple, si vous avez une maison de 2600 pieds carrés, le prix semble être d’environ xxxK $ ?????? dollars.

Cependant, ce modèle s’avère un peu simpliste. D’autres facteurs peuvent jouer sur les prix des logements, tels que le nombre total de pièces, le nombre de chambres à coucher, le nombre de salles de bains et la taille du terrain. Sur cette base, vous pourriez créer un modèle légèrement plus compliqué, avec un tableau de données similaire à celui-ci :

Vous pouvez déjà voir qu’une simple ligne droite ne suffira pas, car vous devrez attribuer des pondérations à chaque facteur pour arriver à une prévision du prix du logement. Les facteurs les plus importants sont peut-être la taille de la maison et la taille du terrain, mais les pièces, les chambres et les salles de bains méritent également un certain poids (tous ces éléments seraient considérés comme de nouveaux « intrants »).

Même maintenant, nous sommes encore assez simplistes. Un autre facteur important dans les prix des logements est l’emplacement. Les prix à Seattle, WA sont différents de ceux de Galveston, TX. Une fois que vous essayez de construire cet algorithme à l’échelle nationale, en utilisant la localisation comme entrée supplémentaire, vous pouvez voir que cela commence à devenir un problème très complexe.

Vous pouvez utiliser des techniques d’apprentissage automatique pour résoudre l’un de ces trois types de problèmes. Dans chacun de ces exemples, vous assemblez un grand ensemble de données d’exemples, qui peuvent être appelés exemples d’apprentissage, et exécutez un ensemble de programmes pour concevoir un algorithme adapté aux données. Cela vous permet de soumettre de nouvelles entrées et d’utiliser l’algorithme pour prédire la sortie (le prix, dans ce cas). L’utilisation d’exemples de formation comme celui-ci est ce que l’on appelle “l’apprentissage automatique supervisé”.

Problèmes de classification

Il s’agit d’une classe spéciale de problèmes dont le but est de prédire des résultats spécifiques. Par exemple, imaginons que nous voulions prédire les chances qu’un nouveau-né atteigne au moins 6 pieds de haut. Vous pouvez imaginer que les entrées pourraient être les suivantes :

La sortie de cet algorithme peut être 0 si la personne mesure moins de 6 pieds ou 1 si elle mesure 6 pieds ou plus. Ce qui en fait un problème de classification, c’est que vous placez les éléments d’entrée dans une classe spécifique ou une autre. Pour le problème de prédiction de la hauteur tel que je l’ai décrit, nous n’essayons pas de deviner la hauteur précise, mais une simple prédiction supérieure/inférieure à 6 pieds.

Quelques exemples de problèmes de classification plus complexes sont la reconnaissance de l’écriture manuscrite (reconnaissance des caractères) et l’identification des spams.

Apprentissage automatique non supervisé

L’apprentissage automatique non supervisé est utilisé dans des situations où vous n’avez pas d’exemples de formation. Fondamentalement, vous voulez essayer de déterminer comment reconnaître des groupes d’objets avec des propriétés similaires. Par exemple, vous pouvez avoir des données qui ressemblent à ceci :

L’algorithme tentera alors d’analyser ces données et trouvera comment les regrouper en fonction de caractéristiques communes. Peut-être que dans cet exemple, tous les points “x” rouges du graphique suivant partagent des attributs similaires :

Cependant, l’algorithme peut avoir du mal à reconnaître les points aberrants et peut regrouper les données plus comme ceci :

Ce que l’algorithme a fait, c’est trouver des regroupements naturels dans les données, mais contrairement à l’apprentissage supervisé, il a dû déterminer les caractéristiques qui définissent chaque groupe. Un exemple industriel d’apprentissage non supervisé est Google Actualités. Par exemple, regardez la capture d’écran suivante :

Vous pouvez voir que le principal reportage concerne l’Iran détenant 10 marins américains, mais il y a aussi des reportages connexes diffusés par Reuters et Bloomberg (entourés en rouge). Le regroupement de ces histoires liées est un problème d’apprentissage automatique non supervisé, où l’algorithme apprend à regrouper ces éléments.

Autres exemples industriels d’apprentissage automatique appliqué

Un excellent exemple d’algorithme d’apprentissage automatique est l’algorithme d’extraction d’auteur que Moz a intégré à son outil de contenu Moz. Vous pouvez en savoir plus sur cet algorithme ici. L’article référencé décrit en détail les défis uniques auxquels Moz a été confronté pour résoudre ce problème, ainsi que la manière dont ils ont procédé pour le résoudre.

Quant au prédicteur d’engagement Twitter de Stone Temple Consulting, il est construit sur un réseau de neurones. Un exemple d’écran pour ce programme peut être vu ici :

Le programme fait une prédiction binaire pour savoir si vous obtiendrez un retweet ou non, puis vous fournit un pourcentage de probabilité que cette prédiction soit vraie.

Pour ceux qui s’intéressent aux détails sanglants, la configuration du réseau neuronal que j’ai utilisée était de six unités d’entrée, quinze unités cachées et deux unités de sortie. L’algorithme a utilisé un million d’exemples de formation et deux cents itérations de formation. Le processus de formation a nécessité un peu moins de 45 milliards de calculs.

Une chose qui a rendu cet exercice intéressant est qu’il existe de nombreux points de données contradictoires dans les données brutes. Voici un exemple de ce que je veux dire :

Ce que cela montre, ce sont les données pour les personnes avec Followerwonk Social Authority entre 0 et 9, et un tweet sans images, sans URL, sans @mentions d’autres utilisateurs, deux hashtags et entre zéro et 40 caractères. Nous avons eu 1156 exemples de tels tweets qui n’ont pas été retweetés, et 17 qui l’ont été.

Le résultat le plus souhaitable pour l’algorithme résultant est de prédire que ces tweets ne seront pas retweetés, ce qui le rendrait faux 1,4% du temps (17 fois sur 1173). Notez que le réseau de neurones résultant évalue la probabilité d’obtenir un retweet à 2,1 %.

J’ai fait un calcul pour calculer combien de ces cas existaient. J’ai trouvé que nous avions 102 045 exemples d’entraînement individuels où il était souhaitable de faire une mauvaise prédiction, ou pour un peu plus de 10 % de toutes nos données d’entraînement. Cela signifie que le mieux que le réseau de neurones pourra faire est de faire la bonne prédiction un peu moins de 90 % du temps.

J’ai également exécuté deux autres ensembles de données (échantillons de 470 000 et 473 000) sur le réseau formé pour voir le niveau de précision du TEP. J’ai trouvé qu’il était précis à 81 % dans sa prédiction absolue (oui/non) de la chance d’obtenir un retweet. En gardant à l’esprit que ceux-ci avaient également environ 10 % des échantillons où faire la mauvaise prédiction est la bonne chose à faire, ce n’est pas mal ! Et, bien sûr, c’est pourquoi je montre le pourcentage de probabilité d’un retweet, plutôt qu’une simple réponse oui/non.

Essayez le prédicteur vous-même et dites-moi ce que vous en pensez ! (Vous pouvez découvrir votre autorité sociale en vous rendant sur Followerwonk et en suivant ces étapes rapides.) Remarquez qu’il s’agissait simplement d’un exercice pour moi pour apprendre à créer un réseau de neurones, donc je reconnais l’utilité limitée de ce que fait l’outil – pas besoin de me donner ce feedback ;->.

Exemples d’algorithmes que Google pourrait avoir ou créer

Alors maintenant que nous en savons un peu plus sur ce qu’est l’apprentissage automatique, plongeons dans les choses pour lesquelles Google utilise peut-être déjà l’apprentissage automatique :

manchot

Une approche pour implémenter Penguin serait d’identifier un ensemble de caractéristiques de lien qui pourraient potentiellement être un indicateur d’un mauvais lien, telles que celles-ci :

  1. Lien externe assis dans un pied de page
  2. Lien externe dans une barre de droite
  3. Proximité d’un texte tel que “Sponsorisé” (et/ou d’expressions associées)
  4. Proximité d’une image contenant le mot “Sponsorisé” (et/ou des expressions associées)
  5. Regroupés avec d’autres liens peu pertinents les uns par rapport aux autres
  6. Texte d’ancrage riche sans rapport avec le contenu de la page
  7. Lien externe dans la navigation
  8. Implémenté sans indication visible par l’utilisateur qu’il s’agit d’un lien (c’est-à-dire sans ligne en dessous)
  9. D’une mauvaise catégorie de sites (d’un annuaire d’articles, d’un pays où vous ne faites pas d’affaires, etc.)
  10. …et bien d’autres facteurs

Notez que l’une de ces choses n’est pas nécessairement mauvaise en soi pour un lien individuel, mais l’algorithme peut commencer à signaler des sites si une partie importante de tous les liens pointant vers un site donné ont une combinaison de ces attributs.

Ce que j’ai décrit ci-dessus serait une approche d’apprentissage automatique supervisé où vous entraînez l’algorithme avec des liens (ou sites) mauvais et bons connus qui ont été identifiés au fil des ans. Une fois l’algo formé, vous exécuterez ensuite d’autres exemples de liens pour calculer la probabilité que chacun soit un mauvais lien. En fonction du pourcentage de liens (et/ou du PageRank total) provenant de mauvais liens, vous pouvez alors décider de baisser ou non le classement du site.

Une autre approche de ce même problème serait de commencer avec une base de données de bons et de mauvais liens connus, puis de faire en sorte que l’algorithme détermine automatiquement les caractéristiques (ou caractéristiques) de ces liens. Ces caractéristiques incluraient probablement des facteurs que les humains n’auraient peut-être pas pris en compte par eux-mêmes.

Panda

Maintenant que vous avez vu l’exemple Penguin, celui-ci devrait être un peu plus facile à penser. Voici quelques éléments qui pourraient être des caractéristiques des sites dont le contenu est de mauvaise qualité :

  1. Petit nombre de mots sur la page par rapport aux pages concurrentes
  2. Faible utilisation de synonymes
  3. Surutilisation du mot-clé principal de la page (depuis la balise title)
  4. Gros blocs de texte isolés en bas de page
  5. Beaucoup de liens vers des pages non liées
  6. Pages dont le contenu provient d’autres sites
  7. …et bien d’autres facteurs

Encore une fois, vous pouvez commencer avec un ensemble connu de bons et de mauvais sites (du point de vue du contenu) et concevoir un algorithme pour déterminer les caractéristiques communes de ces sites.

Comme pour la discussion sur les pingouins ci-dessus, je ne prétends en aucun cas que ce sont toutes des parties de Panda – elles sont simplement destinées à illustrer le concept global de comment ça pourrait marcher.

Comment l’apprentissage automatique impacte le référencement

La clé pour comprendre l’impact de l’apprentissage automatique sur le référencement est de comprendre à quoi Google (et d’autres moteurs de recherche) veulent l’utiliser. Une idée clé est qu’il existe une forte corrélation entre Google fournissant des résultats de recherche de haute qualité et les revenus qu’ils tirent de leurs annonces.

En 2009, Bing et Google ont effectué des tests qui ont montré comment même l’introduction de petits retards dans leurs résultats de recherche avait un impact significatif sur la satisfaction des utilisateurs. De plus, ces résultats ont montré qu’une satisfaction moindre s’accompagnait de moins de clics et de revenus inférieurs :

La raison derrière cela est simple. Google a d’autres sources de concurrence, et cela va bien au-delà de Bing. Envoyer des SMS à des amis pour obtenir leur contribution est une forme de compétition. Il en va de même pour Facebook, Apple/Siri et Amazon. Des sources alternatives d’informations et de réponses existent pour les utilisateurs, et ils s’emploient chaque jour à améliorer la qualité de ce qu’ils proposent. Il en va de même pour Google.

J’ai déjà suggéré que l’apprentissage automatique pourrait faire partie de Panda et Penguin, et pourrait bien faire partie de l’algorithme “Qualité de la recherche”. Et il y a probablement beaucoup plus de ces types d’algorithmes à venir.

Qu’est-ce que cela signifie?

Étant donné qu’une plus grande satisfaction des utilisateurs est d’une importance cruciale pour Google, cela signifie que la qualité du contenu et la satisfaction des utilisateurs à l’égard du contenu de vos pages doivent désormais être traitées par vous comme un facteur de classement SEO. Vous allez devoir le mesurer et l’améliorer régulièrement au fil du temps. Voici quelques questions à vous poser :

  1. Votre page répond-elle à l’intention d’un grand pourcentage de visiteurs ? Si un utilisateur est intéressé par ce produit, a-t-il besoin d’aide pour le sélectionner ? Apprendre à l’utiliser ?
  2. Qu’en est-il des intentions associées ? Si quelqu’un vient sur votre site à la recherche d’un produit spécifique, quels autres produits connexes pourraient-ils rechercher ?
  3. Quelles lacunes existent dans le contenu de la page ?
  4. Votre page offre-t-elle une expérience de meilleure qualité que celle de vos concurrents ?
  5. Quelle est votre stratégie pour mesurer les performances des pages et les améliorer au fil du temps ?

Il existe de nombreuses façons pour Google de mesurer la qualité de votre page et de l’utiliser pour influer sur les classements. En voici quelques uns:

  1. Lorsqu’ils arrivent sur votre page après avoir cliqué sur une SERP, combien de temps y restent-ils ? Comment cela se compare-t-il aux pages concurrentes ?
  2. Quel est le taux relatif de CTR sur votre liste SERP par rapport à la concurrence ?
  3. Quel volume de recherches de marques votre entreprise obtient-elle ?
  4. Si vous avez une page pour un produit donné, proposez-vous un contenu plus fin ou plus riche que les pages concurrentes ?
  5. Lorsque les utilisateurs cliquent sur les résultats de recherche après avoir visité votre page, se comportent-ils comme si leur tâche avait été accomplie ? Ou cliquent-ils sur d’autres résultats ou entrent-ils des recherches de suivi ?

Pour en savoir plus sur la façon dont la qualité du contenu et la satisfaction des utilisateurs sont devenues un facteur clé du référencement, veuillez consulter les éléments suivants :

  1. Présentation de Rand sur un monde à deux algorithmes
  2. Mon article sur l’analyse de la fréquence des termes
  3. Mon article sur Inverse Document Frequency
  4. Mon article sur l’optimisation de l’efficacité du contenu

Sommaire

L’apprentissage automatique devient très répandu. L’obstacle à l’apprentissage des algorithmes de base a en grande partie disparu. Tous les principaux acteurs de l’industrie technologique en tirent parti d’une manière ou d’une autre. Voici un peu ce que fait Facebook et l’embauche d’apprentissage automatique chez Apple. D’autres proposent des plates-formes pour faciliter la mise en œuvre de l’apprentissage automatique, comme Microsoft et Amazon.

Pour les personnes impliquées dans le référencement et le marketing numérique, vous pouvez vous attendre à ce que ces acteurs majeurs exploitent de mieux en mieux ces algorithmes pour les aider à atteindre leurs objectifs. C’est pourquoi il sera d’une importance cruciale d’ajuster vos stratégies pour les aligner sur les objectifs de ces organisations.

Dans le cas du référencement, l’apprentissage automatique augmentera régulièrement l’importance de la qualité du contenu et de l’expérience utilisateur au fil du temps. Pour vous, il est temps de vous embarquer et de faire de ces facteurs un élément clé de votre stratégie globale de référencement.

(Article traduit de moz.com)

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Index