Apprentissage automatique pour les référenceurs

Simonmars 31, 2021

0 128 9 minutes de lecture

Depuis les mises à jour de Panda et Penguin, la communauté SEO parle de plus en plus de machine learning, et pourtant souvent le terme n’est toujours pas bien compris. Nous savons que c’est la “magie” derrière Panda et Pingouin, mais comment est-ce que ça marche? Pourquoi ne l’ont-ils pas utilisé plus tôt ? Qu’est-ce que cela a à voir avec les “actualisations de données” périodiques que nous voyons pour ces deux algorithmes ?

Je pense que l’apprentissage automatique va jouer un rôle de plus en plus important dans le référencement, et je pense donc qu’il est important que nous ayons une compréhension de base de son fonctionnement.

Avis de non-responsabilité : Premièrement, je ne suis pas un expert en apprentissage automatique. Deuxièmement, je vais intentionnellement simplifier des aspects à certains endroits et effleurer certains détails qui ne me paraissent pas nécessaires. Le but de cet article n’est pas de vous donner une compréhension complète ou détaillée de l’apprentissage automatique, mais plutôt de vous donner une compréhension de haut niveau qui vous permet de répondre aux questions de mon paragraphe d’ouverture si un client vous pose des questions à ce sujet. Enfin, Google est une boîte noire, il est donc évidemment impossible de savoir exactement comment ils s’y prennent, mais c’est mon interprétation des indices que la communauté SEO a assemblés au fil du temps.

Contenu de la page

Culture de la pastèque

L’apprentissage automatique est approprié lorsqu’il y a un problème qui n’a pas de réponse exacte (c’est-à-dire qu’il n’y a pas de bonne ou de mauvaise réponse) et/ou qui n’a pas de méthode de solution que nous pouvons entièrement décrire.

Des exemples où l’apprentissage automatique n’est pas approprié seraient un programme informatique qui compte les mots dans un document, additionne simplement quelques nombres ou compte les hyperliens sur une page.

Exemples où l’apprentissage automatique aurait appropriés sont la reconnaissance optique de caractères, déterminer si un e-mail est un spam ou identifier un visage sur une photo. Dans tous ces cas, il est presque impossible pour un humain (qui est très probablement extrêmement doué pour ces tâches) d’écrire un ensemble exact de règles sur la façon de faire ces choses qu’il peut intégrer dans un programme informatique. De plus, il n’y a pas toujours de bonne réponse; le spam d’un homme est le bulletin informatif d’un autre homme.

Expliquer l’apprentissage automatique avec Will Critchlow à SearchLove 2013 à Londres. J’aime les pastèques.

L’exemple que je vais utiliser dans cet article est celui de la cueillette des pastèques. Les pastèques ne continuent pas à mûrir une fois qu’elles sont cueillies, il est donc important de les cueillir lorsqu’elles sont parfaitement mûres. Quiconque cueille des pastèques depuis des années peut regarder une pastèque, lui donner une sensation avec ses mains et, à partir de sa taille, de sa couleur et de sa fermeté, il peut déterminer si elle est trop mûre, trop mûre ou juste ce qu’il faut. . Ils peuvent le faire avec une grande précision. Cependant, si vous leur demandiez d’écrire une liste de règles ou un organigramme que vous ou moi pourrions utiliser pour déterminer si une pastèque spécifique était mûre, alors ils échoueraient presque certainement – le problème n’a pas de réponse nette. peut écrire dans les règles. Notez également qu’il n’y a pas nécessairement de bonne ou de mauvaise réponse – il peut même y avoir un désaccord entre les agriculteurs.

Vous pouvez imaginer qu’il en va de même pour savoir comment identifier si une page Web est du spam ou non ; il est difficile, voire impossible, d’écrire un ensemble exact de règles qui fonctionnent bien, et il y a place pour des désaccords.

Robo-fermiers

Cependant, cela ne signifie pas qu’il est impossible d’apprendre à un ordinateur à trouver des pastèques mûres ; c’est tout à fait possible. Nous avons simplement besoin d’une méthode qui ressemble davantage à la façon dont les humains apprendraient cette compétence : l’apprentissage par l’expérience. C’est là que l’apprentissage automatique entre en jeu.

Enseignement supervisé

Nous pouvons configurer un ordinateur (il existe différentes méthodes, nous n’avons pas besoin de connaître les détails à ce stade, mais la méthode dont vous avez probablement entendu parler est celle des réseaux de neurones artificiels) de sorte que nous puissions lui fournir des informations sur un melon après un autre (taille, fermeté, couleur, etc.), et nous disons également à l’ordinateur si ce melon est mûr ou non. Cette collection de melons est notre “ensemble d’entraînement”, et selon la complexité de ce qui est appris, elle doit contenir beaucoup de “melons” (ou de pages Web ou autre).

Au fil du temps, l’ordinateur commencera à construire un modèle de la façon dont il pense que les divers attributs du melon jouent sur sa maturité ou non. L’apprentissage automatique peut gérer des situations où ces interactions peuvent être relativement complexes (par exemple, la fermeté d’un melon mûr peut changer en fonction de la couleur du melon et de la température ambiante). Nous montrons chaque melon de l’ensemble d’entraînement plusieurs fois de manière circulaire (imaginez que c’était vous ; maintenant que vous avez remarqué quelque chose que vous n’aviez pas remarqué auparavant, vous pouvez revenir aux melons précédents et en apprendre encore plus).

Une fois que nous sommes convaincus que l’ordinateur maîtrise le problème, nous pouvons lui faire un test en lui montrant des melons d’une autre collection qu’il n’a pas encore vus (nous appelons cet ensemble de melons l'”ensemble de validation”), mais nous ne partageons pas si ces melons sont mûrs ou non. Maintenant, l’ordinateur essaie d’appliquer ce qu’il a appris et de prédire si les melons sont mûrs ou non (ou même à quel point ils peuvent ou non être mûrs). Nous pouvons voir à partir du nombre de melons que l’ordinateur identifie avec précision à quel point il a appris. S’il n’a pas bien appris, nous devrons peut-être lui montrer plus de melons ou nous devrons peut-être modifier l’algorithme (le “cerveau”) dans les coulisses et recommencer.

Ce type d’approche est appelé enseignement supervisé, où nous fournissons à l’algorithme d’apprentissage les détails indiquant si les melons d’origine sont mûrs ou non. Il existe des méthodes alternatives, mais l’apprentissage supervisé est le meilleur point de départ et couvre probablement une bonne partie de ce que fait Google.

Une chose à noter ici est que même après avoir entraîné l’ordinateur à bien identifier les melons mûrs, il ne peut pas plus écrire cet ensemble exhaustif de règles que nous attendions de l’agriculteur que l’agriculteur ne le pourrait.

Mise à jour de l’infrastructure de la caféine

Alors, comment tout cela s’intègre-t-il à la recherche ?

Nous devons d’abord revenir en arrière jusqu’en 2010 et le déploiement de la mise à jour de l’infrastructure Caffeine. Nous ne le savions pas à l’époque, mais Caffeine était l’ancêtre de Panda et Penguin. C’est la caféine qui a permis à Panda et Pingouin de voir le jour.

La caféine a permis à Google de mettre à jour son index beaucoup plus rapidement que jamais et de mettre à jour le PageRank pour certaines parties du graphique de liens du Web indépendamment du reste du graphique. Auparavant, vous deviez recalculer le PageRank pour toutes les pages du Web en même temps ; vous ne pouviez pas créer une seule page Web. Avec Caffeine, nous pensons que cela a changé et ils ont pu estimer, avec une bonne précision, le PageRank mis à jour pour certaines parties du Web (sous-graphiques) pour tenir compte des liens nouveaux (ou supprimés).

Cela signifiait un “index en direct” qui est constamment mis à jour, plutôt que d’avoir des mises à jour périodiques.

Alors, comment cela est-il lié à l’apprentissage automatique et comment prépare-t-il le terrain pour Panda et Penguin ? Mettons tout cela ensemble…

Panda et Pingouin

La caféine a permis à Google de mettre à jour PageRank extrêmement rapidement, bien plus rapidement que jamais auparavant, et c’est probablement l’étape qui leur a permis d’appliquer enfin l’apprentissage automatique à grande échelle en tant que partie importante de l’algorithme.

Le problème que Panda a entrepris de résoudre est très similaire au problème consistant à déterminer si une pastèque est mûre. Toute personne lisant cet article de blog pourrait jeter un coup d’œil sur une page Web et, dans la plupart des cas, me dire à quel point cette page est spammée avec un haut degré de précision. Cependant, très peu de gens pourraient m’écrire une liste exacte de règles pour juger de cette caractéristique pour les pages que vous n’avez pas encore vues (“s’il y a plus de x liens, et qu’il y a y publicités occupant z% de l’écran au-dessus de la ligne de flottaison …”). Vous pourriez donner quelques règles générales, mais rien qui serait efficace pour toutes les pages où cela compte. Considérez également que si vous (ou Google) pouviez construire une telle liste de règles strictes, il deviendrait plus facile de les contourner.

Ainsi, Google n’a pas pu écrire des ensembles de règles spécifiques pour juger ces pages de spam, c’est pourquoi pendant des années, beaucoup d’entre nous ont grogné lorsque nous avons regardé une page qui était clairement (dans notre esprit) du spam mais qui se classait bien dans Google SERP.

La même logique s’applique exactement à Penguin.

Les problèmes auxquels Google était confronté étaient similaires au problème de la culture de la pastèque. Alors pourquoi n’utilisaient-ils pas l’apprentissage automatique dès le premier jour ?

Entraînement

Google a probablement créé un ensemble de formation en demandant à ses équipes d’évaluateurs de la qualité humaine d’attribuer aux pages Web une note sur le degré de spam de cette page. Des centaines ou des milliers d’évaluateurs auraient tous examiné des centaines ou des milliers de pages pour produire une énorme liste de pages Web avec des scores de spam associés (moyennés à partir de plusieurs évaluateurs). Je ne suis pas sûr à 100 % du format exact que ce processus aurait pris, mais nous pouvons obtenir une compréhension générale en utilisant l’explication ci-dessus.

Maintenant, rappelez-vous que pour savoir à quel point les pastèques sont mûres, nous devons avoir beaucoup de melons et nous devons les regarder plusieurs fois. C’est beaucoup de travail et cela prend du temps, d’autant plus que nous devons apprendre et mettre à jour notre compréhension (nous appelons cela le “modèle”) de la façon de déterminer la maturité. Après cette étape, nous devons essayer notre modèle sur l’ensemble de validation (les melons que nous n’avons jamais vus auparavant) pour évaluer s’il fonctionne bien ou non.

Dans le cas de Google, ce processus se déroule sur l’ensemble de son index du Web. Je ne suis pas clair sur l’approche exacte qu’ils utiliseraient ici, bien sûr, mais il semble clair que l’application de l’approche “apprendre et tester” ci-dessus sur l’ensemble de l’index nécessite énormément de ressources. Les types de percées que Caffeine a permis avec un index en direct et un calcul plus rapide sur certaines parties du graphique sont ce qui a rendu l’apprentissage automatique enfin viable. Vous pouvez imaginer qu’auparavant, s’il fallait des heures (voire des minutes) pour recalculer les valeurs (que ce soit le PageRank ou une métrique de spam), il n’était tout simplement pas possible de le faire les milliers de fois nécessaires pour appliquer l’apprentissage automatique. Une fois que Caffeine leur a permis de commencer, la chronologie de Panda et ensuite de Penguin a été assez rapide, démontrant qu’une fois qu’ils ont pu, ils étaient désireux d’utiliser l’apprentissage automatique dans le cadre de l’algorithme (et on comprend pourquoi).

Et ensuite ?

Chaque “déploiement” des mises à jour ultérieures de Panda et Penguin était le moment où un nouveau modèle (et vraisemblablement amélioré) avait été calculé, testé et pouvait désormais être appliqué comme signal à l’index en direct. Puis, plus tôt cette année, il a été annoncé que Panda serait continuellement mis à jour et déployé sur des périodes d’environ 10 jours, donc les signes indiquent qu’ils améliorent la vitesse et l’efficacité avec lesquelles ils peuvent appliquer l’apprentissage automatique à l’index.

Hummingbird semble préparer le terrain pour des mises à jour supplémentaires.

Je m’attends à voir davantage d’apprentissage automatique appliqué à tous les domaines de Google au cours de l’année à venir. En fait, je pense que nous en voyons déjà les prochaines itérations avec Hummingbird, et chez Distilled, nous visualisons la mise à jour Hummingbird de la même manière que Caffeine. Alors que Hummingbird était une mise à jour d’algorithme plutôt qu’une mise à jour d’infrastructure, nous ne pouvons pas ébranler le sentiment qu’il jette les bases de quelque chose à venir.

Emballer

Je suis enthousiasmé par les possibilités d’application de l’apprentissage automatique à ce type d’échelle, et je pense que nous allons en voir beaucoup plus. Cet article vise à donner une compréhension de base de ce qui est impliqué, mais j’ai peur de vous dire que je ne suis pas sûr que la science de la pastèque soit exacte à 100%. Cependant, je pense que comprendre le concept de Machine Learning peut vraiment aider à comprendre des algorithmes tels que Panda et Penguin.

(Article traduit de moz.com)

Simonmars 31, 2021

0 128 9 minutes de lecture