Mieux comprendre les techniques d’analyse de spam basées sur les liens

Simon

il y a 4 ans

Un aspect frustrant de la création de liens est de ne pas connaître la valeur d’un lien. Bien que l’expérience et certaines données puissent vous rendre meilleur dans l’évaluation des liens, il est impossible de savoir dans quelle mesure un lien peut vous aider. Il est difficile de savoir si un lien aide même du tout. Les moteurs de recherche ne comptent pas tous les liens, ils réduisent la valeur de nombreux liens qu’ils comptent et utilisent des facteurs liés à vos liens pour supprimer davantage la valeur qui reste. Tout cela est fait pour améliorer la pertinence et la détection des spams.

Comprendre les bases de la détection de spam basée sur des liens peut améliorer votre compréhension de la valorisation des liens et vous aider à comprendre comment les moteurs de recherche abordent le problème de la détection de spam, ce qui peut conduire à de meilleures pratiques de création de liens.

J’aimerais parler de quelques concepts intéressants d’analyse de spam de lien que les moteurs de recherche peuvent utiliser pour évaluer votre profil de backlink.

Clause de non-responsabilité:

Je ne travaille pas sur un moteur de recherche, donc je ne peux faire aucune déclaration concrète sur la façon dont les moteurs de recherche évaluent les liens. Les moteurs peuvent utiliser certaines ou aucune des techniques décrites dans cet article. Ils utilisent aussi certainement des techniques plus (et plus sophistiquées) que ce que je peux couvrir dans cet article. Cependant, je passe beaucoup de temps à lire des articles et des brevets, alors j’ai pensé qu’il valait la peine de partager certaines des techniques intéressantes.

Contenu de la page

#1 PageRank tronqué

Les bases du PageRank tronqué sont couvertes dans l’article Caractérisation et détection basées sur les liens du spam Web. Le PageRank tronqué est un calcul qui supprime la contribution directe du « jus de lien » fournie par le(s) premier(s) niveau(x) de liens. Ainsi, une page boostée par des méthodes naïves (telles que le marketing d’article) reçoit une grande partie de la valeur PageRank directement de la première couche. Cependant, un lien d’une page bien liée recevra une contribution de “jus de lien” de niveaux supplémentaires. Les pages de spam afficheront probablement un PageRank tronqué nettement inférieur au PageRank. Le rapport entre le PageRank tronqué et le PageRank peut être un signal indiquant le caractère indésirable d’un profil de lien.

#2 Contributions détenues/accessibles

Les liens peuvent être regroupés en trois compartiments généraux.

Liens à partir de contenu propriétaire – Liens provenant de pages dont les moteurs de recherche ont déterminé un certain niveau de propriété (cocitation bien connectée, IP, whois, etc.)
Liens du contenu accessible – Liens de contenu non propriétaire facilement accessible pour ajouter des liens (blogs, forums, annuaires d’articles, livres d’or, etc.)
Liens provenant de contenus inaccessibles – Liens provenant de sources indépendantes.

Un lien provenant de l’une de ces sources n’est ni bon ni mauvais. Les liens provenant de contenus détenus, via des réseaux et des relations, sont parfaitement naturels. Cependant, un lien provenant d’un contenu inaccessible peut être un lien payant, de sorte que ce seau ne signifie pas qu’il est intrinsèquement bon. Cependant, connaître le compartiment auquel appartient un lien peut modifier l’évaluation.

Ce type d’analyse sur deux sites peut montrer une nette différence dans un profil de lien, tous les autres facteurs étant égaux. Le premier site est principalement pris en charge sur les liens du contenu qu’il contrôle directement ou auquel il peut accéder. Cependant, le deuxième site a gagné des liens à partir d’un pourcentage considérablement plus élevé de sources uniques et indépendantes. Toutes choses étant égales par ailleurs, le deuxième site est moins susceptible d’être du spam.

#3 Masse relative

La masse relative représente la distribution en pourcentage d’un profil pour certains types de liens. L’exemple des camemberts ci-dessus illustre le concept de masse relative.

La masse relative est abordée plus largement dans l’article Link Spam Detection Based on Mass Estimation. L’analyse de Masse Relative permet de définir un seuil à partir duquel une page est qualifiée de « spam ». Dans l’image ci-dessus, les cercles rouges ont été identifiés comme spam. La page cible a désormais une part de valeur qui lui est attribuée via les sites « spam ». Si cette valeur de contribution dépasse un seuil potentiel, cette page pourrait voir son classement supprimé ou la valeur transmise par ces liens minimisée. L’exemple ci-dessus est assez binaire, mais il y a souvent un grand gradient entre pas de spam et spam.

Ce type d’analyse peut également être appliqué à des tactiques, telles que la distribution de liens à partir de commentaires, d’annuaires, d’articles, de sources détournées, de pages détenues, de liens payants, etc. L’algorithme peut fournir un certain degré de “pardon” avant sa masse relative. contribution dépasse un niveau acceptable.

#4 Comptage des supporters / Vitesses vers les nœuds

Une autre méthode d’évaluation des liens consiste à compter les partisans et la vitesse de découverte de ces nœuds (et le point auquel cette découverte culmine).

Une distribution d’histogramme des nœuds de support par saut peut démontrer les différences entre le spam et les sites de haute qualité.

Les sites bien connectés augmenteront en partisans plus rapidement que les sites de spam et les sites de spam sont susceptibles de culminer plus tôt. Les sites de spam se développeront rapidement et déclineront rapidement à mesure que vous vous éloignez du nœud cible. Cette distribution peut aider à signifier qu’un site utilise des pratiques de création de liens spammy. Étant donné que les réseaux de spam ont des degrés de clustering plus élevés, les domaines se répètent sur les sauts, ce qui rend les profils de spam plus rapides que les profils non-spam.

Astuce : Je pense que c’est l’une des raisons pour lesquelles la diversité des domaines et les domaines racines de liaison uniques sont bien corrélés avec les classements. Je ne pense pas que la relation soit aussi naïve que le comptage des domaines de liaison, mais une analyse telle que le comptage des supporters, ainsi que le PageRank tronqué, rendrait la réception de liens provenant d’un ensemble plus large de domaines divers plus bien corrélée avec les classements.

#5 TrustRank, Anti-TrustRank, SpamRank, etc.

Le modèle de TrustRank a déjà été écrit à plusieurs reprises et est à la base de métriques comme mozTrust. Le principe de base est que les nœuds de départ peuvent avoir à la fois des scores de confiance et de spam qui peuvent être transmis via des liens. Plus vous êtes proche de l’ensemble de graines, plus la probabilité que vous correspondiez à la définition de cet ensemble de graines est élevée. Être proche du spam, vous rend plus susceptible d’être un spam, être proche de la confiance, vous rend plus susceptible d’être digne de confiance. Ces valeurs peuvent être jugées entrantes et sortantes.

Je n’entrerai pas dans beaucoup plus de détails que cela, car vous pouvez lire à ce sujet dans les articles précédents, mais cela se résume à quatre règles simples.

Obtenez des liens à partir de contenu de confiance.
Ne recevez pas de liens provenant de spams.
Lien vers un contenu de confiance.
Ne créez pas de lien vers du contenu de spam.

Ce type d’analyse a également été utilisé pour utiliser les forums SEO contre les spammeurs. Un moteur de recherche peut explorer les liens des meilleurs forums SEO pour créer un ensemble de domaines de départ pour effectuer une analyse. L’heure du chapeau en papier d’aluminium….

# 6 Texte d’ancrage par rapport au temps

La surveillance du texte d’ancrage au fil du temps peut donner des informations intéressantes qui pourraient détecter une manipulation potentielle. Examinons un exemple de la manière dont un domaine d’occasion acheté pour la valeur du lien (et le spam) peut apparaître avec ce type d’analyse.

Ce domaine a un historique d’acquisition de texte d’ancrage comprenant à la fois des termes ciblés de marque et sans marque. Puis, soudainement, ce taux chute et après un certain temps, un nouvel afflux soudain de texte d’ancrage, jamais vu auparavant, commence à arriver. Ce type d’analyse de texte d’ancrage, en combinaison avec des approches orthogonales de détection de spam, peut aider à détecter le moment où la propriété a été modifiée. . Les liens antérieurs à ce point peuvent alors être évalués différemment.

Ce type d’analyse, ainsi que d’autres éléments très intéressants, sont abordés dans l’article Google Document Scoring Based on Link-Based Criteria.

#7 Seuils de croissance des liens

Les sites avec une croissance rapide des liens pourraient voir leur impact atténué en appliquant un seuil de valeur qui peut être gagné en une unité de temps. La corroboration des signaux peut aider à déterminer si un pic provient d’un événement réel ou d’un contenu viral, par opposition à la manipulation de liens.

Ce seuil peut réduire la valeur des liens qui dépassent un seuil attribué. Un profil de croissance naturelle plus rythmé est moins susceptible de franchir un seuil. Vous pouvez trouver plus d’informations sur l’analyse historique dans l’article Recherche d’informations basée sur des données historiques.

#8 PageRank robuste

Le PageRank robuste fonctionne en calculant le PageRank sans les nœuds les plus contributeurs.

Dans l’image ci-dessus, les deux liens les plus forts ont été désactivés et ont effectivement réduit le PageRank d’un nœud. Les sites solides ont souvent des profils robustes et ne dépendent pas fortement de quelques sources solides (telles que des liens provenant de fermes de liens) pour maintenir un PageRank élevé. Des calculs de PageRank robustes sont un moyen de réduire l’impact des nœuds trop influents. Vous pouvez en savoir plus sur Robust PageRank dans l’article Robust PageRank and Locally Computable Spam Detection Features.

#9 Écart de PageRank

L’uniformité de la contribution PageRank à un nœud peut être utilisée pour évaluer le spam. Les profils de liens naturels sont susceptibles d’avoir une plus forte variance dans la contribution au PageRank. Les profils de spam ont tendance à être plus uniformes.

Donc, si vous utilisez un outil, un marché ou un service pour commander 15 liens PR 4 pour un texte d’ancrage spécifique, il aura une faible variance en PR. C’est un moyen facile de détecter ce genre de pratiques.

#10 Rendements décroissants

Une façon de minimiser la valeur d’une tactique consiste à créer des rendements marginaux décroissants sur des types de liens spécifiques. Ceci est plus facile à voir dans les liens à l’échelle du site, tels que les liens de blogroll ou les liens payants de pied de page. À une certaine époque, la popularité des liens, en volume, était un facteur important qui conduisait à des sites entiers portant une valeur disproportionnée.

Le premier lien d’un domaine porte le premier vote et l’obtention de liens supplémentaires d’un domaine particulier continuera d’augmenter la valeur totale d’un domaine, mais seulement jusqu’à un certain point. Finalement, les liens entrants du même domaine continueront à connaître des rendements décroissants. Passer de 1 lien à 3 liens d’un domaine aura plus d’effet que 101 liens à 103 liens.

Astuce : Bien qu’il soit facile de voir cela avec des liens sur tout le site, je pense à la plupart des tactiques de création de liens de cette manière. En plus d’idées comme la masse relative, où vous ne voulez pas qu’une chose domine, j’ai l’impression que la tactique perd de son attrait avec le temps. Il est peu probable que vous puissiez obtenir de bons classements sur un nombre limité de tactiques, car de nombreuses tactiques manuelles ont tendance à atteindre un point de rendements décroissants (parfois cela peut être algorithmique, d’autres fois cela peut être dû à des rendements décroissants dans l’avantage concurrentiel). Il est préférable d’éviter la création de liens unidimensionnels.

Algorithmes de spam de lien

Tous les algorithmes d’analyse de spam ont un certain pourcentage de précision et un certain niveau de faux positifs. Grâce à la combinaison de ces méthodes de détection, les moteurs de recherche peuvent maximiser la précision et minimiser les faux positifs.

L’analyse du spam Web permet plus de faux positifs que la détection du spam par e-mail, car il existe souvent plusieurs alternatives pour remplacer un résultat poussé vers le bas. Ce n’est pas comme la détection de spam par e-mail, qui est de nature binaire (boîte de réception ou boîte de spam). De plus, les moteurs de recherche n’ont pas à créer d’étiquettes binaires de “spam” ou “pas de spam” pour améliorer efficacement les résultats de recherche. En utilisant des analyses, telles que certaines de celles discutées dans cet article, les moteurs de recherche peuvent simplement atténuer les classements et minimiser les effets.

Ces techniques d’analyse sont également conçues pour diminuer le retour sur investissement de tactiques spécifiques, ce qui rend le spamming plus difficile et plus coûteux. Le but de cet article n’est pas d’insister sur les liens qui fonctionnent et ceux qui ne fonctionnent pas, car il est difficile de savoir. L’objectif est de démontrer certaines des tactiques de résolution de problèmes utilisées par les moteurs de recherche et comment cela affecte vos tactiques.

(Article traduit de moz.com)