Expérience utilisateur (UX)SEO

Comment empêcher les pirates d’utiliser de mauvais robots pour exploiter votre site Web

Googlebots-2.png

(Image créée par l’auteur)

Les Bot Bandits sont hors de contrôle

J’ai toujours su que les bots explorent mes sites Web et les sites de tous mes collègues développeurs, mais je ne savais pas que les bots font maintenant plus de visites que les gens sur la plupart des sites Web. Oui, ils nous ont officiellement dépassés en 2012, et les robots dominent désormais les visites de sites Web. Egad, c’est Star Wars qui s’emballe !

Avant de nous alarmer, examinons quelques faits qui démontrent la prépondérance des bots parmi nous.

Les robots arrivent. Les robots arrivent. Les robots sont là !

(Source de l’image)

Le rapport 2013 sur le trafic des bots d’Incapsula indique que “les visites des bots ont augmenté de 21 % pour représenter 61,5 % de l’ensemble du trafic sur le site Web.” Si les bots sont prépondérants, qu’est-ce que cela signifie pour nous ?

Pour ceux d’entre vous qui viennent de se connecter, la prépondérance signifie “la qualité ou le fait d’être plus grand en nombre, en quantité ou en importance”. Cela signifie que les bots sont “plus important que les humains » pour déterminer la valeur des sites Web pour les lecteurs potentiels.

Un rapide coup d’œil aux antonymes de prépondérance révèle que notre sort est pire que prévu. Les antonymes de prépondérance incluent le désavantage, l’infériorité, la subordination, l’asservissement, l’abandon et la faiblesse.

Cependant, tout n’est pas perdu. Tous les robots ne sont pas mauvais. En fait, dans le monde sauvage et laineux du référencement, les Googlebots sont en fait nos amis. Un « Googlebot » est un robot d’exploration Web de Google, également appelé « araignée », qui parcourt Internet à la recherche de nouvelles pages et de nouveaux sites Web à ajouter à l’index de Google.

Googlebots : notre allié dans la guerre des bots

Si nous considérons le Web comme une bibliothèque en constante évolution sans système de classement centralisé, nous pouvons comprendre exactement ce que veut un Googlebot. La mission d’un Googlebot est d’explorer cette bibliothèque et de créer un système de classement. Les bots doivent pouvoir explorer rapidement et facilement les sites. Lorsqu’un Googlebot arrive sur votre site, son premier point d’accès est le fichier robot.txt de votre site, ce qui souligne l’importance de s’assurer qu’il est facile pour les robots d’explorer votre fichier robots.txt. Moins les Googlebots passent de temps sur des parties non pertinentes de votre site, mieux c’est. Dans le même temps, assurez-vous que vous n’avez pas isolé ou bloqué par inadvertance des pages de votre site qui ne devraient pas être bloquées.

web-crawler-s-cropped.jpg

(Source de l’image)

Ensuite, Googlebots utilise le fichier sitemap.xml pour découvrir toutes les zones de votre site. La première règle d’or est la suivante : restez simple. Les Googlebots n’explorent pas DHTML, Flash, Ajax ni JavaScript ainsi qu’ils analysent HTML. Étant donné que Google n’a pas été très clair sur la façon dont ses robots explorent JavaScript et Ajax, évitez d’utiliser ce code pour les éléments les plus importants de votre site. Ensuite, utilisez les liens internes pour créer une structure intelligente et logique qui aidera les bots à explorer efficacement votre site. Pour vérifier l’intégrité de votre structure de liens internes, accédez à Google Webmaster Tools -> Search Traffic -> Internal Links. Les pages les plus liées doivent être les pages les plus importantes de votre site. Si ce n’est pas le cas, vous devez repenser votre structure de liaison.

Alors, comment savoir si les Googlebots sont contents ? Vous pouvez analyser les performances de Googlebot sur votre site en recherchant les erreurs d’exploration. Allez simplement dans Outils pour les webmasters -> Explorer et consultez le rapport de diagnostic pour les erreurs de site potentielles, les erreurs d’URL, les statistiques d’exploration, les plans de site et les URL bloquées.

L’ennemi parmi nous : les robots bandits

Les Googlebots ne sont pas les seuls à visiter votre site. En fait, plus de 38 % des robots qui explorent nos sites ne servent à rien. Ainsi, non seulement nous sommes en infériorité numérique, mais près de 2 visiteurs sur 5 de votre site tentent de voler des informations, d’exploiter des failles de sécurité et de prétendre être quelque chose qu’ils ne sont pas.

Nous appellerons ces bots maléfiques “bots bandits”.

Alors, que devons-nous faire ?

En tant que fournisseur de référencement et développeur de sites Web, je pourrais protester. Je pourrais bloguer mon petit cœur et amener quelques amis à me rejoindre. Ou je pourrais m’attacher et assumer la responsabilité de mon propre petit coin du Web et lutter contre les robots bandits.

Faisons cela ensemble.

Bandit Bots : ce qu’ils sont et comment riposter

Terminator-Robot-dreamstime_s_34845625-C

(Source de l’image)

Les méchants se déclinent en quatre saveurs. Découvrez quels bots surveiller et comment riposter.

Grattoirs

Ces robots bandits volent et dupliquent du contenu, ainsi que des adresses e-mail. Les bots scraper se concentrent normalement sur la récupération de données à partir d’un site Web spécifique. Ils essaient également de collecter des informations personnelles à partir d’annuaires ou de babillards électroniques. Alors que les robots scrapers ciblent une variété de secteurs verticaux différents, les industries courantes incluent les annuaires en ligne, les compagnies aériennes, les sites de commerce électronique et les sites immobiliers en ligne. Les bots Scraper utiliseront également votre contenu pour intercepter le trafic Web. De plus, plusieurs éléments de contenu récupéré peuvent être mélangés pour créer un nouveau contenu et leur permettre d’éviter les pénalités de contenu en double.

Ce qui est à risque : les grattoirs récupèrent votre flux RSS pour savoir quand vous publiez du contenu. Cependant, si vous ne savez pas que votre site est attaqué par des scrapers, vous ne réalisez peut-être pas qu’il y a un problème. Aux yeux de Google, cependant, l’ignorance n’est pas une excuse. Votre site Web pourrait être frappé de sanctions sévères pour contenu dupliqué et même ne pas apparaître dans les classements des moteurs de recherche.

Comment riposter : Soyez proactif et attentif à votre site, augmentant ainsi la probabilité que vous puissiez agir avant que de graves dommages ne soient causés.

Il existe deux bonnes façons d’identifier si votre site est victime d’une attaque par scraper. Une option consiste à utiliser un service de détection de contenu en double comme Copyscape pour voir si un contenu en double apparaît.

Copyscape-Plagiat-Checker-Cropped-hig

(Image créée par l’auteur)

Une deuxième option pour vous avertir que du contenu a peut-être été volé sur votre site consiste à utiliser des trackbacks dans votre propre contenu. En général, il est bon pour le référencement d’inclure un ou deux liens de site internes dans votre contenu écrit. Lorsque vous incluez ces liens, assurez-vous d’activer la fonction de rétrolien de WordPress. Dans le champ de rétrolien de la page d’accueil de votre blog, entrez simplement l’URL de l’article auquel vous faites référence. (Dans ce cas, ce sera un sur vos propres sites Web, pas un autre site).

Ajouter-Nouveau-Post-WordPress-recadré-highlight

Add-New-Post-WordPress-2-cropped-highlig

(Image créée par l’auteur)

Vous pouvez consulter manuellement vos rétroliens pour voir quels sites utilisent vos liens. Si vous constatez que votre contenu a été republié sans votre permission sur un site de spam, déposez une plainte DMCA auprès de Google.

Enfin, si vous connaissez l’adresse IP à partir de laquelle les robots scrapers fonctionnent, vous pouvez les bloquer directement de votre flux. Ajoutez le code suivant à vos fichiers .htaccess. Découvrez comment modifier votre fichier .htaccess. (Voir modifier votre fichier .htaccess sur WordPress.)

RewriteEngine sur
RewriteCond %{REMOTE_ADDR} ^69.16.226.12
Règle de réécriture ^(.*)$ http://newfeedurl.com/feed

Dans cet exemple, 69.16.226.12= est l’adresse IP à laquelle vous souhaitez envoyer et http://newfeedurl.com/feed est le contenu personnalisé que vous souhaitez leur envoyer.

Avertissement! Soyez très prudent lorsque vous modifiez ce fichier. Cela pourrait casser votre site si cela n’est pas fait correctement. Si vous ne savez pas comment modifier ce fichier, demandez l’aide d’un développeur Web.

Outils de piratage

Les pirates robots bandits ciblent les cartes de crédit et d’autres informations personnelles en injectant ou en distribuant des logiciels malveillants pour détourner un site ou un serveur. Les robots pirates essaient également de défigurer les sites et de supprimer le contenu critique.

Ce qui est à risque : Il va sans dire que si votre site était victime d’un bot de piratage, vos clients pourraient perdre sérieusement confiance dans la sécurité de votre site pour les transactions de commerce électronique.

Comment riposter : la plupart des sites attaqués sont victimes de “piratage au volant”, qui sont des piratages de sites effectués au hasard et sans égard pour l’entreprise touchée. Pour éviter que votre site ne devienne une victime de piratage, apportez quelques modifications de base à votre fichier .htaccess, qui se trouve généralement dans le répertoire public_html. Ceci est une excellente liste de démarrage des robots de piratage courants. Copiez et collez cette liste dans le fichier .htaccess pour empêcher l’un de ces bots d’accéder à votre site. Vous pouvez ajouter des bots, supprimer des bots et modifier la liste si nécessaire.

Spammeurs

Les robots spammeurs chargent les sites avec des ordures pour décourager les visites légitimes, transforment les sites ciblés en fermes de liens et appâtent les visiteurs sans méfiance avec des liens malveillants/hameçonnage. Les robots spammeurs participent également à un volume élevé de spams afin de mettre un site Web sur liste noire dans les résultats de recherche et de détruire la réputation en ligne de votre marque.

Ce qui est à risque : Si vous ne protégez pas votre site contre les spammeurs, votre site Web peut être mis sur liste noire, détruisant ainsi tout votre travail acharné pour établir une présence en ligne crédible.

Comment riposter : La détection en temps réel du trafic malveillant est essentielle à la sécurité de votre site, mais la plupart d’entre nous n’ont pas le temps de simplement s’asseoir et de surveiller les modèles de trafic de notre site. La clé est d’automatiser ce processus.

Si vous utilisez WordPress, l’une des premières étapes pour lutter contre les spambots est d’arrêter le spam en premier lieu. Commencez par installer Akismet ; c’est sur tous mes sites personnels ainsi que sur les sites que je gère pour mon client. Ensuite, installez un plugin de sécurité de confiance et configurez des sauvegardes automatiques de votre base de données.

WordPress-Security-Plugins.png

(Image créée par l’auteur)

Exigez une inscription légitime avec CAPTCHA pour tous les visiteurs qui souhaitent faire des commentaires ou des réponses. Enfin, suivez wordpress.org pour découvrir les nouveautés dans le monde de la sécurité.

Cliquez sur les fraudeurs

Les bots de fraude aux clics rendent les publicités PPC inutiles en « cliquant » sur les publicités tant de fois que vous dépensez effectivement la totalité de votre budget publicitaire, mais ne recevez aucun clic réel de la part des clients intéressés. Non seulement ces attaques épuisent votre budget publicitaire, mais elles nuisent également à votre score de pertinence publicitaire quel que soit le programme que vous utilisez. Google AdWords et les publicités Facebook sont les cibles les plus fréquentes de ces attaques.

Ce qui est à risque : les bots de fraude aux clics gaspillent votre budget publicitaire avec des clics inutiles et empêchent les clients intéressés de cliquer sur votre annonce. Pire encore, votre score de pertinence des annonces chutera, détruisant votre crédibilité et rendant difficile la concurrence pour des clients de qualité à l’avenir.

Comment riposter : Si votre site WordPress est ciblé par des bots de fraude au clic, téléchargez et installez immédiatement le plug-in de surveillance Google AdSense Click Fraud. Le plugin compte tous les clics sur vos annonces. Si les clics dépassent un nombre spécifié, l’adresse IP du bot qui clique (ou de l’utilisateur humain) est bloquée. Le plugin bloque également une liste d’adresses IP spécifiques. Le plugin est spécifiquement destiné aux clients Adsense à installer sur leurs sites Web; Les clients AdWords n’ont pas la possibilité d’implémenter ce plug-in.

AdSense-Clic-Fraude.png

(Image créée par l’auteur)

Lorsque vous défendez un site Web contre des robots pirates, il faut un effort concentré pour contrecarrer leurs attaques. Bien que les étapes ci-dessus soient importantes et utiles, il existe certaines attaques, comme les attaques DDoS coordonnées, que vous ne pouvez tout simplement pas combattre par vous-même. Heureusement, un certain nombre d’entreprises de sécurité technologique se spécialisent dans les outils et services anti-DDoS. Si vous soupçonnez que votre site (ou l’un des sites de vos clients) est ciblé par des attaques DDoS, ces sociétés peuvent être la clé d’une défense réussie.

Je recommande de suivre wordpress.org pour découvrir les nouveautés dans le monde de la sécurité.

Sommaire

Donner aux Googlebots honnêtes ce qu’ils veulent est assez simple. Développez un contenu fort et pertinent et publiez-le régulièrement. Combattre les faux Googlebots et autres bandits robots est un peu plus difficile. Comme beaucoup de choses dans la vie, cela demande de la diligence et du travail acharné.

(Article traduit de moz.com)

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Index