Comment utiliser l’analyse des journaux de serveur pour le référencement technique

Simon

il y a 4 ans

Il est dix heures. Savez-vous où sont vos logs ?

Je présente ce guide avec un jeu de mots sur une annonce de service public courante qui a été diffusée sur les journaux télévisés de fin de soirée aux États-Unis, car l’analyse des journaux est quelque chose d’extrêmement digne d’intérêt et important.

Si votre référencement technique et sur la page est médiocre, alors rien d’autre que vous ferez n’aura d’importance. Le référencement technique est la clé pour aider les moteurs de recherche à explorer, analyser et indexer les sites Web, et ainsi les classer de manière appropriée bien avant le début de tout travail de marketing.

La chose importante à retenir : Vos fichiers journaux contiennent les seules données exactes à 100 % sur la façon dont les moteurs de recherche explorent votre site Web. En aidant Google à faire son travail, vous préparerez le terrain pour votre futur travail de référencement et vous faciliterez la tâche. L’analyse des journaux est une facette du référencement technique, et la correction des problèmes trouvés dans vos journaux vous aidera à obtenir un meilleur classement, plus de trafic et plus de conversions et de ventes.

Voici quelques raisons pour lesquelles :

Trop d’erreurs de code de réponse peuvent amener Google à réduire son exploration de votre site Web et peut-être même de votre classement.
Vous voulez vous assurer que les moteurs de recherche explorent tout, nouveau et ancien, que vous souhaitez apparaître et classer dans les SERP (et rien d’autre).
Il est crucial de s’assurer que toutes les redirections d’URL transmettront tout “jus de lien” entrant.

Cependant, l’analyse des journaux est quelque chose dont on parle malheureusement trop rarement dans les cercles SEO. Donc, ici, je voulais donner à la communauté Moz un guide d’introduction à l’analyse des journaux qui, je l’espère, vous aidera. Si vous avez des questions, n’hésitez pas à les poser dans les commentaires !

Contenu de la page

Qu’est-ce qu’un fichier journal ?

Les serveurs informatiques, les systèmes d’exploitation, les périphériques réseau et les applications informatiques génèrent automatiquement quelque chose appelé un entrée de journal chaque fois qu’ils effectuent une action. Dans un contexte de référencement et de marketing numérique, un type d’action est chaque fois qu’une page est demandée par un bot ou un humain visiteur.

Les entrées de journal du serveur sont spécifiquement programmées pour être sorties dans le format de journal commun du consortium W3C. Voici un exemple de Wikipedia avec mes explications d’accompagnement :

127.0.0.1 user-identifier frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

127.0.0.1 — Le nom d’hôte distant. Une adresse IP est affichée, comme dans cet exemple, chaque fois que le nom d’hôte DNS n’est pas disponible ou que DNSLookup est désactivé.
identifiant-utilisateur — Le nom de journal distant / l’identité RFC 1413 de l’utilisateur. (Ce n’est pas si important.)
franc — L’ID utilisateur de la personne qui demande la page. D’après ce que je vois dans mon profil Moz, les entrées de journal de Moz afficheraient probablement “SamuelScott” ou “392388” chaque fois que je visite une page après m’être connecté.
[10/Oct/2000:13:55:36 -0700] — La date, l’heure et le fuseau horaire de l’action en question au format strftime.
GET /apache_pb.gif HTTP/1.0 — “GET” est l’une des deux commandes (l’autre est “POST”) pouvant être exécutées. “GET” récupère une URL pendant que “POST” soumet quelque chose (comme un commentaire de forum). La deuxième partie est l’URL à laquelle on accède et la dernière partie est la version de HTTP à laquelle on accède.
200 — Le code d’état du document qui a été renvoyé.
2326 — La taille, en octets, du document renvoyé.

Remarque : Un trait d’union s’affiche dans un champ lorsque cette information n’est pas disponible.

Chaque fois que vous (ou le Googlebot) visitez une page sur un site Web, une ligne contenant ces informations est générée, enregistrée et stockée par le serveur.

Les entrées de journal sont générées en continu et de plusieurs à plusieurs milliers peuvent être créées chaque seconde, en fonction du niveau d’activité d’un serveur, d’un réseau ou d’une application donnés. Une collection d’entrées de journal est appelée un fichier journal (ou souvent en argot, “le journal” ou “les journaux”), et il est affiché avec l’entrée de journal la plus récente en bas. Les fichiers journaux individuels contiennent souvent l’équivalent d’une journée calendaire d’entrées de journal.

Accéder à vos fichiers journaux

Différents types de serveurs stockent et gèrent leurs fichiers journaux différemment. Voici les guides généraux pour trouver et gérer les données de journal sur trois des types de serveurs les plus populaires :

Accéder aux fichiers journaux Apache (Linux)
Accès aux fichiers journaux NGINX (Linux)
Accès aux fichiers journaux IIS (Windows)

Qu’est-ce que l’analyse de log ?

L’analyse des journaux (ou analyse des journaux) est le processus qui consiste à parcourir les fichiers journaux pour apprendre quelque chose à partir des données. Certaines raisons courantes incluent :

Développement et assurance qualité (QA) — Créer un programme ou une application et vérifier les bogues problématiques pour s’assurer qu’il fonctionne correctement
Dépannage réseau — Répondre et corriger les erreurs système dans un réseau
Service Clients — Déterminer ce qui s’est passé lorsqu’un client a eu un problème avec un produit technique
Les problèmes de sécurité — Enquêter sur les incidents de piratage et autres intrusions
Questions de conformité — Collecte d’informations en réponse aux politiques de l’entreprise ou du gouvernement
Référencement technique — C’est mon préféré! Plus à ce sujet dans un instant.

L’analyse des journaux est rarement effectuée régulièrement. Habituellement, les gens n’entrent dans les fichiers journaux qu’en réponse à quelque chose – un bogue, un piratage, une assignation à comparaître, une erreur ou un dysfonctionnement. Ce n’est pas quelque chose que quiconque veut faire de façon continue.

Pourquoi? Ceci est une capture d’écran de la nôtre d’une très petite partie d’un fichier journal original (non structuré):

Aie. Si un site Web reçoit 10 000 visiteurs qui accèdent chacun à dix pages par jour, le serveur créera chaque jour un fichier journal composé de 100 000 entrées de journal. Personne n’a le temps de parcourir tout cela manuellement.

Comment faire une analyse de journal

Il existe trois manières générales de faciliter l’analyse des journaux dans le référencement ou dans tout autre contexte :

Faites-le vous-même dans Excel
Logiciels propriétaires tels que Splunk ou Sumo-logic
Le logiciel open source ELK Stack

L’essai Moz de Tim Resnik d’il y a quelques années vous guide tout au long du processus d’exportation d’un lot de fichiers journaux vers Excel. Il s’agit d’un moyen (relativement) rapide et facile d’effectuer une analyse simple des journaux, mais l’inconvénient est que l’on ne verra qu’un instantané dans le temps et non des tendances générales. Pour obtenir les meilleures données, il est crucial d’utiliser des outils propriétaires ou la pile ELK.

Splunk et Sumo-Logic sont des outils propriétaires d’analyse de journaux qui sont principalement utilisés par les entreprises. La pile ELK est un lot gratuit et open source de trois plates-formes (Elasticsearch, Logstash et Kibana) qui appartient à Elastic et est utilisé plus souvent par les petites entreprises. (Divulgation : chez Logz.io, nous utilisons la pile ELK pour surveiller nos propres systèmes internes ainsi que pour la base de notre propre logiciel de gestion des journaux.)

Pour ceux qui souhaitent utiliser ce processus pour effectuer une analyse SEO technique, surveiller les performances du système ou des applications, ou pour toute autre raison, notre PDG, Tomer Levy, a rédigé un guide pour déployer la pile ELK.

Informations SEO techniques dans les données de journal

Quelle que soit la manière dont vous choisissez d’accéder à vos données de journal et de les comprendre, il existe de nombreux problèmes techniques SEO importants à résoudre si nécessaire. J’ai inclus des captures d’écran de notre tableau de bord SEO technique avec les données de notre propre site Web pour montrer ce qu’il faut examiner dans vos journaux.

Volume d’exploration du bot

Il est important de connaître le nombre de requêtes effectuées par Baidu, BingBot, GoogleBot, Yahoo, Yandex et autres sur une période donnée. Si, par exemple, vous souhaitez être trouvé dans la recherche en Russie mais que Yandex n’explore pas votre site Web, c’est un problème. (Vous voudriez consulter Yandex Webmaster et voir cet article sur Search Engine Land.)

Erreurs de code de réponse

Moz a une excellente introduction sur la signification des différents codes de statut. J’ai une configuration de système d’alerte qui m’informe immédiatement des erreurs 4XX et 5XX car elles sont très importantes.

Redirections temporaires

Les redirections 302 temporaires ne transmettent pas le “jus de lien” des liens externes de l’ancienne URL à la nouvelle. Presque tout le temps, ils doivent être remplacés par des redirections 301 permanentes.

Budget de crawl gaspillé

Google attribue un budget de crawl à chaque site Web en fonction de nombreux facteurs. Si votre budget de crawl est, disons, de 100 pages par jour (ou la quantité équivalente de données), alors vous voulez être sûr que les 100 sont des choses que vous voulez voir apparaître dans les SERP. Peu importe ce que vous écrivez dans votre fichier robots.txt et vos balises méta-robots, vous risquez toujours de gaspiller votre budget de crawl sur des pages de destination publicitaires, des scripts internes, etc. Les journaux vous le diront – j’ai décrit deux exemples basés sur des scripts en rouge ci-dessus.

Si vous atteignez votre limite d’exploration mais que vous avez encore du nouveau contenu qui doit être indexé pour apparaître dans les résultats de recherche, Google peut abandonner votre site avant de le trouver.

Exploration d’URL en double

L’ajout de paramètres d’URL – généralement utilisés dans le suivi à des fins marketing – entraîne souvent un gaspillage des budgets d’exploration des moteurs de recherche en explorant différentes URL avec le même contenu. Pour savoir comment résoudre ce problème, je vous recommande de lire les ressources sur Google et Search Engine Land ici, ici, ici et ici.

Priorité d’exploration

Google peut ignorer (et ne pas explorer ou indexer) une page ou une section cruciale de votre site Web. Les journaux révéleront quelles URL et/ou répertoires reçoivent le plus et le moins d’attention. Si, par exemple, vous avez publié un e-book qui tente de se classer pour des requêtes de recherche ciblées, mais qu’il se trouve dans un répertoire que Google ne visite qu’une fois tous les six mois, vous n’obtiendrez aucun trafic de recherche organique de l’e-book. jusqu’à six mois.

Si une partie de votre site Web n’est pas explorée très souvent (et qu’elle est mise à jour assez souvent pour qu’elle le soit), vous devrez peut-être vérifier votre structure de liens internes et les paramètres de priorité d’exploration dans votre sitemap XML.

Date du dernier crawl

Avez-vous téléchargé quelque chose dont vous espérez qu’il sera indexé rapidement ? Les fichiers journaux vous indiqueront quand Google l’a exploré.

Budget d’exploration

Une chose que j’aime personnellement vérifier et voir est l’activité en temps réel de Googlebot sur notre site, car le budget d’exploration que le moteur de recherche attribue à un site Web est un indicateur approximatif – très approximatif – de combien il “aime” votre placer. Idéalement, Google ne veut pas perdre un temps précieux à explorer un mauvais site Web. Ici, j’avais vu que Googlebot avait fait 154 requêtes sur le site Web de notre nouvelle startup au cours des vingt-quatre heures précédentes. Espérons que ce nombre augmentera !

Comme j’espère que vous pouvez le voir, l’analyse des journaux est d’une importance cruciale dans le référencement technique. Il est onze heures. Savez-vous où se trouvent vos journaux ?

Ressources additionnelles

Analyse des fichiers journaux : l’outil le plus puissant de votre boîte à outils SEO (Tom Bennet de BrightonSEO)
Recherches SEO dans le journal de votre serveur (deuxième partie) (Tim Resnik sur Moz)
Identification des problèmes d’exploration de Googlebot via les journaux du serveur (David Sottimano sur Moz)
Plus d’informations sur les parties Logstash et Kibana de la pile ELK (Logz.io)

(Article traduit de moz.com)