Créez votre propre graphique de pages explorées par jour à partir des journaux du serveur

Simonmars 31, 2021

0 149 4 minutes de lecture

Google Webmaster Tools a une fonction populaire appelée “Pages explorées par jour”. Cette fonction peut vous montrer combien de pages Googlebot explore chaque jour en vous présentant un graphique simple.

Cet outil est génial car l’exploration d’une certaine manière peut déterminer l’indexation de votre site, il est donc toujours important de savoir dans quelle mesure votre site est exploré.

Mais évidemment, Google n’est pas le seul moteur de recherche sur cette planète – en me prenant comme exemple, je fais du référencement chinois donc je dois aussi regarder Baidu, Yahoo TW, et d’autres moteurs de recherche chinois.

Donc, tout comme moi, beaucoup d’entre vous peuvent également avoir besoin de connaître les données de pages explorées par jour pour d’autres moteurs de recherche, et ce qui est mieux, obtenir un graphique simple comme celui de Google.

D’accord, aujourd’hui, je vais partager avec vous une manière simple dont j’ai fait cela, et je suis sûr que vous l’aimerez :

Un peu de préparation :

Un fichier journal du serveur Linux, Cygwin et Microsoft Excel.

Cygwin est principalement utilisé pour gérer les journaux du serveur. J’utilise un système Windows 7 Basic à la maison, j’utilise donc Cygwin pour y implémenter directement des commandes Linux. Si vous utilisez un système d’exploitation Linux, vous n’avez pas besoin de l’installer.

Quant au fichier journal du serveur, vous pouvez simplement le télécharger depuis votre serveur (duh, c’est pourquoi on l’appelle un “journal du serveur”…).

Commençons:

Bien que cette méthode soit destinée à créer un graphique de statistiques de crawl pour d’autres moteurs de recherche que Google, nous prendrons toujours Google comme exemple ici, afin que vous puissiez comparer votre propre graphique avec celui de Google Webmaster Tools.

1. Utilisez Cygwin pour gérer les journaux du serveur :

Nous utilisons la commande “grep” dans Cygwin comme suit :

grep “www.google.com/bot.html” votrejournalduserveur.log |awk ‘{print $4 “\t” $7}’ > googlebot.txt

En utilisant la ligne de commande “grep” ci-dessus, nous extrayons les 4ème et 7ème valeurs de toute ligne contenant “www.google.com/bot.html” du fichier journal du serveur “yourserverlog.log”, et les mettons dans un nouveau fichier appelé googlebot.txt .

Cygwin et GREP

Vous vous demandez peut-être quelles sont les 4e et 7e valeurs. Dans une ligne d’un journal de serveur Linux standard, la 4e valeur est la date de visite et la 7e valeur est l’URL visitée. Nous voulons savoir combien de pages sont explorées par jour afin que seules les dates et les URL comptent pour nous.

Une ligne originale dans un journal de serveur Linux ressemble à :

66.249.72.50 – – [01/Apr/2011:01:32:59 +0800] “GET /sitemap HTTP/1.1” 200 4166 “-” “Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)”

Après avoir été manipulé par la ligne de commande grep ci-dessus, nous obtenons :

[01/Avr/2011:01:32:59/plandusite[01/Apr/2011:01:32:59 /sitemap

Ainsi, après avoir implémenté cette commande, nous obtenons un fichier texte propre contenant uniquement les dates et les URL que nous pouvons utiliser ultérieurement dans Excel pour créer le graphique dont nous avons besoin.

Je ne sais pas combien d’entre vous ont été tués par la ligne de commande Linux jusqu’à présent. (Quand j’ai expliqué cela à un de mes clients, son expression m’a dit qu’il avait regretté d’avoir demandé…)

Cela peut être un peu difficile pour ceux qui ne connaissent pas Linux, mais croyez-moi, ce n’est pas si difficile que vous le pensez, et la bonne nouvelle est que nous n’avons plus rien à faire concernant Linux à partir de maintenant.

2. Importez le fichier googlebot.txt dans Excel et créez le graphique :

Nous devons d’abord importer le nouveau fichier googlebot.txt dans Excel. Lors de l’importation, vous devez faire attention à deux choses :

Pour “Choisissez le type de fichier qui décrit le mieux vos données”, nous choisissons “Délimité” ;
Pour “Delimiters”, nous sélectionnons “Tab” ici.

Ainsi, dans Excel, nous obtenons une feuille de données à deux colonnes. La première colonne est l’heure et la seconde est l’URL.

Heure et URL

La première colonne contient les temps détaillés dont nous n’avons pas besoin, donc ici nous utilisons le Fonction MID dans Excel pour les éliminer :

1. Insérez une nouvelle colonne et nommez-la “Date”

2. Sélectionnez A3, puis insérez la fonction MID, et dans la fenêtre de la fonction MID, sélectionnez “B3” avec le numéro de départ de “2” et le nombre de caractères de “6” ;

Fonction Excel MID

3. Maintenant, A3 est les données de date pures, maintenant nous le faisons glisser vers le bas pour remplir les autres cellules de la colonne A et masquer la colonne B ;

Date et URL

4. Utilisez la fonction “sous-total” pour calculer le nombre d’URL crawlées chaque jour : sélectionnez la ligne “Date” pour “A chaque changement de”, “Compte” pour “Utiliser la fonction” et “URL” pour “Ajouter un sous-total à ” ;

Total

alors on obtient ceci :

tableur de sous-totaux

5. Ciblez les cellules visibles et copiez-les et collez-les dans une nouvelle feuille de calcul ;

Nouvelle feuille

6. Créez le graphique.

pages crawlées par jour graphique

Nous avons maintenant notre propre tableau des pages explorées par jour. Vous pouvez le comparer avec celui de Google, et si vous le faites correctement, ils ne seront que très légèrement différents. S’ils sont très différents mais que vous êtes sûr de bien le faire, faites-vous confiance et laissez Google s’en aller….

J’espère que la plupart d’entre vous trouveront cet article intéressant et utile, et si vous avez d’autres bons moyens d’exploiter les journaux du serveur, je serais très heureux de le savoir.

(Article traduit de moz.com)

Simonmars 31, 2021

0 149 4 minutes de lecture