Prospection rapide de sites à l’aide de mesures sociales et de traitement du langage naturel

Nous pouvons tous convenir qu’une grande perte de temps dans la création de liens de sensibilisation est la prospection de sites. Qui veut vraiment passer le temps de parcourir un tas de pages sur un site pour déterminer si le site en vaut la peine ? De plus, si vous suivez les principes «Jetez vos lettres types», vous recherchez du contenu sur le site d’un blogueur ou d’un webmaster qui vous intéresse afin de démarrer une conversation – mais cela prend également beaucoup de temps. Ce serait génial de mettre à l’échelle ce processus, n’est-ce pas? Maintenant, il y a une application pour ça.

J’ai eu l’idée que si je parcourais un site et faisais correspondre les URL avec des mesures sociales, puis utilisais le traitement du langage naturel pour comprendre les concepts de base de chaque page, je pourrais dire en un coup d’œil si un site vaut mon temps et quel contenu (si tout) est populaire. Remarque : j’ai délibérément laissé de côté les métriques de Linkscape car je ne pense pas que nous devrions gaspiller les appels d’API sur ce qui peut être de nombreuses pages sans valeur. Vous devez identifier les pages intéressantes et vous diriger vers Open Site Explorer. Ça sonne bien ? Ok, faisons ça !
Le traitement du langage naturel expliqué
Le traitement du langage naturel est une technique d’apprentissage automatique dans laquelle une application effectue de manière algorithmique une analyse de texte pour extraire les concepts de base et déterminer en fait le sujet d’une page. Ce type de distillation est le proxy entre le document écrit et la programmation pour permettre à un ordinateur de « comprendre » le contenu. Comme vous pouvez le deviner, c’est quelque chose que Google exploite fortement comme on peut le voir dans le brevet “Systems and Methods for Inferring Concepts for Association with Content” de 2004.
Il existe une variété d’API impressionnantes qui effectuent le traitement du langage naturel, mais pour cela, nous utiliserons Textwise simplement parce que c’est entièrement gratuit.
Pour illustrer comment cela fonctionne, utilisons le post super frais de Rand “12 éléments de conception créative inspirant la prochaine génération d’UX”. En l’exécutant via Textwise, vous obtenez les catégories et les balises de concept suivantes :
Bien sûr, Rand est un pro, il titre donc correctement ses articles. Par conséquent, les concepts “créatif”, “typographie” et “ux” ne sont pas une surprise ici, mais pour les écrivains moins avertis et les personnes qui écrivent de manière plus colorée, vous ne pourrez peut-être pas le dire. de quoi parle une page à partir du titre. Vous obtenez également une meilleure idée des mots-clés, des concepts ou des sujets qu’un ordinateur associera à une page donnée.
L’exemple suivant est une page de QN5 Music (divulgation complète : je fais de la musique avec ces gars et ils sont incroyables) où le titre “Merci pour une soirée incroyable” est quelque peu vague.
Le message est un récapitulatif de leur Megashow 2011 mais il n’y a pas de méta description, vous ne pourrez donc peut-être pas dire de quoi parle la page lors de la prospection à partir d’une feuille Excel générée par Screaming Frog. Couplons maintenant cela avec les concepts Textwise :
En un coup d’œil, vous pouvez deviner que la page concerne une sorte de performance musicale incroyable et que des marionnettes étaient impliquées. Vous auriez tort de penser que c’était de la musique rock, mais ce n’est que le don et la malédiction de l’ambiguïté des mots. En d’autres termes, au bout de 5 secondes, vous avez environ 90% de précision sur le sujet de la page sans jamais la regarder.
Votre nouveau meilleur ami SiteSkout
SiteSkout est un tout nouvel outil que j’ai écrit en PHP qui survole un site, récupère les métriques sociales, gratte le titre de la page et la méta description et pings Textwise pour les concepts et les catégories, puis vous montre toutes ces informations impressionnantes au fur et à mesure qu’elles se produisent, puis les exporte vers un CSV fichier à télécharger et Excel ninjitsu. (*époussette l’épaule*)
Il y a quelques options qui affecteront la vitesse à laquelle tout cela se produit. Vous pouvez faire en sorte qu’il spider un site à partir d’une URL donnée, tout comme vous le feriez avec Screaming Frog ou Xenu, mais soyez averti que le spidering à un seul thread est lent. Je vous suggère donc d’utiliser Screaming Frog pour votre spidering et de simplement vider les URL sur SiteSkout ou d’utiliser le sitemap HTML ou XML, car il ne fera qu’explorer ces URL à des fins de grattage au lieu de parcourir chaque lien en essayant de déterminer l’URL de chaque page sur le site.
Apportez votre propre API
Ainsi, bien que mon article “Utiliser les médias sociaux pour devancer la demande de recherche” ait peut-être sous-performé selon mes normes personnelles (seulement 49 pouces levés), j’ai appris une leçon précieuse – si vous mettez un outil sur la première page de SEOmoz, vous feriez mieux de tenir compte d’un nombre très élevé d’appels API.
Donc, pour SiteSkout, j’encourage les utilisateurs à apporter leurs propres clés API. L’outil est construit sur 4 clés donc il fonctionnera sans lui, mais pour assurer la stabilité, inscrivez-vous pour votre propre clé API Textwise.
  • Étape 1 : S’inscrire – Textwise a un processus d’inscription très simple, tout ce dont vous avez besoin est un nom et une adresse e-mail.
  • Étape 2 : Trouvez votre clé API – Votre clé API est cachée dans votre profil, récupérez-la et enregistrez-la quelque part comme un fichier texte.

  • Étape 3 : Branchez-le sur SiteSkout. SiteSkout créera un cookie pour votre API Textwise afin que vous n’ayez pas à la saisir à chaque fois que vous utilisez l’outil.
Applications
Ma devise est “tout ce qui est actionnable”, alors parlons de la façon dont ces données vous aideront à créer des liens plus efficaces.
Prospecter un site
L’application évidente est qu’elle vous aide à prospecter un site ; si vous mélangez ces données avec une exportation Screaming Frog, vous obtenez une vue macroscopique de ce qu’est le site en un coup d’œil, puis une vue microscopique de ce qu’est une page sans jamais visiter le site. Utilisez RECHERCHEV sur les URL et rassemblez toutes les données. Je suggérerais d’utiliser les balises d’en-tête, le niveau, les liens entrants, les liens sortants, les liens sortants externes et les colonnes de hachage de Screaming Frog de concert avec cela.
Si vous utilisez une exportation SiteSkout de concert avec la méthodologie de création de liens SEER OSE-Twitter (j’aime tellement cette méthode), vous pouvez rapidement déterminer qui vous suit mais n’a pas de lien vers vous et quelle page existante sur un site donné vous devriez demander un lien de.
Matériel de sensibilisation
À mes yeux, le vrai pouvoir réside dans le fait que vous avez maintenant facilement de quoi parler au webmaster/blogueur. Vous pouvez maintenant déterminer en un coup d’œil le contenu le plus populaire sur le site et la magie inhérente à cette preuve sociale fonctionne dans les deux sens. C’est-à-dire que si quelque chose est populaire, il est logique que vous contactiez l’écrivain à ce sujet. Votre cible de lien sera désarmée dans une certaine mesure car elle a très probablement reçu beaucoup d’éloges et de correspondance via les réseaux sociaux et les e-mails en raison de son contenu populaire. En bref, SiteSkout vous aide à éliminer l’aspect appel à froid de la création de liens.
Comme je le dis toujours, le contexte est roi !
J’aimerais entendre vos réflexions et vos réussites avec l’outil dans les commentaires ci-dessous ! Il y a forcément des bugs là-dedans, s’il vous plaît, contactez-moi sur Twitter (@ipullrank) si quelque chose ne va pas pour vous. Je continue à mettre à jour ces outils avec vos commentaires jusqu’à ce qu’ils fonctionnent parfaitement. De plus, cet outil n’est PAS un outil SEOmoz et toute erreur ou échec est de ma faute, pas de la merveilleuse équipe de développeurs du Mozplex, donc si vous rencontrez des problèmes, contactez-moi, pas eux.
(Article traduit de moz.com)
Quitter la version mobile