Pourquoi lancer un crawl SEO en excluant des liens ?

L'outil Crawl SEO Custom, vous l'avez compris, vous permet de lancer un outil de crawl sur une copie "miroir" de votre site, en excluant la prise en compte de liens présents dans certaines zones de vos pages. Comment ça marche ? Assez simplement : l'outil récupère l'URL de la page à copier, en aspire le contenu, supprime les liens des zones indiquées, modifie les URLs des liens pour qu'elles restent dans son giron et affiche le HTML modifié. En gros, il simule votre site sans ces zones exclues.

A quoi sert un crawl en SEO ?

Arborescence moteur

L'étude on-site en SEO se fait sur de nombreux éléments internes qu'un crawl va révéler. Un des éléments importants est son arborescence moteur, c'est à dire la structure des pages et des liens qui les relient telles que le moteur de recherche la recense. Cette analyse permet notamment de vérifier, déjà, que tous vos contenus lui sont accessibles par crawl, et également de voir si la structure obtenue correspond à ce que vous souhaitez (silos thématiques ordonnés ou bordel généralisé)

Distribution interne du PageRank

Une métrique importante est également à étudier lorsqu'on analyse les parcours de crawl d'un moteur, il s'agit de la transmission interne du pageRank.

Lorsque ce pageRank se transmettait de façon équivalente quel que soit le lien (modèle du Surfeur aléatoire), la chose était simple à réaliser; mais depuis que le PageRank intègre le modèle du surfer raisonnable, les liens n'ont pas la même valeur selon la zone de la page dans laquelle ils sont placés. Les zones itératives (menu de navigation, pied de page, sidebar, etc.) transmettent donc moins de PageRank que des liens présents dans des contenus "singuliers" du site.

Et donc, pourquoi un crawl custom en SEO ?

C'est simple. En excluant certains liens, vous pouvez :

  • Simuler une obfuscation de liens

    En crawlant votre site comme si certaines zones étaient obfusquées, vous pouvez directement voir ce que donnerait l'arborescence moteur et la distribution du PageRank interne sans avoir à mettre en place cette obfuscation. Vous pouvez alors tester différentes configurations, visualiser le rendu et choisir la meilleure option.

  • Avoir une approche plus "raisonnable" du PageRank interne

    En analysant la distribution du pageRank interne uniquement via les liens situés dans la partie centrale de vos pages, vous aurez une estimation de cette distribution, davantage basée sur le modèle du surfer Raisonnable plutôt qu'Aléatoire. Une approche plus proche de la réalité de Google, donc.
    (Entendons-nous, c'est évidemment une approche grossière : la pondération de la transmission de pagerank en fonction de l'emplacemnt du lien est évidemment plus précise que 0 ou 1).

Ok on y va