Le crawl

Qu’est-ce qu’un crawl ?

Le crawl est le processus utilisé par les moteurs de recherche pour explorer le contenu des pages web. Grâce à des programmes automatisés appelés "crawlers" qui naviguent d’une URL à l’autre, découvrant et analysant les contenus pour les rendre disponibles dans les pages de résultats de recherche.

Le crawl est la première étape nécessaire pour faire du SEO : si personne ne vient explorer votre site aucune chance qu'il remonte un jour dans un moteur de recherche.

Qu’est-ce qu’un crawler ?

Un crawler, également connu sous le nom de spider ou robot d'exploration, est un programme qui suit les liens sur les pages web pour en découvrir d’autres et collecter des informations. Il s'agit du premier pas vers l’indexation.

Exemples de crawlers célèbres

Nom du Crawler	Propriétaire	Fonction	Utilisation Principale
Googlebot	Google	Explore les pages web pour indexation dans Google Search	Moteur de recherche, SEO
Screaming Frog	Screaming Frog SEO Spider	Simule un crawl pour analyser les sites web	SEO technique, audit de site
Bingbot	Microsoft	Explore les pages web pour indexation dans Bing Search	Moteur de recherche, SEO
DuckDuckBot	DuckDuckGo	Explore les pages pour alimenter le moteur de recherche DuckDuckGo	Recherche respectueuse de la vie privée
AhrefsBot	Ahrefs	Collecte des données pour des outils de SEO et d’analyse de backlinks	Analyse de backlinks, SEO
YandexBot	Yandex	Explore les pages pour le moteur de recherche Yandex	Moteur de recherche populaire en Russie

Comment ça fonctionne un crawler ?

Un crawler fonctionne de manière similaire à un navigateur web classique, mais avec quelques différences essentielles notamment le fait qu'il soit amnésique (stateless) : il ne retient pas l'état d'une page à l'autre. Par contre contrairement à une croyance répandue chez les SEO les crawlers "comprennent" visuellement les pages.

Analogie avec une toile d’araignée

Imaginez que chaque page web est une intersection sur une toile. Les liens entre les pages représentent les fils qui relient ces intersections. Le crawler suit ces fils pour explorer la toile entière, page après page.

Le rôle du PageRank

Google utilise un algorithme appelé PageRank pour décider quelles URL explorer en priorité. Les pages les plus importantes ou les mieux reliées sont souvent explorées plus fréquemment. Cela signifie que vos pages stratégiques doivent être bien intégrées dans la structure de votre site.

C’est quoi le budget de crawl ?

Le budget de crawl est la quantité de ressources qu’un moteur de recherche alloue à l’exploration de votre site. Cela dépend de deux facteurs principaux :

La capacité de votre serveur : Si votre site répond lentement, Googlebot ralentira son exploration pour éviter de le surcharger.
L’intérêt de votre contenu : Google priorise les pages susceptibles d’avoir de la valeur pour les utilisateurs.

Si votre site possède de nombreuses pages inutiles ou de faible qualité, elles peuvent consommer votre budget de crawl, au détriment des pages importantes.

Comment améliorer le crawl de mon site ?

1. Donner à Google des raisons de venir

Publiez du contenu régulièrement.
Faites des mises à jour sur les pages existantes.
Créez des liens internes vers vos nouvelles pages.

2. Montrez de la stabilité à Google

Assurez-vous que votre site charge rapidement et ne retourne pas d’erreurs (HTTP 500 ou 404).
N'oubliez pas de renouveler vos noms de domaines
Maintenez une structure logique et cohérente.

3. Ne pas bloquer le crawl

Vérifiez votre fichier robots.txt pour ne pas bloquer accidentellement des pages essentielles.
Certaines pages sont utile pour le crawl mais sans valeur SEO, c'est le cas la pagination, il faut laisser les crawlers les explorer

4. Simplifiez la vie de Google en lui donnant des indices

Fournissez un sitemap XML à jour pour guider les crawlers.
Utilisez des données structurées (schema.org) pour aider les moteurs à comprendre votre contenu.
Optimisez vos liens internes pour diriger les crawlers vers vos pages importantes.

‍