01.40.09.13.31
Actualités SEO

Crawl Google : Tout Comprendre sur l’Exploration de votre Site

Publié le 12 juillet 2022 par Bruno

Les robots des moteurs de recherche – et notamment Google – analysent sans cesse les sites Internet pour en savoir plus sur leur contenu et savoir comment les classer les uns par rapport aux autres. Cette exploration des différentes pages de votre site s’appelle un crawl Google. Cette activité représente un élément clé du SEO car la façon dont les crawlers analysent votre site déterminent votre positionnement dans les moteurs de recherche.

Qu’est-ce que le crawl google ?

Données structurées, Core Web Vitals, crawl Google… Autant de concepts qu’il est essentiel d’appréhender pour améliorer le SEO de votre site. Le crawl Google correspond à l’exploration des pages de votre site Internet par les robots des moteurs de recherche.

Cette exploration permet aux robots de recueillir des informations sur votre site et de classer votre site par rapport aux autres sites. Elle est donc primordiale pour le SEO car la réussite du crawl Google a un impact majeur sur votre positionnement dans les résultats de recherche. Il y a deux axes principaux à considérer lorsqu’on parle de crawl Google :

5 Things You Didn't Know About the Googlebot

  • Le contenu exploré par les robots : Qu’est-ce que les crawlers vont trouver sur votre site ? Est-ce en accord avec les produits ou services que vous proposez ? Est-ce que cela correspond à ce qui est recherché par les internautes ?
  • La facilité à accéder à ce contenu : Les robots peuvent-ils facilement accéder aux pages clés de votre site ? Sont-ils bloqués à cause de problèmes techniques ou rebutés par une vitesse de chargement trop lente ?

Autant d’aspects à considérer pour l’optimisation de votre site.

Ce qu’il est essentiel de comprendre, c’est que les robots ne disposent que d’un temps et de ressources limitées pour explorer votre site. Avec 1,8 milliards de sites Web dans le monde, vous comprenez bien que Google ne peut pas s’attarder outre-mesure sur chaque site.

Cette réalité aboutit à un autre concept-clé : le budget crawl. Celui-ci correspond au nombre de pages de votre site explorées par Google chaque jour.

Quels sont les critères pris en compte par les robots ?

Les crawlers prennent en compte différents critères lors de leur passage sur votre site, voici les plus importants :

  • Contenu de la page
  • Pertinence par rapport à la requête de l’internaute
  • Performances techniques du site : vitesse du site, structure de la page, ergonomie…
  • Information personnelles des internautes : langue, lieu

Google annonce la limite de crawl d’un fichier HTML à 15 Mo

Ces derniers jours, Google a mis à jour sa documentation pour indiquer que le Googlebot ne crawlerait que les 15 premiers Mo de chaque page explorée. En réalité, il existait déjà un seuil de 10 Mo auparavant, mais cette annonce a provoqué beaucoup de réactions du côté des webmasters. Alors, qu’en est-il vraiment et qu’est-ce que cela signifie pour votre site ?

Cela veut dire qu’au-delà de 15 Mo, le contenu de votre page ne sera pas analysé par le Googlebot et que seuls les 15 premiers Mo seront transmis à l’indexaation.

Voici les propos officiels de Google :

« Googlebot peut explorer les 15 premiers Mo de contenus dans un fichier HTML ou un fichier texte compatible. Au-delà des 15 premiers Mo de fichier, Googlebot arrête l’exploration et ne prend en compte que les 15 premiers Mo de contenus pour l’indexation. »

En général, la plupart de vos pages ne devraient pas représenter plus de 15 Mo. Cela vous permet de proposer une expérience optimale aux visiteurs de votre site. Mais désormais, vous avez une limite précise du contenu que les crawlers analyseront sur chacune de vos pages. En pratique, cela ne change pas grand-chose pour vous car il existe peu de pages dont la taille est supérieure à 15 Mo. Si jamais vous en possédez quelques-unes, discutez avec votre développeur de la possibilité de déplacer certains scripts et éléments CSS vers des fichiers externes.

Comment améliorer le budget crawl sur son site ?

Il faut savoir que le Googlebot – les robots de Google – ne traite pas tous les sites de la même façon. Lorsqu’il explore votre site, il prend garde à ne pas atteindre les limites de votre serveur, afin de ne pas dégrader l’expérience utilisateur pour les internautes qui sont sur votre site. Ainsi, dès qu’il sent une limite côté serveur, il arrête de crawler votre site. De ce fait, son passage ne dégrade pas l’expérience de vos visiteurs, mais… Si votre serveur est peu performant, le Googlebot n’analysera qu’un nombre limité de pages sur votre site. Certaines de vos pages risquent de ne pas être ‘considérées’ par Google. Le risque, c’est qu’elles n’apparaitront pas dans les résultats de recherche.

GoogleBot User Agent's Update Rolls Out in DecemberL’élément numéro 1 pour faciliter l’exploration de votre site par les moteurs de recherche, c’est donc d’avoir un serveur performant. Celui-ci doit pouvoir supporter un certain nombre de connexions simultanées possibles et permettre un crawl régulier du site. N’oubliez pas que l’objectif final est d’augmenter le temps passé par les crawlers sur le site.

Le second élément à avoir en tête pour améliorer votre budget de crawl, c’est qu’il faut prioriser les pages qui doivent être analysées par les crawlers. Si la hiérarchie n’est pas claire entre vos différentes pages, les crawlers risquent de s’éparpiller et de passer trop de temps sur des pages peu prioritaires en termes business – au détriment des pages les plus importantes.

Comment savoir si Google crawle mon site ?

La meilleure façon d’obtenir des informations sur la façon dont Google crawle votre site est de vous rendre dans le rapport de la Search Console. En accédant à l’onglet Paramètres puis à la rubrique Statistiques sur l’exploration, vous obtiendrez des éléments capitaux pour comprendre les explorations de votre site effectuées par les robots.

Vous pouvez ainsi découvrir le nombre total de demandes d’exploration de votre site par Googlebot sur les 90 derniers jours. Le temps de réponse moyen du serveur est aussi un indicateur clé à considérer : plus votre temps de réponse est bas, plus le nombre d’explorations de votre site est susceptible d’augmenter.

Dans la rubrique Couverture, vous pouvez aussi retrouver des informations sur les pages de votre site auxquelles les robots n’ont pas pu accéder. Cela est important surtout lorsque les erreurs concernent des pages clés de votre site. Si les robots Google ne peuvent pas y accéder, la visibilité sur ces pages risque de décroitre, au détriment de votre business. Vous connaitrez aussi le nombre de pages de votre site indexées, c’est-à-dire reconnues par Google. Pour aider Google à savoir quelles sont les pages qu’il doit considérer, n’oubliez pas de les ajouter dans votre sitemap.

Quelles sont les pratiques pour obtenir un crawl Google efficace ?

Il existe quelques astuces indispensables à mettre en place pour éviter que le crawl Google ne desserve votre site :

Nouveau Google PageSpeed Insights

  • Ne pas suroptimiser vos articles : Ne tentez pas de hacker les robots en mettant trop de mots-clés dans vos contenus et en mettant tous vos mots-clés en gras. Google sait très bien reconnaitre le spam.
  • Ne pas copier pas le même contenu sur différentes pages : Si les crawlers détectent du contenu dupliqué sur vos pages, il réduira leur visibilité car il jugera le contenu non pertinent.
  • Travailler la vitesse de votre site : Le temps de chargement de votre site est un élément clé pour favoriser une bonne exploration de votre site. Plus le temps de réponse de votre site sera faible – et notamment le temps de réponse serveur -, plus le nombre d’explorations est susceptible d’augmenter.

Voilà, c’est tout pour notre introduction au crawl Google. Gardez en tête que la façon dont les robots des moteurs de recherche voient votre site est essentielle pour augmenter votre visibilité dans les résultats de recherche. Plus le contenu que vous proposez est pertinent et plus vos pages sont accessibles et optimisées, plus les robots indexeront vos pages.

Si vous voulez mieux comprendre le crawl de votre site, il est nécessaire de réaliser un audit de log seo pour saisir le parcours des moteurs. Nous pouvons vous proposer ces analyses si nécessaire. Contactez-nous et nous vous expliquerons comment optimiser votre budget crawl.

Améliorez vos connaissances en webmarketing Digital

Stratégie et techniques d’acquisition en SEA, SEO et sur les réseaux sociaux. Reussissez vos synergies cross canal. AEP Digital vous propose des conseils pour réussir votre stratégie webmarketing

Les Actualités SEO par AEP/Digital