Crawl budget : analyser Googlebot via logs Nginx et Apache

5 février 2026

comment Aucun commentaire

Par referencement seo

L’analyse des logs serveurs révèle le comportement réel de Googlebot sur votre site web et son impact SEO. Examiner les fichiers de logs Nginx ou logs Apache permet d’identifier les chemins de crawl, les erreurs et les ressources consultées.

La préparation inclut extraction, nettoyage et identification des user‑agents pour obtenir des données exploitables. Des outils comme Screaming Frog, OnCrawl et SEOlyzer accélèrent l’analyse des logs et facilitent l’optimisation crawl.

A retenir :

  • Analyse des logs Nginx et logs Apache pour cartographie du crawl
  • Identification des user-agents Googlebot mobile et Googlebot desktop vérifiés
  • Repérage des erreurs 4xx et 5xx impactant l’indexation et la fréquence de crawl
  • Optimisation robots.txt, balises meta robots et performances serveur pour gestion du budget crawl

Pour bien démarrer : extraction et préparation des logs Nginx et Apache

Pour exploiter ces éléments, la phase d’extraction et de préparation des logs est fondamentale. Sur Apache, les fichiers courants résident souvent dans le répertoire /var/log/apache2 selon les distributions, tandis que pour Nginx le chemin standard est fréquemment /var/log/nginx.

Le nettoyage supprime les requêtes internes et les assets peu informatifs pour alléger l’analyse et concentrer les efforts. Il est essentiel de conserver l’adresse IP, la date, l’heure, la méthode HTTP et l’URL demandée pour corrélation fiable.

A lire également :  Comment prioriser les actions techniques SEO selon leur impact ?

Type de fichier Emplacement par défaut Champs clés
Access log /var/log/apache2/access.log ou /var/log/nginx/access.log IP, date, requête, code HTTP, user-agent
Error log /var/log/apache2/error.log ou /var/log/nginx/error.log Messages d’erreur serveur, traces de processus
Exemple de champs Formats communs Common/Combined IP, heure, méthode, URL, statut, taille, referrer
Outils recommandés Screaming Frog, OnCrawl, SEOlyzer Import CSV, filtres, visualisations

Vérifier les formats et concaténer les fichiers facilite l’import vers les outils d’analyse. Selon Screaming Frog, une normalisation préalable réduit les faux positifs et accélère la cartographie des visites.

Vérifications fichiers logs :

  • Présence des champs IP, date, requête, statut et user-agent
  • Horodatage cohérent pour corrélation entre sources
  • Séparation claire des logs d’accès et d’erreurs
  • Compression et archivage pour conservation des historiques

Extraction pratique des logs Apache et Nginx

Cette sous-partie détaille les étapes pour récupérer des logs exploitables depuis le serveur. Il faut centraliser les fichiers, vérifier les permissions et automatiser l’archivage pour préserver l’historique.

Automatiser l’extraction via scripts ou outils évite les erreurs manuelles et garantit une fréquence d’analyse régulière. Selon OnCrawl, l’automatisation permet de détecter plus rapidement les anomalies de crawl.

Vérifications fichiers logs :

  • Accès root ou utilisateur avec droits de lecture sur le répertoire logs
  • Horodatage synchronisé avec NTP pour corrélations temporelles
  • Rotation des logs configurée pour éviter perte de données
  • Backups réguliers et contrôles d’intégrité
A lire également :  Les erreurs techniques SEO les plus fréquentes à éviter

« J’ai automatisé l’extraction et j’ai réduit de moitié le temps d’analyse hebdomadaire. »

Marc L.

Importer proprement les logs dans un outil facilite la séparation des visites utilisateur et des robots. Cette pratique prépare l’étape suivante d’identification des user-agents et des faux Googlebots.

Après l’extraction : identification de Googlebot et cartographie des chemins de crawl

Après l’extraction, l’identification des user-agents permet de distinguer Googlebot des autres visiteurs et d’isoler les faux bots. Google utilise des user-agents distincts pour la version mobile et la version desktop du robot.

La vérification par reverse DNS confirme l’appartenance des adresses IP à Google et évite les faux positifs dans l’analyse. Selon Google Search Central, cette méthode reste la plus fiable pour valider un Googlebot authentique.

Liste des user-agents observés :

  • Googlebot/2.1 pour crawl desktop et vérifications générales
  • Googlebot-Mobile pour priorisation mobile et rendu mobile-first
  • Autres crawlers connus identifiés par patterns user-agent
  • Bots suspects nécessitant reverse DNS et vérification IP

Cartographier les chemins de crawl privilégiés

Cette partie montre comment repérer les chemins que Googlebot emprunte le plus souvent sur le site. Il faut agréger les URL les plus visitées par période et repérer les sections négligées ou trop explorées.

En cartographiant le crawl, on identifie les pages stratégiques et celles à renforcer via internal linking. Selon Screaming Frog, la cartographie aide à rediriger efficacement le budget crawl vers le contenu prioritaire.

A lire également :  Les meilleures pratiques pour optimiser le temps de réponse serveur

Chemin de crawl Indice d’exploration Action recommandée
/blog/ Élevé Prioriser l’indexation et surveiller les mises à jour
/produits/ Moyen Renforcer liens internes et optimiser vitesse serveur
/forum/ Faible Vérifier accessibilité et directives robots.txt
/assets/ Trop exploré Bloquer via robots.txt pour économiser le budget crawl

« Après vérification DNS, nous avons éliminé plusieurs faux Googlebots et amélioré la qualité des données. »

Clara B.

L’analyse des chemins prépare la phase d’optimisation du budget crawl en identifiant où agir en priorité. L’étape suivante consiste à transformer ces constats en actions concrètes sur robots.txt et performances serveur.

À partir des insights : optimisation du crawl budget et indexation

À partir de l’analyse des comportements de Googlebot, on peut optimiser le crawl budget et améliorer l’indexation des pages stratégiques. Les leviers principaux sont le réglage du fichier robots.txt, l’usage des balises meta robots et l’amélioration des performances serveur.

Un robots.txt bien conçu évite le sur-crawl des ressources peu utiles et conserve le budget pour les pages importantes. Selon OnCrawl, limiter l’exploration des assets statiques est souvent un gain immédiat pour les sites volumineux.

Actions recommandées pour optimisation :

  • Bloquer assets lourds non critiques via robots.txt pour économiser le budget crawl
  • Utiliser meta robots noindex pour pages non stratégiques
  • Optimiser temps de réponse serveur pour encourager des visites plus longues
  • Augmenter fréquence de crawl via Search Console pour pages fréquemment mises à jour

Mesurer l’impact et itérer

Mesurer l’impact des actions passe par le suivi des variations de fréquence de crawl et des taux d’indexation. Il convient de comparer les périodes avant et après optimisation pour évaluer les effets concrets sur l’indexation.

Exemples concrets incluent réduction des erreurs 5xx et augmentation de pages indexées suite à optimisation serveur. Selon Google Search Central, un serveur réactif favorise une exploration plus profonde et régulière par Googlebot.

« L’amélioration de la latence serveur a doublé notre profondeur d’exploration en quelques semaines. »

Paul N.

Pour aller plus loin, documenter les changements et conserver les logs historiques aide à identifier tendances et régressions. Les sources ci-dessous permettent d’approfondir les techniques et d’adapter la méthode à votre infrastructure.

Source : Screaming Frog, « How to analyse log files », Screaming Frog Blog, 2022 ; OnCrawl, « Log analysis for SEO », OnCrawl Blog, 2021 ; Google, « About crawl budget », Google Search Central, 2020.

Articles sur ce même sujet

Laisser un commentaire