Sitemap cleaner

L'application « Sitemap Cleaner » vous permet de configurer un nettoyage automatique et planifié de vos sitemaps. Elle supprime les URLs invalides selon des règles précises et génère un nouveau fichier sitemap prêt à soumettre dans la Search Console.

Le tutoriel en vidéo

Comment utiliser l'application Sitemap Cleaner ?

Pour utiliser l'application « Sitemap Cleaner », c'est simple 😉

1. Connectez-vous à notre solution EdgeSEO puis cliquez sur l'app.
2. Cliquez sur le bouton « Ajouter un Sitemap ».
3. Renseignez les options de configuration (détaillées ci-dessous 👇).
4. Cliquez sur « Sauvegarder ».
5. Après le premier nettoyage, récupérez l'URL du sitemap nettoyé depuis la page d'accueil et soumettez-la dans la Search Console.

Les options de configuration

Sitemap (URL source)

keyboard_arrow_down

Le champ « Sitemap » permet d'indiquer l'URL du sitemap que vous souhaitez nettoyer.
Ce champ est obligatoire.

Option 5xx

keyboard_arrow_down

L'option 5xx permet de supprimer automatiquement du sitemap toutes les URLs qui répondent avec un code d'erreur serveur.
Les status codes concernés sont : 500, 503 et 504.

Quand l'activer ?
Cochez cette option si vous souhaitez exclure les pages indisponibles côté serveur. Une URL en 5xx dans votre sitemap indique à Google une page potentiellement existante mais inaccessible, ce qui peut dégrader votre budget crawl.
Exemple de résultat

Option 301

keyboard_arrow_down

L'option 301 permet de supprimer automatiquement du sitemap toutes les URLs qui font l'objet d'une redirection permanente.
Le status code concerné est : 301.

Quand l'activer ?
Cochez cette option si vous souhaitez exclure les URLs redirigées. Une URL en 301 dans votre sitemap oblige Google à suivre la redirection avant d'accéder à la page finale, ce qui consomme inutilement du budget crawl. Votre sitemap doit idéalement ne contenir que des URLs canoniques répondant en 200.

Option 404

keyboard_arrow_down

L'option 404 permet de supprimer automatiquement du sitemap toutes les URLs qui ne renvoient aucune page existante.
Le status code concerné est : 404.

Quand l'activer ?
Cochez cette option pour exclure les pages introuvables. C'est l'option la plus critique : soumettre des URLs en 404 à Google signale des pages mortes et dégrade la perception de la qualité de votre site. Cette option est recommandée dans la très grande majorité des cas.

Option Meta robot noindex

keyboard_arrow_down

L'option Meta robot noindex permet de supprimer automatiquement toutes les URLs dont la page contient une balise <meta name="robots" content="noindex">.

Quand l'activer ?
Une page taguée noindex ne doit pas être soumise à Google dans un sitemap — c'est un signal contradictoire : vous demandez à Google de ne pas indexer la page tout en la signalant comme importante via le sitemap. Cochez cette option pour garantir la cohérence entre vos directives d'indexation et votre sitemap.

Option Canonical

keyboard_arrow_down

L'option Canonical permet de supprimer automatiquement toutes les URLs dont la balise <link rel="canonical"> pointe vers une URL différente de la page elle-même.

Quand l'activer ?
Une URL non-canonique dans votre sitemap envoie là encore un signal contradictoire à Google : vous soumettez une URL tout en indiquant que son contenu de référence est ailleurs. Cochez cette option pour ne conserver dans votre sitemap que les URLs qui s'auto-canonicalisent correctement.

Transformations d'URLs

keyboard_arrow_down

Cette section vous permet de modifier automatiquement le format des URLs présentes dans votre sitemap avant qu'il ne soit généré. Ces options sont particulièrement utiles pour corriger des incohérences techniques sans toucher au sitemap source.

Convertir HTTP en HTTPS
Cette option convertit automatiquement toutes les URLs en http:// vers leur équivalent https:// dans le sitemap nettoyé.

Quand l'activer ?
Si votre sitemap source contient encore des URLs en HTTP alors que votre site est en HTTPS, cochez cette option pour corriger l'incohérence sans avoir à régénérer votre sitemap côté CMS.

Convertir les URLs relatives en absolues

keyboard_arrow_down

Cette option transforme automatiquement les URLs relatives en URLs absolues dans le sitemap nettoyé.

Quand l'activer ?
Certains CMS génèrent des sitemaps contenant des chemins relatifs (ex : /produit/skateboard). Google attend des URLs absolues dans un sitemap. Cochez cette option pour corriger ce comportement sans intervention technique.

Uniformiser les URLs avec/sans www

keyboard_arrow_down

Cette option normalise toutes les URLs de votre sitemap pour qu'elles utilisent uniformément la même version de votre domaine (avec ou sans www).

Quand l'activer ?

Si votre sitemap source contient un mélange d'URLs avec et sans www, cochez cette option pour garantir la cohérence du fichier soumis à Google et éviter tout signal de duplication.

Paramètres de planification

keyboard_arrow_down

Jour
Le sélecteur « Jour » permet de définir le ou les jours de la semaine auxquels le nettoyage automatique s'exécutera.
Recommandation : pour un catalogue e-commerce qui évolue fréquemment, planifiez le nettoyage quotidiennement. Pour un site plus stable, 1 à 2 fois par semaine est suffisant.

Heure et Minute
Les champs « Heure » et « Minute » permettent de définir l'heure précise d'exécution du nettoyage.
Recommandation : planifiez le nettoyage tôt le matin (ex : 3h00), avant le passage habituel des bots de crawl, pour que le sitemap propre soit disponible dès le début de la journée d'exploration.

Paramètres avancés

keyboard_arrow_down

Limite de requêtes (req/min)
Le champ « Limite de requêtes » permet de définir le nombre maximum de requêtes par minute que le crawler de Sitemap Cleaner enverra vers votre serveur lors de l'analyse du sitemap.
La valeur doit être comprise entre 300 et 600 req/min. La valeur par défaut est 300.

Quand le modifier ?
Conservez la valeur par défaut (300) dans la majorité des cas. Augmentez cette limite uniquement si votre infrastructure peut absorber une charge plus élevée et que vous souhaitez accélérer l'analyse de sitemaps de grande taille. À l'inverse, si votre hébergement est sensible à la charge, maintenez la valeur basse pour éviter tout impact sur la disponibilité du site pendant l'exécution.

Concurrence

keyboard_arrow_down

Le champ « Concurrence » permet de définir le nombre de requêtes simultanées envoyées lors de l'analyse du sitemap.
La valeur doit être comprise entre 10 et 1000. La valeur par défaut est 10.

Quand le modifier ?
Une concurrence élevée accélère l'analyse en vérifiant plusieurs URLs en parallèle. Augmentez cette valeur si vous avez un sitemap très volumineux et une infrastructure stable. Réduisez-la si vous constatez des timeouts ou des erreurs 5xx lors des exécutions, ce qui peut indiquer que votre serveur est saturé par les requêtes simultanées.

Analyser et piloter la santé de vos sitemaps

Sitemap Cleaner intègre un module d'analytics pour monitorer en continu la qualité de vos sitemaps au fil des exécutions.

Les métriques disponibles
À chaque exécution, vous visualisez :

1. URLs analysées : Nombre total d'URLs présentes dans le sitemap source
2. URLs conservées : Nombre d'URLs valides conservées dans le sitemap nettoyé
3 - URLs supprimées : Nombre d'URLs retirées, toutes typologies confondues
4 - Répartition par erreurVolume de suppressions par type : 404, 301, 5xx, noindex, canonical

L'évolution dans le temps
Le graphique d'évolution vous permet de suivre la tendance d'un nettoyage à l'autre.

1. Hausse soudaine des suppressions : Incident de production, purge catalogue non maîtrisée, dégradation serveur
2. Baisse progressive des suppressions : Assainissement en cours, qualité du catalogue qui s'améliore
3. Stabilité des métriques : Flux sous contrôle, sitemap de qualité constante

L'historique des nettoyages
L'historique conserve les dernières exécutions avec leur statut, le volume d'URLs traitées et la taille finale du sitemap généré exploitable pour vos reportings internes ou vos échanges avec l'IT.