Générateur de sitemap.xml

Installer le paquet :
# apt-get install google-sitemapgen

Se placer dans le répertoire du site :
# cd /var/www/site/

Récupérer le fichier de config :
# cp /usr/share/doc/google-sitemapgen/examples/example_config.xml.gz .

Dézipper :
# gunzip -d example_config.xml.gz

Renommer :
# mv example_config.xml sitemap_config.xml

Paramétrer le fichier de conf :
# vi sitemap_config.xml

1) Définir les paramètres généraux :

<site base_url="http://www.site.com/"
store_into="/var/www/site/sitemap.xml"
verbose="1"
sitemap_type="web">

 
2) Ajouter manuellement des urls qui ne bougeront jamais.

3) Définir une liste d’urls depuis un document externe.

4) Rajouter un répertoire entier à rajouter au sitemap.

5) Parcourir les logs pour récupérer des urls :

<accesslog path="/var/log/apache2/access.log" encoding="UTF-8" />
<accesslog path="/var/log/apache2/access.log.1" encoding="UTF-8" />
<accesslog path="/var/log/apache2/access.log.2.gz" encoding="UTF-8" />

 
6) Filtrer pour ne pas avoir dans le sitemap des urls interdites au public.
Exemples pour WordPress :

<filter action="drop"  type="wildcard" pattern="*admin*" />
<filter action="drop"  type="wildcard" pattern="*theme*" />
<filter action="drop"  type="wildcard" pattern="*wp-includes*" />
<filter action="drop"  type="wildcard" pattern="*wp-login*" />

 
Pour lancer le script manuellement :
# cd /var/www/site && google-sitemapgen --config="sitemap_config.xml"

Faire en sorte que, automatiquement à chaque nouvelle page créée sur le site, soit renseigné le fichier externe qui contient toutes les urls, et soit lancé le script pour mettre à jour le sitemap.xml

One comment

Leave a Reply