Installer le paquet :
# apt-get install google-sitemapgen
Se placer dans le répertoire du site :
# cd /var/www/site/
Récupérer le fichier de config :
# cp /usr/share/doc/google-sitemapgen/examples/example_config.xml.gz .
Dézipper :
# gunzip -d example_config.xml.gz
Renommer :
# mv example_config.xml sitemap_config.xml
Paramétrer le fichier de conf :
# vi sitemap_config.xml
1) Définir les paramètres généraux :
<site base_url="http://www.site.com/"
store_into="/var/www/site/sitemap.xml"
verbose="1"
sitemap_type="web">
2) Ajouter manuellement des urls qui ne bougeront jamais.
3) Définir une liste d’urls depuis un document externe.
4) Rajouter un répertoire entier à rajouter au sitemap.
5) Parcourir les logs pour récupérer des urls :
<accesslog path="/var/log/apache2/access.log" encoding="UTF-8" />
<accesslog path="/var/log/apache2/access.log.1" encoding="UTF-8" />
<accesslog path="/var/log/apache2/access.log.2.gz" encoding="UTF-8" />
6) Filtrer pour ne pas avoir dans le sitemap des urls interdites au public.
Exemples pour WordPress :
<filter action="drop" type="wildcard" pattern="*admin*" />
<filter action="drop" type="wildcard" pattern="*theme*" />
<filter action="drop" type="wildcard" pattern="*wp-includes*" />
<filter action="drop" type="wildcard" pattern="*wp-login*" />
Pour lancer le script manuellement :
# cd /var/www/site && google-sitemapgen --config="sitemap_config.xml"
Faire en sorte que, automatiquement à chaque nouvelle page créée sur le site, soit renseigné le fichier externe qui contient toutes les urls, et soit lancé le script pour mettre à jour le sitemap.xml