Questo sito utilizza cookie, anche di terze parti, per migliorare la tua esperienza di navigazione e per fornire pubblicità personalizzata. Proseguendo la navigazione del sito accetti il loro utilizzo. Leggi nell'informativa privacy come disattivarli. La disattivazione comporta il blocco di funzionalità del sito, come i video, i pulsanti sociali e la pubblicità.

Leggi l'informativa privacy e cookie

Non hai abilitato i cookies sul tuo computer. Potrai modificare questa scelta.

Hai abilitato i cookies sul tuo computer. Puoi modificare questa scelta.

L’indicizzazione di un sito avviene tramite la sua scansione da parte di Robot e Spider, cioè programmi o script dei motori di ricerca che leggono il contenuto del sito e raccolgono le informazioni in un database poi utilizzato per realizzare l’indice dei motori di ricerca.
In alcuni casi potrebbe essere utile impedire che parti del sito siano indicizzate dai motori di ricerca. Ciò è possibile creando un file di testo denominato robots.txt da posizionare nella cartella principale.
Ogni Robot o Spider ha un nome che consente di rivolgersi direttamente ad esso nel file robots.txt. Come consiglio generale conviene non far accedere i motori di ricerca ai propri script, perché li eseguirebbero, rallentando così l’esecuzione del sito. I motori di ricerca devono accedere soltanto ai contenuti che, per quanto riguarda un sito Joomla!, si trovano nel database.
È possibile creare manualmente il file robots.txt, oppure avvalersi di generatori automatici come quello dei Google Webmaster Tools, oppure di Yellowpipe. Yellowpipe consente di inserire direttive di esclusione relative a robot non provenienti da motori di ricerca come Google o Yahoo, ma responsabili di spam, ricerca di vulnerabilità e dati sensibili, estrazione di link e indirizzi email, insomma robot che possiamo definire genericamente “maligni”.

Il file robots.txt è un semplice file di testo (eventuali tag o html verranno ignorati), nel quale le direttive utilizzabili sono le seguenti:

User-Agent: nome robot
Definisce a quale robot si riferiscono le direttive seguenti, dove  per indicarli tutti si usa l’asterisco *. Il robot di Google si chiama googlebot, quello di Yahoo slurp.

Disallow: /cartella/
Indica quali cartelle o file non devono essere indicizzate dai robot.  

Allow: /cartella/
Indica ai robot a quali cartelle può accedere; questa direttiva in realtà è superflua, i robot leggono tutte le cartelle che non sono indicate nella direttiva Disallow.

Questo è un esempio di robots.txt per Joomla! che impedisce l’accesso da parte dei motori di ricerca agli script ma non ai contenuti del sito:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Nel caso eventuale si volesse impedire a tutti i motori di ricerca di indicizzare il sito si può usare questo semplice file robots:

User-agent: *
Disallow: /

Volendo rimuovere dai motori di ricerca delle pagine già indicizzate è possibile ricorrere alla apposita funzione dei Webmaster Tools di Google.