Robot.txt....questo sconosciuto....

ccardello

Robot.txt....questo sconosciuto....

Ragazzi qua e la ho letto qualcosa su spider e file robot.txt.
Mi affido a voi per avere un quadro completo su questo file.....

quando serve?
perchè conviene usarlo?
come imposto i parametri degli ip da escludere? (spider per es. che non voglio che visitino il mio sito ecc).
come dico a questo o a quello spider che non voglio indicizzato nulla? (nel caso concreto ho un forum e nell'ultimo periodo la visita di googlebot si è fatta talmente asfissiante da durare talmente tante ore al giorno da volerlo escludere.....in tal modo evito, credo, di farmi prendere più banda del dovuto).

Insomma, vorrei che fosse la discussione "definitiva" su robot.txt, con tutto quello che c'è da sapere nel bene e nel male su questo file, che sto cercando di conoscere adesso.....

Grazia a tutti

dell.orto.fabio

Qui troverai una risposta a tutte le tue domande, se conosci bene l'inglese ti consiglio di dare uno sguardo anche qui .

rinzi

@ccardello said:

quando serve?
perchè conviene usarlo?

per le altre domande ti rimando ai link suggeriti da fabio e rispondo a queste.

il robots.txt serve sempre, la sua assenza genera un errore (404 not found) che in ogni caso manifesta una mancanza del web master anche nel caso in cui non voglia porre limitazioni all'attività di crawling, se non vuoi porre limitazioni il tuo file robots.txt sarà vuoto (ma sarà presente nel tuo server)

Inoltre ci sono stati casi in cui l'errata gestione del robots.txt (insieme a una sbagliata configurazione del server) ha portato a conseguenze abbastanza gravi per il sito, vedi il caso del Trovatore

in questo topic trovi i dettagli ma ti riporto qui una parte

@lowlevel said:

Non è quello il problema. Nel senso che se anche il redirect fosse stato sulla categoria, il problema si sarebbe presentato ugualmente.

E' ancora presto per trarre la conclusione, anche se siamo molto vicini.

Limitiamoci a continuare l'analisi, passo per passo, per il momento senza conclusioni. Ma stavolta prestate molta attenzione al punto 1:

Lo spider ha bisogno di un file robots.txt per sapere come comportarsi.
Lo spider chiede http://categorie.iltrovatore.it/robots.txt (o http://categorie.trovatore.it/robots.txt).
Il web server del trovatore spedisce allo spider un header HTTP con uno status 302 (redirect temporaneo) ed un "Location: http://www.iltrovatore.it/"
Lo spider riceve questo header.... e che fa?

@Rinzi said:

cerca le info del robots.txt nella destinazione provvisoria (la home) dove però trova un formato inaspettato.....
e di conseguenza genera un qualche errore..

trova un formato inaspettato, in quel caso lo spider leggeva al posto del robots.txt l'homepage del sito il cui formato non era di certo quello aspettato in quel momento generando non poco confusione al motore di ricerca

ciao

p.s.: dimenticavo, nelle FAQ abbiamo degli esempi sull'utilizzo del robots.txt

dell.orto.fabio

Quando non gioca la Roma, Rinzi è più rilassato, tranquillo, molto + produttivo, visto che risposta ? Miii

Chiedo venia per il mega OT, in verità intervengo per segnalare un valido tool per verificare di aver scritto correttamente senza errori il file robots.txt, lo trovate qui .

ccardello

Anzitutto ringrazio gli intervenuti per le loro precise risposte, colgo la palla al balzo per rispondere e porre anche un'altra questione (su cui ho aperto diverso topic nella sezione google).

1- come mai fino ad oggi, in ASSENZA del robot.txt, non ho avuto particolari problemi e solo ultimamente (in 2 forum che gestisco e monitoro) ho avuto queste visite di google che prima non avevo? uno dei 2 è attivo da 3 anni ma solo ultimamente viene scandagliato costantemente da google...

2-Se a causa dell'eccessiva presenza di uno spider (googlebot che mi preleva tutta la banda) volessi inibire l'accesso ad uno di essi, basta che credo quindi il txt, lo metto nella root e dentro scritto semplicemente:

User-agent: googlebot
Disallow: /

In questo modo lo blocco su tutti i file e cartelle? (ERGO: non mi preleva più banda)....mi puoi dare conferma?

lkv

Perche' invece non attivi una sitemap, la fai vedere a google sitemap: https://www.google.com/webmasters/sitemaps e nelle opzioni in Strumenti - Velocità di scansione, metti il segno di spunta a Più lentamente (Una velocità di scansione inferiore riduce il traffico di Googlebot sul tuo server, tuttavia potrebbe non garantire la scansione del tuo sito con la stessa frequenza).
Questo potrebbe risolvere il tuo problema senza compromettere la presenza del tuo sito su Google.

ccardello

avevo tempo addietro creato una sitemap (circa 3 settimane fa) tramite un tool online....l'ho eliminata ieri quando sono cominciati a sorgere questi primi dubbi....ma in ogni caso google continua a fare la sua parte e anche con il robots.txt attivo da oltre 30minuti lo spider è sempre li che lavora come se niente fosse....

in questo momento mi interessa solo bloccarlo. Alle soluzione per non rinunciare a google vorrei pensarci in un secondo momento. HELP ME PLEASE!!!

Robot.txt....questo sconosciuto....

2-Se a causa dell'eccessiva presenza di uno spider (googlebot che mi preleva tutta la banda) volessi inibire l'accesso ad uno di essi, basta che credo quindi il txt, lo metto nella root e dentro scritto semplicemente:

User-agent: googlebot Disallow: /

User-agent: googlebot
Disallow: /