Iltrovatore.it bannato!

giorgiotave

Azz non gli da un redirect sulla categoria, ma sul sito principale!

rinzi

@Giorgiotave said:

Azz non gli da un redirect sulla categoria, ma sul sito principale!

e come gli è venuta in mente questa mossa

lowlevel

@Giorgiotave said:

Azz non gli da un redirect sulla categoria, ma sul sito principale!

Non è quello il problema. Nel senso che se anche il redirect fosse stato sulla categoria, il problema si sarebbe presentato ugualmente.

E' ancora presto per trarre la conclusione, anche se siamo molto vicini.

Limitiamoci a continuare l'analisi, passo per passo, per il momento senza conclusioni. Ma stavolta prestate molta attenzione al punto 1:

Lo spider ha bisogno di un file robots.txt per sapere come comportarsi.
Lo spider chiede http://categorie.iltrovatore.it/robots.txt (o http://categorie.trovatore.it/robots.txt).
Il web server del trovatore spedisce allo spider un header HTTP con uno status 302 (redirect temporaneo) ed un "Location: http://www.iltrovatore.it/"
Lo spider riceve questo header.... e che fa?

rinzi

cerca le info del robots.txt nella destinazione provvisoria (la home) dove però trova un formato inaspettato.....
e di conseguenza genera un qualche errore..

lowlevel

@Rinzi said:

cerca le info del robots.txt nella destinazione provvisoria (la home) dove però trova un formato inaspettato.....

Bingo!

Però a questo punto subentrano comportamenti diversi per spider diversi.

Quando uno spider trova nel file robots.txt del codice che non può interpretare correttamente come codice del Robots Exclusion Standard, ha carta bianca e può decidere se considerare il sito interamente scaricabile o non scaricabile.

Dal caso generale a quello specifico: Googlebot che fa? Googlebot, quando non riesce ad interpretare correttamente il robots.txt decide: "non sono in grado di capire cosa posso o non posso richiedere al server. se tiro ad indovinare potrei chiedere file che il webmaster non vuole che io legga e che non è previsto che finiscano pubblicati tra i risultati di ricerca. pertanto, nel dubbio, considero questo dominio esattamente come un dominio per il quale mi sia stato chiesto di non spiderare nulla.".

Gli spider di altri motori si possono comportare diversamente, come fanno ad esempio i bot di Yahoo! ed MSN.

Riguardo a Iltrovatore, tuttavia, il problema dell'indicizzazione non è l'unico (mirroring tra trovatore e iltrovatore, mirroring tra www e non-www, ecc.). In generale, la situazione mi sembra abbastanza confusa e varrebbe la pena di analizzare un po' l'intera gestione dei domini da parte dei web server. Fino a quando la confusione regna, è anche difficile andare a fare analisi su eventuali penalizzazioni.

Pertanto bisogna prima risolvere il problema del robots.txt invalido (che comunque per Googlebot è determinante) e poi vedere come la situazione cambia.

rinzi

Dal caso generale a quello specifico: Googlebot che fa? Googlebot, quando non riesce ad interpretare correttamente il robots.txt decide: "non sono in grado di capire cosa posso o non posso richiedere al server. se tiro ad indovinare potrei chiedere file che il webmaster non vuole che io legga e che non è previsto che finiscano pubblicati tra i risultati di ricerca. pertanto, nel dubbio, considero questo dominio esattamente come un dominio per il quale mi sia stato chiesto di non spiderare nulla.".

in questo caso credo che se nn mettevano il robots.txt era meglio

nn ha trovato si o no ha trovato bit a caso

anche se è sempre consigliato mettere il robots.txt anche se vuoto credo che il bot un okkio al sito lo da lo stesso (o almeno lo faceva) con quel bordello inaspettato avrà deciso di fuggire

lowlevel

@Rinzi said:

in questo caso credo che se nn mettevano il robots.txt era meglio

O non mettevano il redirect ad un file HTML (scelta migliore) o mettevano un robots.txt vuoto o con:


User-agent: *
Disallow&#58;

Solitamente questi redirect del robots.txt non sono voluti, in genere è la conseguenza di un server (o di un software) configurato male.

La cosa più incredibile è che stiamo parlando dei domini di un motore di ricerca, i cui responsabili dovrebbero sapere bene cosa non fare per innervosire gli spider.

giorgiotave

@LowLevel said:

La cosa più incredibile è che stiamo parlando dei domini di un motore di ricerca, i cui responsabili dovrebbero sapere bene cosa non fare per innervosire gli spider.

E che ha commentato la cosa in modo stranissimo, come se Google avesse preso di mira il suo sito. Roba da non crederci.

must

agoago

Non so se i responsabili de iltrovatore.it soffrano mi mania di persecuzione, ma nel dubbio andrei cauto nel dargli completamente torto. Probabilmente G non ha nessun accanimento nei confronti del loro sito, ma il robots.txt va preso con le molle e non basta a penalizzarli a tal punto di estrometterli dalle serp.

Milioni di siti hanno il redirect dal robots.txt via 302 verso un altra loro pagina tuttavia fanno muffa e classifica nei db dei motori principali.

Se ci fosse un filtro di ban in base all'estetica dei siti sarebbe probabile che iltrovatore scompaia da ogni serp, ma non mi risulta ci sia ancora.

Ci deve essere dell'altro, mi sembra, a primo pelo, una scelta di G manuale e non algoritmica, un ban in base a considerazioni tutte loro.

Non credo sia una questione di marketing (sono primi, ecc ecc) ma piuttosto nascondere al pubblico un sito che per sbaglio ha inficiato qualche loro algoritmo, avvantaggiandosene.

Forse un mix di anzianita', alto pr, contenuto duplicati da dmoz ed altro che nel suo complesso lo hanno portato ad avere posizioni di punta senza averne teorico merito in base ai complessi calcoli di G.

Nel dubbio lo seccano manualmente e poi studiano come rimediare all'imprevisto, per poi, dopo le modifiche necessarie, riinserirlo nelle serp.

Che questa situazione procuri paranoie al sito in questione e' capibile, ma, se fosse come ipotizzo, il problema maggiore da risolvere lo ha G, iltrovatore ha solo da pazientare.

Se poi non lo reinserissero-riinserissero-rinserissero non sarebbe del tutto uno scandalo, e' graficamente bruttino e vecchio stile, ma rappresenta un pezzo di storia del web italiano e come tale, con tutti i suoi limiti, va rispettato.