Iltrovatore.it bannato!

lowlevel

@Giorgiotave said:

Dimmi che non c'entra niente con il Ban da Dmoz.

Non c'entra niente con il Ban da Dmoz.

La ragione è tecnica e dipende da precise caratteristiche del sito.

claudioweb

@LowLevel said:

La ragione è tecnica e dipende da precise caratteristiche del sito.

Tutti questi sottodomini verso cui punta un alta % di links?

@giusto per dirne alcuni said:

ipads.iltrovatore.it
categorie.iltrovatore.it
search2.iltrovatore.it
trovamp3.iltrovatore.it
webmaster.iltrovatore.it
trovagenda.iltrovatore.it
trovachat.iltrovatore.it
services.iltrovatore.it

lukas

@claudioweb said:

Tutti questi sottodomini verso cui punta un alta % di links?

Ma allora di investinfrancena.org cosa si dovrebbe dire?

claudioweb

@lukas said:

@claudioweb said:

Tutti questi sottodomini verso cui punta un alta % di links?

Ma allora di investinfrancena.org cosa si dovrebbe dire?

Va beh la mia era un'ipotesi. Comunque mi sono espresso un po' male, mi riferivo al numero di links in home verso i sottodomini, e non al numero di sottodomini che possono essere centinaia senza problemi (come nel caso di hosting gratuiti).

lowlevel

@claudioweb said:

Tutti questi sottodomini verso cui punta un alta % di links?

I soddodomini c'entrano, ma non la percentuale di link.

In realtà i problemi sono due.

Alcuni domini, come categorie.iltrovatore.it e trovamp3.iltrovatore.it soffrono di un problema tecnico che influisce sull'indicizzazione.

Gli altri soffrono dell'ubriachezza di Google.

Ma l'ubriachezza potrebbe anche dipendere dal problema tecnico dei domini di cui sopra, scomparsi dagli archivi di Google. Purtroppo non è possibile saperlo senza rimuovere il problema e vedere se dipendeva da quello.

Qual'è il problema tecnico di quei due sottodomini?

Se volete ci aggiungo un premio vero, giusto per incentivare la ricerca.

claudioweb

Beh almeno mi sono avvicinato.... i sottodomini erano la caratterisca "strana" piu' evidente.

Comunque c'e anche da dire che:

http://categorie.iltrovatore.it/ is 69% percentage similar to iltrovatore.it/
e
http://trovatore.it/ is 100% percentage similar to iltrovatore.it/

@LowLevel said:

Se volete ci aggiungo un premio vero, giusto per incentivare la ricerca.
Beh gia' c'e' la curiosita', ma una Lamborghini non dispiacerebbe

lowlevel

@claudioweb said:

Comunque c'e anche da dire che:

http://categorie.iltrovatore.it/ is 69% percentage similar to iltrovatore.it/

Sì, ma il problema per quei due domini è di indicizzazione, non di posizionamento. E' un problema tecnico che sta a monte di ogni considerazione sui contenuti delle pagine.

Do un aiuto: pensare e agire come un crawler può facilitare la soluzione.

Beh gia' c'e' la curiosita', ma una Lamborghini non dispiacerebbe

Eh.. se solo me lo avessi detto ieri, ne avevo un paio che mi avanzavano. ()

lukas

@claudioweb said:

@lukas said:
@claudioweb said:

Tutti questi sottodomini verso cui punta un alta % di links?

Ma allora di investinfrancena.org cosa si dovrebbe dire?

Va beh la mia era un'ipotesi. Comunque mi sono espresso un po' male, mi riferivo al numero di links in home verso i sottodomini, e non al numero di sottodomini che possono essere centinaia senza problemi (come nel caso di hosting gratuiti).

investinfrancena.org in ogni sottodominio ha link ad almeno 300 sottodomini.

claudioweb

Low raccontaci un po' qual e' sto motivo cosi' il tuo premio te lo becchi tu

A parte gli scherzi, voglio saperlo!!
(fame di conoscenza)

raele.l.angelo

@LowLevel said:

Do un aiuto: pensare e agire come un crawler può facilitare la soluzione.

mancano doctype e content-type?

lowlevel

Noto che sul forum di HTML.it quelli del trovatore pensano che il ban sia la conseguenza del fatto che le pagine del trovatore si posizionavano troppo bene su Google.

Sembrerebbe che non si siano accorti del problema tecnico e provvederò a scrivergli una e-mail segnalandoglielo.

A parte gli scherzi, voglio saperlo!

C'è ancora qualcuno che partecipa, quindi dovrai penare ancora un po'.

mancano doctype e content-type?

Il content-type c'è negli header HTTP. La mancanza del doctype non inficia l'indicizzazione così pesantemente.

Altro aiuto: che cosa fa uno spider quando va a fare il crawl di un sito?

Parliamo proprio del funzionamento di base di un motore di ricerca.

giorgiotave

Legge il robots.txt e
<META HTTP-EQUIV="Pragma" CONTENT="no-cache">
Impedisce che una pagina venga salvata nella memoria-cache del visitatore

O no?

Forse no

lowlevel

Siamo molto vicini alla soluzione!

Lo spider ha bisogno di un file robots.txt per sapere come comportarsi.
Lo spider chiede http://categorie.iltrovatore.it/robots.txt (o http://categorie.trovatore.it/robots.txt).
Che fa il web server del trovatore? ...

giorgiotave

Azz non gli da un redirect sulla categoria, ma sul sito principale!

rinzi

@Giorgiotave said:

Azz non gli da un redirect sulla categoria, ma sul sito principale!

e come gli è venuta in mente questa mossa

lowlevel

@Giorgiotave said:

Azz non gli da un redirect sulla categoria, ma sul sito principale!

Non è quello il problema. Nel senso che se anche il redirect fosse stato sulla categoria, il problema si sarebbe presentato ugualmente.

E' ancora presto per trarre la conclusione, anche se siamo molto vicini.

Limitiamoci a continuare l'analisi, passo per passo, per il momento senza conclusioni. Ma stavolta prestate molta attenzione al punto 1:

Lo spider ha bisogno di un file robots.txt per sapere come comportarsi.
Lo spider chiede http://categorie.iltrovatore.it/robots.txt (o http://categorie.trovatore.it/robots.txt).
Il web server del trovatore spedisce allo spider un header HTTP con uno status 302 (redirect temporaneo) ed un "Location: http://www.iltrovatore.it/"
Lo spider riceve questo header.... e che fa?

rinzi

cerca le info del robots.txt nella destinazione provvisoria (la home) dove però trova un formato inaspettato.....
e di conseguenza genera un qualche errore..

lowlevel

@Rinzi said:

cerca le info del robots.txt nella destinazione provvisoria (la home) dove però trova un formato inaspettato.....

Bingo!

Però a questo punto subentrano comportamenti diversi per spider diversi.

Quando uno spider trova nel file robots.txt del codice che non può interpretare correttamente come codice del Robots Exclusion Standard, ha carta bianca e può decidere se considerare il sito interamente scaricabile o non scaricabile.

Dal caso generale a quello specifico: Googlebot che fa? Googlebot, quando non riesce ad interpretare correttamente il robots.txt decide: "non sono in grado di capire cosa posso o non posso richiedere al server. se tiro ad indovinare potrei chiedere file che il webmaster non vuole che io legga e che non è previsto che finiscano pubblicati tra i risultati di ricerca. pertanto, nel dubbio, considero questo dominio esattamente come un dominio per il quale mi sia stato chiesto di non spiderare nulla.".

Gli spider di altri motori si possono comportare diversamente, come fanno ad esempio i bot di Yahoo! ed MSN.

Riguardo a Iltrovatore, tuttavia, il problema dell'indicizzazione non è l'unico (mirroring tra trovatore e iltrovatore, mirroring tra www e non-www, ecc.). In generale, la situazione mi sembra abbastanza confusa e varrebbe la pena di analizzare un po' l'intera gestione dei domini da parte dei web server. Fino a quando la confusione regna, è anche difficile andare a fare analisi su eventuali penalizzazioni.

Pertanto bisogna prima risolvere il problema del robots.txt invalido (che comunque per Googlebot è determinante) e poi vedere come la situazione cambia.

rinzi

Dal caso generale a quello specifico: Googlebot che fa? Googlebot, quando non riesce ad interpretare correttamente il robots.txt decide: "non sono in grado di capire cosa posso o non posso richiedere al server. se tiro ad indovinare potrei chiedere file che il webmaster non vuole che io legga e che non è previsto che finiscano pubblicati tra i risultati di ricerca. pertanto, nel dubbio, considero questo dominio esattamente come un dominio per il quale mi sia stato chiesto di non spiderare nulla.".

in questo caso credo che se nn mettevano il robots.txt era meglio

nn ha trovato si o no ha trovato bit a caso

anche se è sempre consigliato mettere il robots.txt anche se vuoto credo che il bot un okkio al sito lo da lo stesso (o almeno lo faceva) con quel bordello inaspettato avrà deciso di fuggire

lowlevel

@Rinzi said:

in questo caso credo che se nn mettevano il robots.txt era meglio

O non mettevano il redirect ad un file HTML (scelta migliore) o mettevano un robots.txt vuoto o con:


User-agent: *
Disallow&#58;

Solitamente questi redirect del robots.txt non sono voluti, in genere è la conseguenza di un server (o di un software) configurato male.

La cosa più incredibile è che stiamo parlando dei domini di un motore di ricerca, i cui responsabili dovrebbero sapere bene cosa non fare per innervosire gli spider.