Ennesimo pesante filtro di ban di G

fello

Quindi agoago un file robots.txt ideale dovrebbe essere costituito solo da istruzioni del tipo:

Disallow: /nome_pagina.ext
```?

fheller

Dice: analizzo cosa leggo nella sua pienezza, non cosa mi e' permesso di vedere a pezzi... cosa vedo a pezzi lo faccio a pezzi.

Messa cosi' sembrerebbe piu' un discorso legato all'intuito, alla logica, ma non e' procedendo per ragionamenti che ne ho preso atto.

Le pagine con i js bloccati dal robots non appaiono in cache, i miei siti di prova tutti bannati, e via discorrendo. E da li' che ho preso spunto.

Ciao Ago,

non ho potuto riscontrare la cosa perchè non ho mai usato il trucco di nascondere .css e .js con il robot.txt.
Inoltre potrei essere smentito ma secondo me Google non valuta ancora i .css e i .js esterni (è in grado di accorgersi dei redirect .js, e infatti li colpisce quando le doorways si trovano su siti esterni a quello da promuovere, ma non credo che analizzi sistematicamente i file).

Però sarebbe logica una penalizzazione come quella che descrivi, il blocco dei .css e dei .js con robot.txt secondo me è il modo migliore per dire "qui probabilmente c'è qualcosa di sporco".

Di recente credo di aver notato un altro tipo di penalizzazione (ed eventualmente vorrei conoscere la vostra esperienza), nei siti che aumentano notevolmente il numero di pagine all'improvviso, per quanto i contenuti siano buoni e validi.
Spero sia una cosa temporanea, una sorta di effetto sandbox

asdfgasdfg

Complimenti ad agoago, che quoto in pieno. La logica alla base della sua teoria non fa una grinza, e sarebbe anche facile da implementare. D'altronde con jagger sono state bannate dorway che utilizzavano redirect posizionati in file esclusi allo spider. Le ipotesi potrebebro essere 2: la 1 è quella formulata da agoago, la seconda è che il robots txt esclude l'indicizzazione della pagina, ma non ne impedisce la lettura da parte dello spider. In entrambi i casi la soluzione di proteggere del "codice sporco" mediante robots.txt sarebbe inefficace.

ziojo

[quote="fheller"]>

Di recente credo di aver notato un altro tipo di penalizzazione (ed eventualmente vorrei conoscere la vostra esperienza), nei siti che aumentano notevolmente il numero di pagine all'improvviso, per quanto i contenuti siano buoni e validi.
Spero sia una cosa temporanea, una sorta di effetto sandbox
Si, in effetti è una spece di sandbox, o meglio una Fase di Esame e Classificazione che fa google sia quando immetti un gran numero di pagine nuove, sia quando entra un sito nuovo. Sandbox ed alcuni tipi di penalizzazione sono la stessa cosa.

lowlevel

@agoago said:

Ma se non riesce ad analizzare una o piu' parti della pagina? Se non riesce a scaricare un foglio di stile richiamato da quella pagina perche' "protetto" da un robots.txt, o un js o altro?

Se ci sono elementi di spam individuabili senza dover conoscere il contenuto dei file disabilitati, la penalizza direttamente. Altrimenti l'accoda alla lista delle pagine da controllare manualmente.

la seconda è che il robots txt esclude l'indicizzazione della pagina, ma non ne impedisce la lettura da parte dello spider.

Questa ipotesi è da escludere perché la cosa funziona al contrario: il motore non può prelevare la pagina perché vuole rispettare il robots.txt ma niente gli impedisce di far apparire la pagina nelle SERP decidendone la posizione in base agli elementi esterni.

Lo standard è dedicato a quali file si possono o non si possono scaricare, l'indicizzazione è un concetto estraneo allo standard e al robots.txt.

fheller

@LowLevel said:

Se ci sono elementi di spam individuabili senza dover conoscere il contenuto dei file disabilitati, la penalizza direttamente. Altrimenti l'accoda alla lista delle pagine da controllare manualmente.

Esiste una sorta di "spiegazione ufficiale" di come funzionano le procedure di banning/penalizzazione?

Quando si ha procedura automatica e quando intervento umano?

Non lo so ad esempio

ban -> solo a seguito di intervento umano
penalizzazione -> anche automatica

lowlevel

@fheller said:

Esiste una sorta di "spiegazione ufficiale" di come funzionano le procedure di banning/penalizzazione?

No. Esistono solo informazioni su cosa i controlli manuali devono considerare spam.

Il personale che effettua queste valutazioni non ha modo di penalizzare o bannare, può solo impostare dei flag sui documenti. Le penalizzazioni vengono decise "più in alto", analizzando i documenti flaggati dal personale adibito al controllo.

Non lo so ad esempio

ban -> solo a seguito di intervento umano
penalizzazione -> anche automatica

Sia di ban che di penalizzazioni esistono sia provvedimenti automatici che manuali.

fheller

@LowLevel said:

No. Esistono solo informazioni su cosa i controlli manuali devono considerare spam.

Capito, grazie

asdfgasdfg

la seconda è che il robots txt esclude l'indicizzazione della pagina, ma non ne impedisce la lettura da parte dello spider.

Questa ipotesi è da escludere perché la cosa funziona al contrario: il motore non può prelevare la pagina perché vuole rispettare il robots.txt ma niente gli impedisce di far apparire la pagina nelle SERP decidendone la posizione in base agli elementi esterni.

Guarda in linea di principio sarei d'accordo con te.
Nel senso che concordo pienamente sulla possibilità di veder comparire dei file esclusi dal robots, nelle serp, a causa di altri fattori esterni.
Però negli ultimi tempi, analizzando i file di log, ho visto prelevare aallo spider file protetti da robots, ma inclusi in altre "pagine pubbliche"da qui nasce la mia ipotesi .
La logica potrebbe essere questa:io rispetto il robots, ma se includi nelle pagine pubbliche dei file protetti, allora vado a leggerli lo stesso.

lowlevel

@asdfgasdfg said:

Però negli ultimi tempi, analizzando i file di log, ho visto prelevare aallo spider file protetti da robots, ma inclusi in altre "pagine pubbliche"da qui nasce la mia ipotesi .

Sì, ma il dubbio che ponevo era che si trattasse non realmente dello spider ma di un controllo manuale da parte di personale di Google.

agoago

LowLevel scrive:

"ma il dubbio che ponevo era che si trattasse non realmente dello spider ma di un controllo manuale da parte di personale di Google."

Fin tanto che il robots sara' considerato, teoricamente, solo dagli spider meccanici dovremo subire impunemente controlli manuali.

E' questo aspetto che deve cambiare.
Il robots deve assumere un valore globale, meccanico ed umano.

Ovvio che attualmente non e' cosi', ma non e' altrettanto ovvio che sia giusto che sia cosi'.

Capire il valore potenziale del robots e' vitale.

Verissimo che nessuno e' profeta in patria, altrettanto vero che nessuno mi da l'autorita' o lo spunto a proclamarmi profeta, ma suina l'indigenza, possibile che si dibatta da anni se e come i bot rispettino il robots e non ci si muova, non ci si indegni, non si "combatta" democraticamente affinche' il robots assuma un ruolo "istituzionale" a valenza legale?

La verita', e' che si dovrebbe-potrebbe da lungo tempo discutere del potenziale ruolo legale che dovrebbe-potrebbe assumere il robots.txt file, chi a favore e chi contro di una sua nuova valenza, ma non lo si fa.

Questo mancato dibattito non dipende dalla pigrizia, dall'ignavia, dal ostracismo, dal considerare inutile la discussione, dalle forze virtuali di potere che subirebbero danni enormi (potere limitato) nel caso ci fosse una presa di coscienza, e cosi' via, ma ripeto, questo mancato dibattito ha le sue origini da un'ignoranza bestiale (ed offendetevi pure, mi scuso della brutalita' ma e' la verita') di chi non riesce ancora a capire che non conta cosa e', ma cosa e' giusto che sia.

I seo discutono di cosa e', di come si comporta un motore, di come e' meglio impostare una campagna affinche' i motori si compiacciano del loro lavoro e li premino.

Questo ha senso fin tanto che un seo si rispecchi ed identifichi nell'unica-sola dimensione di seo.

Ma se un seo si ricordasse per un momento di essere, in quanto seo, informatico, ed in quanto informatico di essere uomo, uomo-informatico i cui principi si basano sul rispetto di principi di netiquette universali, ecco che allora l'uomoinformatico (non in quanto uomo-informatico) si indignerebbe di dover subire l'uso distorto e compiacente (ai motori) del robots.txt.

So che offendendovi vi avrei contro, come so che se non vi offendessi probabilmente non riuscirei a farvi capire quanto sia vitale dare una nuova e giusta dimensione al robots.txt.

Prepongo (non progongo) per la prima scelta.

La verita' e' che non siete in grado di capire il futuro ruolo demarcatore del file robots.txt.

E se anche vi illudeste di esserlo probabilmente lo sareste solo perche', dopo aver letto questo mio post, potreste ritenere agevole che non pensarla come la penso io sia sbagliato, ed allora vi adeguereste, cosi' da non dovervi sprecare in ulteriori discussioni.

Chi conosce il mio buon carattere pensera', ecco l'ennesimo post ad effetto di Agoago, fatto per stimolare la discussione su un argomento importante, ma da sempre sottovalutato.

In effetti ho volutamente calcato la mano, ma questa volta non me ne dispiaccio e non chiedero' scusa poi... come sempre faccio quando mi rendo conto di aver sbagliato.

Questa volta non ho sbagliato. Ricchi o poveri, esperti o meno, intelligenti o no, colti o ignoranti, questa volta siete tutti sullo stesso piano, anche se lo negherete in cuor vostro in ogni modo.

Non mi importa pertanto che siate solidali-concordi con le mie idee sul robots, non mi importa che ne discutiate, non mi importa che per voi il robots rappresenti solo uno dei tanti modi di ottimizzare un sito.

Siete stati bravi ed vi hanno aumentato lo stipendio del 10%?
Avete avuto lo scatto di anzianita'?
Avete ottimizzato il sito e siete cresciuti di unici?
Avete scitto un post figo e tutti vi hanno fatto i complimenti?

Fatemi il favore... quale e' il limite alla miseria umana (con offesa e contro i regolamenti del forum che giustamente impongono rispetto)?

mamilu

Fatemi il favore... quale e' il limite alla miseria umana?

Capire il valore potenziale del robots.txt. ovviamente

fuffissima

Ma sinceramente, quanti di voi credono nell'ipotesi di controlli manuali rilevanti in termini di quantità e frequenza?
O stiamo parlando di una quantità mostruosa di controlli, o siamo stati fortunatissimi a beccarli proprio noi, o noi deteniamo una quota rilevante del web...

Sono convinta che l'impresa sarebbe tanto antieconomica da far fallire google in breve, non credo proprio che tra i loro piani ci sia un controllo menuale serio, non beviamoci tutto ciò che scrive matt cutts per intimidire i seo, l'obiettivo di google da questo punto di vista è sempre quello di automatizzare il più possibile.

Per darvi un'idea della forza lavoro impiegata da Google per i controlli editoriali vi segnalo che controllano a fatica le inserzioni adwords del mercato italiano (e sono pochine rispetto ai risultati naturali come avrete potuto notare), figuriamoci se riescono a scandagliare a manina l'intero web italiano...

Il problema sollevato da Agoago mi pare invece di rilevanza fondamentale, andando avanti di questo rischiamo di ritrovarci un giorno a dover dare autorizzazioni a Google per cracckare i nostri server per lasciargli fare i controlli dovuti...

lowlevel

@Fuffissima said:

Ma sinceramente, quanti di voi credono nell'ipotesi di controlli manuali rilevanti in termini di quantità e frequenza?

Nessuno, spero. Sono (ovviamente) controlli mirati, probabilmente guidati da ciò che gli spider o altri automatismi ritengono sospetto.

Ho anche qualche documento di Google riservato al personale adibito ai controlli manuali di primo livello.

Spero di non dare l'impressione di una persona che fa affermazioni in pubblico senza avere nemmeno uno straccio di materiale sul quale costruirle.

fheller

@Fuffissima said:

Ma sinceramente, quanti di voi credono nell'ipotesi di controlli manuali rilevanti in termini di quantità e frequenza?

"rilevanti in termini di quantità e frequenza" è la frase chiave

Probabilmente non sono nè frequenti nè rilevanti ma credo non si possa escludere a priori che ci siano...tanto più che la maggior parte delle fonti autorevoli concordano.
Se non altro immagino intervengano per correggere penalizzazioni o ban errati.

Al di là di qualsiasi discorso...bloccare con il robots.txt una directory che contiene .css o .js, poi utilizzati nelle pagine, mi sembra il modo migliore di far sentire "puzza di bruciato al motore" e uno dei classici trucchi che funzionano fino a quando non si diffondono troppo

agoago

Controlli manuali sono presenti un po' per tutti i motori.

Ma un conto e' una persona che verifica un sito in base ad un email di seganlazione, un conto se un motore preveda a priori controlli e correzioni umane sistematiche per correggere-tarare le proprie serp.

In questo secondo caso allora il motore diventa un ibrido.

Tutti i motori negano di essere ibridi perche' di fatto si vergognano di rinnegare anni ed anni di prese di posizione basate sulla certezza di creare un motore perfetto automatico.

Ma di fatto ad oggi sono ibridi.