• User Attivo

    Google Proxy Hacking

    Ho appena finito di leggere QUESTO su un pericoloso bug che sembra affligga l'algoritmo di Google; l'articolo è un po' lungo e tutto in inglese, la scoperta risale ad un anno fa ma è stata resa pubblica da Dan Thies solo recentemene.

    Riassumendo molto brevemente: un giorno si trovò di fronte ad un caso di un sito inspiegabilmente penalizzato da Google, non bannato, ma retrocesso notevolmente all'interno del SERP di Google; dopo una attenta ricerca si accorse che il sito era indicizzato in tutte le sue pagine tranne l'home page.

    Il fenomeno si ripeteva regolarmente e la causa venne individuata nel fatto che era stata creata una sorta di "fake home page" del sito, priva dei contenuti fondamentali, e attraverso alcuni proxy URL creati ad arte gli spider di Google venivano "ingannati" e reindirizzati alla "fake home page"; alcuni spider indicizzavano la corretta home page mentre altri raggiungevano la "fake home page" e a questo punto secondo Dan Thies si verificava il bug. Come sappiamo Google ha diversi "data centers" dove vengono raccolti i dati degli spider e in questo caso alcuni "data center" avevano archiviata la "fake home page" mentre altri quella reale, nel momento della sincronizzazione veniva considerata buona e indicizzata la "fake home page" priva dei contenuti originali e destinata quindi a perdere posizioni nel SERP.

    Se l'argomento vi interessa vi invito a leggere l'articolo molto più chiaro e dettagliato del mio sommario riassunto. 🙂

    Pensate sia un problema serio o solo una paranoia? Vi è mai capitata una cosa del genere?


  • User Attivo

    Il proxy hacking non è altro che un cugino molto prossimo di quello che fu -ed è- il 302 hijacking, e nasce da una gestione non ancora ottimale (dal nostro punto di vista, almeno) dei fenomeni di duplicazione.

    In sostanza, il problema nasce dal fatto che Google non è in grado -o non vuole- riconoscere la paternità ad un documento scoperto prima quando si trova in presenza di duplicati e quindi della necessità di applicare il filtro anti-duplicazione in vantaggio del primo arrivato.

    L'autore dell'articolo lo chiama proxy hacking, ma sostanzialmente la tecnica consiste nel duplicare una pagina su un URL indicizzabile, cambiarne i link interni e bombardarla di backlinks (anche non direttamente).

    Credo che Google abbia da tempo le potenzialità tecniche per poter attuare scelta di campo in tal senso. Le risorse per capire chi abbia pubblicato qualcosa per primo, indipendentemente da altri fattori, ce le ha. Il margine di errore è quasi insignificante.

    La questione è, secondo me, capire PERCHE' non abbia voluto finora intervenire. Che, a ben vedere, è anche ciò che si chiede Dan Thies.
    Ma a questo proposito, lascio a voi la parola 🙂


  • User Attivo

    Ciao BoNzOo,

    la questione è molto interessante. Avevo già letto l'articolo con particolare attenzione sulle misure difensive. Rispetto a quanto detto saggiamente da petro, faccio notare che il problema di GG (non voglio fare l'avvocato del Diavolo) è a livello hardware/software in cui esiste un collo di bottiglia.
    L'unico parametro che GG ha per stabilire l'autenticità/originalità del contenuto è il parametro data. Chi scrive le stesse cose ma lo fa dopo ha copiato (non ci piove). La scansione e l'indicizzazione "live" come decantata dallo stesso Matt Cutts, è ahimè valida per alcuni casi soltanto e come tale inaffidabile quale soluzione al problema duplicati. Perchè? Semplicememente perchè GG non passa su ogni sito con la stessa frequenza e tantomeno lo fa contemporaneamente su tutti. Rovesciando il problema ci si potrebbe domandare: ma perchè è GG a dover attribuire l'originalità di un testo e non invece l'autore a rivendicarne la paternità? Sono del parere che i limiti degli algoritmi e hardware possano essere superati con piccole accortezze. Come? Bhe in parte già lo facciamo con i ping non appena pubblichiamo un post sul nostro blog. Con i principali CMS è un gioco da ragazzi. Il tutto condito da link da risorse in cui gli spider sono di casa, possibilmente appena la risorsa è online, che assicurano un testimone (link) di quanto accaduto.

    Ciao,

    Andrea :ciauz: