• User Attivo

    Fotografia della pagina da parte dei motori.

    Da un po' si mormora che i migliori motori, magari non ancora tutti, siano in grado di fotografare una pagina per come la vede realmente l'utente e non lo spider.

    Poi confrontano le 2 immagini e se sono diverse procedono di conseguenza.

    Pensavo che questa cosa fosse irrealizzabile perche' se metto lato server un ordine che rimanda il bot di un motore su una pagina a lui dedicata, lui non puo' sapere cosa vedra' in realta' l'utente, lui sa cosa vede lui, ovvio.

    Per poter fotografare una pagina "utente", io motore, dovrei presentarmi come un utente qualsiasi, con un ua qualsiasi e non come bot specifico del motore, con un ip diverso dal range assegnato al motore, ecc ecc.

    Se lo facessero, se si nascondessero dietro i dati di un ipotetico visitatore qualsiasi, e poi si scoprisse, sarebbero rovinati come immagine, troppo il rischio.

    Inoltre questo ipotetico trucco non avrebbe vita lunga, vi immaginate un wm che analizzando il suo file log vedesse un utente che accede velocemente a mezzo sito? Troppo sospetto, sarebbe un trucco che non avrebbe vita lunga.


    Allora ho pensato che potrebbero "nascondersi-apparire" come comuni utenti ma leggere-salvare-spiderizzare solo poche pagine di un sito, e magari in un periodo lungo, e poi andare di calcoli statistici, come dire se in un mese su 10 pagine di un sito ne trovo 3 o 4 diverse da cosa ha letto il mio spider originale allora prendo provvedimenti...

    Ma anche questa ipotesi non mi convinceva, i grossi network facendo le statistiche globali dei log di tutti i loro siti se ne sarebbero accorti, ma cosa vogliono-cercano questi 2 o 3 utenti-ip che visitano-passano su tutti i nostri siti tutti i mesi? Troppo rischioso per i motori...


    Queste analisi mi hanno portato a non pensarci piu' finche' non ho fatto alcuni test e facendo le cose per bene, veramente per bene, ho visto che in alcuni casi non la spuntavo, alcune mie pagine erano filtrate dai motori senza alcuna logica, se non quella che la pagina spiderizzata "ufficialmente" era completamente diversa da quella lato utente.

    Mi sono detto, ma allora i motori probabilmente riescono veramente a fotografare e confrontare le 2 versioni della pagina. Ma come faranno senza farsi scoprire?


    Allora ho riiniziato a passarmi a mano i vari log dei miei siti, magari ci trovavo qualche spunto...

    Leggi e rileggi dovevo cercare di dare delle risposte logiche ai semplici quesiti sopra esposti, partendo dal presupposto che:

    Il "finto" spider non avrebbe potuto apparire come un utente.

    Un wm avrebbe dovuto vedere un ip o piu' ip passare sistematicamente sui suoi siti senza insospettirsi.

    Un wm non avrebbe dovuto avere motivi validi ed istintivi, non essere indotto a prendere provvedimenti nei confronti di quei numeri ip che passavano assiduamente e sistematicamente sui suoi siti, niente redirect lato server, niente blocchi, ecc ecc

    Il tutto rispettando netiquette e leggi vari.


    Si racconta che se vuoi nascondere una cosa perfettamente il miglior sistema sia di metterla in bella vista, la gente cerchera' nei posti piu' strani senza preoccuparsi di ragionare su cosa non e' nascosto, su cosa e' talmente palese che il solo considerare quella possibilita' offenderebbe la loro intelligenza.


    Bene, avete presente tutti quei BOT, appartenenti ad alcune grosse societa'-nomi (societa' reali e conosciute, bot reali) che vi riempono i log?

    Quasi mai nessun wm limita, blocca, o specula su questo genere di spider, il wm pensa, ehi, appartiene ad un grosso gruppo, un nome famoso, vero che ad oggi non mi ha portato un solo accesso.... ma perche' rischiare? Magari fra un 2 o 3 mesi esce con il suo motore ed io sono in buona posizione... per ora non tocco, poi quando uscira' il suo motore vedro' come comportarmi lato server, a seconda di come mi piazzo nelle sue serp.

    Ed i wm fanno tutti cosi'. Fiduciosi e speranzosi.
    Riempono i robots ed i loro htaccess dei bot dei soliti 3 motori e gli altri bot non solo non sono considerati, ma se il wm li trova nei suoi log e' contento... pensa, beh meglio che niente, un domani magari mi rendera' qualche accesso...


    Tutto legale, tutto morale, tutto perfettamente logico.

    Peccato che questi bot "alternativi", vecchi, famosi, conosciutissimi, (riscontrabili e verificabili come da url specificata nel loro ua) non portano mai un accesso, non hanno un senso apparente se non quello di ricerca, statistica, analisi del web o preparazione di un db per un futuro nuovo motore, e via discorrendo.


    Per ragionamento logico, analizzando il tutto in base alle precedenti considerazioni, sono portato a ritenere, a sospettare, a credere, che alcune grosse ed importanti societa' informatiche, che usano i loro bot ufficiali-veri per spiderizzare i nostri siti, societa' che poi non offrono un ritorno in termini di accessi ai wm dei siti, societa' che non offrono vere e pubbliche statistiche sul web agli utenti, societa' che spendono milioni di euro nello spaiderizzare il web ma che non hanno un ritorno economico tramite e grazie agli utenti, ecco tutte queste societa' avrebbero una loro giustificazione logica se fossero al servizio - partner - legate da accordi commerciali (al fine di fotografare lato utente) con i principali motori.

    Loro fotografano tramite il loro bot (bot non considerato praticamente dai wm) come se fosserero utenti, poi passano il tutto (i dati, le foto) ai 3 grandi motori e questi ultimi confrontano i dati ricevuti-comprati con i dati dei loro bot, quelli che spesso invece sono rediretti lato server.

    Stavolta mi sa che mi vengono a prendere... 🙂 🙂


  • User Attivo

    Caro ago, le tue locubrazioni, le tue ipotesi, anzi senza offesa permettimi di definirle basse insinuazioni, forse avranno anche una loro logica, ma non bastano per sostenere quanto ipotizzi.

    Per esempio un motore potrebbe basarsi sulla sua cache per valutare la differenza tra pagina utente e pagina spiderizzata.

    Ti faccio un esempio semplice semplice, lo spider passa e legge la pagina A, pagina che prevede l'uso di un suo file .js o di un iframe.

    Il wm della pagina A non vuole che il file js o l' iframe che vedra' l'utente sia uguale a quello che dovra' vedere lo spider. Allora lato server mandera il bot, il suo ip e quanto altro verso un diverso iframe e/o js.

    Peccato che tutto questo non serva per la pagina in cache. Se io motore simulassi di essere un utente e come tale accedessi alla pagina di cache lincata nella mia serp, riceverei e memorizzerei il vero js e/o iframe utente, in quanto il server che contiene la pagina A si troverebbe a ragionare non con un bot ma con un utente che come refer ha la cache di un motore.

    Se io motore simulo di essere un utente ed accedo al sito del wm allora corro un bel rischio, ma se accedo ad una mia pagina, pagina cache esterna ma memorizzata sul mio sito-server, allora rischio molto meno. Io motore navigo su me stesso, se le pagine da me archiviate poi caricano file esterni io non ne ho colpa....

    Non solo ma io motore posso anche analizzare come si comporta un utente vero che risponde ad una pagina in cache della mia serp, se si becca un redirect per via di un file caricato da quella pagina, ed il mio spider no, allora per me qualcosa non va...

    Insomma, per me la fai troppo semplice, ci sono molti altri sistemi... per dirne uno pensa alle tb, per verificare chi ridirige-specula sui bot e chi no.

    Che senso avrebbe per me motore mettermi "in mano" ad altre societa' quando in molti casi potrei valutare il tutto da solo? Ecco che tutto il tuo discorso, apparentemente cosi' logico, cade.


  • User Attivo

    Certo che puo' cadere agoago, c'e' sempre qualcuno dalla risposta pronta, pronto a dimostrarti che tutto e' vero cosi' come potrebbe esserlo il contrario del tutto.

    Gia' il fatto che ne discutiamo dovrebbe farti venire qualche dubbio, ma i dubbi sono parte delle persone intelligenti e forse tu non lo sei. Ovviamente, senza offesa.


  • Super User

    Sembra che Alekhine, al quale succedeva di lamentarsi di non poter abitualmente eseguire meravigliose combinazioni, poiche' solo raramente poteva contare su adeguati avversari che gli consentissero di giocare nella maniera migliore, fosse uso sedersi lui stesso dall'altra parte della scacchiera al fine di porre in essere tali fantastiche combinazioni.

    Nella foresta mentale di Alekhine cadevano quindi alberi dei quali il rumore veniva udito solo dall'Alekhine medesimo, oltre che dal suo alter ego ovviamente. Ma senza dubbio questo era sufficiente per considerare l'albero caduto, anche se nessun altro ne veniva a conoscenza.
    :vai:


  • Super User

    "Io c'ero". Ma se avessi assunto un ruolo avrei rovinato tutto.


  • User Attivo

    Elena, vado a dormire felice.

    Non so se hai fatto tesoro del giochino del profondo rosso, forse per fortuna, probabilmente perche' hai una sensibilita' pazzesca.

    Per superare il Gap degli orrori, a mio avviso basta contrappore-eludere-ovviare a cio' che avviene solo nella propria mente (e nessuno vede) con un qualcosa che e' si solo principalmente nella propria mente, ma un qualcosa che in seguito anche un tuo alter ego sara' in grado di vedere ed analizzare.

    Il bosco virtuale degli orrori di marshall puo' essere sconfitto grazie ad un qualcosa di altrettanto virtuale, un secondo io che sia in grado di prendere coscienza, capire, mettere in discussione, competere con i pensieri dell'io nativo.

    L'albero che cade nella mente di uno solo allora cadra' nella mente di due e pertanto il luogo non sara' piu' non luogo. Proprio vero che le cose piu' evidenti si rivelano essere quelle piu' introvabili.


  • Community Manager

    Agoago grazie, la tua esperienza è ottima anche per capire e gestire il forum 😉


  • User Attivo

    ago potresti mandarmi l'indirizzo del tuo pusher ?
    Mi sembra roba buona.. 🙂

    Ad ogni modo:
    hai ma sniffato la Gbar ? (domanda stupida)
    Io l'ho seguita per un paio d'ore poi mi son stufato, però c'era un parametrino carino che mi sembrava tipo un checksum.

    Se io G ho 10 milioni di pc con su installata la tb, perchè dovrei inventarmi bot fantascientifici per comparare due versioni di una pagina ?


  • User Attivo

    @uMoR said:

    ago potresti mandarmi l'indirizzo del tuo pusher ?
    Mi sembra roba buona.. 🙂

    Ad ogni modo:
    hai ma sniffato la Gbar ? (domanda stupida)
    Io l'ho seguita per un paio d'ore poi mi son stufato, però c'era un parametrino carino che mi sembrava tipo un checksum.

    Se io G ho 10 milioni di pc con su installata la tb, perchè dovrei inventarmi bot fantascientifici per comparare due versioni di una pagina ?

    Si anche se l'avevo fatto per alexa, ma non chiudendo la gtb mi ero passato anche i suoi dati.

    Pero' ad onor del vero non mi ricordo se la gtb passava a g anche il codice di cosa vede l'utente. Se non mi ricordo male gli passava url, time e cose simili.

    Forse mi ricordo male, comunque se la tb passasse a g tutto il contenuto di cosa un utente vede quell'utente avrebbe un danno pesantissimo in termini di banda, se scaricasse 100k di testo allora invierebbe altrettanti k, ma siccome le bande spesso sono differenziate (un top per down, un tot per up), un utente sarebbe fritto.


    Per quanto riguarda i bot "fantascientifici" non li definirei tali, in fondo si tratterebbe di veri spider di note societa' collegate. Niente di inventato, di forzato, ma semplici e storici bot che da anni si leggono i nostri siti senza apportare nessun vantaggio per i wm e gli utenti.

    Per quanto riguarda il pusher mi basta una bottiglia di single malt. Se invecchiata spendi di piu' che farti di qualsiasi altra sostanza alterante, ma ne vale la pena. Bisogna essere coerenti.

    Prima mi capitava di discutere con colleghi americani. Capivo al volo se qualcuno diceva idiozie ottimistiche perche' appena fatto di coca, se le idiozie erano del tipo mollo tutto, troppo dura e cose simili era perche' erano in down.

    Almeno avevo un paramentro per distinguere le 2 situazioni. Facevo una media tra le 2 e qualcosa ne ricavavo. Poi molti sono passati alle metanfetamine, lasciamo perdere.

    I seo americani (a mio parere) non sono propio quello che si potrebbe definire fenomeni e questo da sani, da lucidi. Immaginarsi...

    Credo che nella storia di ogni popolo ci sia un tot di genialita' da poter esprimere. L'america ha giocato-consumato tutti i suoi punti con Edison... (se non vi e' capitata l'occasione vi consiglio di leggere la sua bibliografia, la sua vita, da non credere fino a che punto un uomo possa eccellere, per intelligenza, abnegazione, praticita', sembra persino irreale che sia realmente esistito un uomo cosi') non pretendiamo di piu' da loro almeno per quelche secolo.


  • User

    Per poter fotografare una pagina "utente", io motore, dovrei presentarmi come un utente qualsiasi, con un ua qualsiasi e non come bot specifico del motore, con un ip diverso dal range assegnato al motore, ecc ecc.

    Se lo facessero, se si nascondessero dietro i dati di un ipotetico visitatore qualsiasi, e poi si scoprisse, sarebbero rovinati come immagine, troppo il rischio.
    Inoltre questo ipotetico trucco non avrebbe vita lunga, vi immaginate un wm che analizzando il suo file log vedesse un utente che accede velocemente a mezzo sito? Troppo sospetto, sarebbe un trucco che non avrebbe vita lunga.

    ago non capisco perchè si rovinerebbe l'immagine di un motore se facesse dei controlli con User Agent diversi dal canonico robot, per smascherare un cloaking su un sito bastano poche pagine non c'è bisogno di scaricarsi centinaia di pagine in poche ore.

    Credo che nella storia di ogni popolo ci sia un tot di genialita' da poter esprimere. L'america ha giocato-consumato tutti i suoi punti con Edison... (se non vi e' capitata l'occasione vi consiglio di leggere la sua bibliografia, la sua vita, da non credere fino a che punto un uomo possa eccellere, per intelligenza, abnegazione, praticita', sembra persino irreale che sia realmente esistito un uomo cosi') non pretendiamo di piu' da loro almeno per quelche secolo.

    Edison non è esattamente un esempio di "genialità" le sue tanto strombazzate invenzioni erano frutto del lavoro dei suoi dipendenti.
    Si incaponi con la corrente continua e mise in giro voci sulla pericolosità della corrente alternata per spingere le sue obsolete centrali a corrente continua.
    Di quell'epoca un grande genio è stato Nikola Tesla.


  • Super User

    Forse mi ricordo male, comunque se la tb passasse a g tutto il contenuto di cosa un utente vede quell'utente avrebbe un danno pesantissimo in termini di banda, se scaricasse 100k di testo allora invierebbe altrettanti k, ma siccome le bande spesso sono differenziate (un top per down, un tot per up), un utente sarebbe fritto.
    si anche io dubito che la toolbar invii a Google il codice scaricato da browser, troppa la divverenza tra dati in ingresso e in uscita e comunque scorretto ad esempio di chi naviga con tariffe a traffico consumanto (UMTS ecc...)


  • Super User

    se inviasse un checksum della pagina, verrebbe usata poca banda per controllare eventuale cloacking, pero'.


  • Super User

    @must said:

    se inviasse un checksum della pagina, verrebbe usata poca banda per controllare eventuale cloacking, pero'.

    Un normale checksum non potrebbe essere, perché con tutte le pagine dinamiche che ci sono in giro, anche la minima variazione (tipo quelle inutili scritte che ti indicano che ore sono) farebbero cambiare il checksum di molto e si generebbero un mucchio di "falsi positivi".

    Però potrebbe effettivamente essere un checksum più raffinato, che si basa solo su alcuni dei contenuti della pagina o addirittura solo sul codice HTML, che solitamente varia parecchio dalla pagina col cloaking a quella per l'utente.

    Detto questo, non credo che nessuna toolbar di nessun motore faccia queste analisi. A seconda delle pagine, temo che potrebbero rallentare la navigazione e i tempi di reazione del browser.

    Ritengo invece più fattibile un uso della toolbar per individuare i redirect Javascript o Flash, registrando "lato server" semplicemente il tempo trascorso tra il caricamento di due pagine da parte dello stesso browser e costruendo statistiche basate su più utenti.

    Ma io non ho notato ancora nulla di simile.


  • User Attivo

    Bartender scrive:

    "ago non capisco perchè si rovinerebbe l'immagine di un motore se facesse dei controlli con User Agent diversi dal canonico robot, per smascherare un cloaking su un sito bastano poche pagine non c'è bisogno di scaricarsi centinaia di pagine in poche ore."

    Se um motore ha un accordo commerciale con un altro motore minore e non sospetto nessuno se ne accorgerebbe e non ci sarebbe nessun tipo di danno di immagine, rispetta le regole. Per esempio, prendiamo il psbot.

    Passa che e' un piacere, nessun wm lo degna di considerazione perche' e' un bot minore ma serio, normalmente gli si lascia fare quello che vuole.

    Appartiene a picsearch.com, sito oltre al decimillesimo posto nella classifica di alexa, sito che se incassa qualche centinaio di dollari al giorno e' tanto. Ma usa risorse folli, inspiegabili in termini economici di uscite-entrate.

    Allora viene il dubbio:

    http://www.picsearch.com/menu.cgi?item=Licensing

    e qui prendiamo atto la loro tecnologia e' sfruttata anche da msn, yahoo, ecc ecc

    Allora uno pensa (che a pensar male...) ecco dove arrivano i soldi per tutte quelle risorse utilizzate.

    Sempre per il detto andreottiano... allora uno si chiede... ma passeranno ai partner solo la loro tecnologia, oppure anche o solo le immagini, oppure i dati delle pagine che spiderizzano?

    Secondo voi??

    E quanti bot minori passano tutti i giorni sui nostri siti senza che nessuno di noi li consideri per quello che realmente potrebbero essere? Tutto regolare, tutto in netiquette, tutto legale.

    Ma questi bot minori agiscono solo per loro stessi o anche per conto altrui?


    Per quanto riguarda Edison per me era un genio per cosa e' riuscito a ideare e creare, per come ha cambiato la nostra vita, per come ha lavorato sodo credendo sempre in quello che faceva. Per la sua testardaggine, perche' e' stato uno dei piu' grandi imprenditori dei nostri secoli, perche' non si arrendeva mai. Certo era un uomo, con i limiti e le meschinita' di ogni uomo. Ha coniugato la teoria alla pratica, non era solo un pensatore ma anche una persona concreta.

    Forse tutto questo non fa di lui un genio ma solo un uomo per molti versi unico, e quanto lui o i suoi collaboratori (tra i quali Testla, che poi dopo esser stato ingannato da edison se ne ando') hanno realizzato concretamente in mezzo secolo trova pochi riscontri al mondo.

    Un uomo che realizza nella sua esistenza un migliaio di brevetti.

    Tenuto conto che stiamo parlando di 2 persone di eccezionale livello, non c'e' dubbio che testla sta ad edison per moralita' e amor della scienza pura come un elefante sta ad un moscerino.

    Ma era il piu' grande, grande anche nella sua immoralita' e presunzione, nonostante la sua immoralita' e presunzione.