• Super User

    Altrimenti c'è un italiano che da Mountain View passa le sue giornate a navigare sui siti italiani con tanti computer contemporaneamente.


  • Super User

    @MenteLibera said:

    Ma Lynx non mi sembrerebbe essere il browser degli spider di Google o sbaglio?
    Per approfondimenti su Lynx: it.wikipedia.org/wiki/Lynx_(software)

    Lynx non è di Google ma è un browser testuale quindi legge i siti web come li leggono gli spider.

    E' come usare un filtro per trasformare un video a colori in bianco e nero per vedere come lo vedrebbe qualcuno che non vede i colori.


  • Admin

    Diciamo che non c'è molta letteratura in merito perché il 99% dei SEO sono capre e tendono a leggere quello che dicono altri e quello che dice Google invece di sperimentare e spulciare i vari strumenti e i log, ma se vuoi qui trovi ad esempio un estratto dagli strumenti per webmaster di Google relativo alle anteprime.

    Questo orientativamente esiste da molto ed è diventato più visibile da quanto Google introdusse Instant Preview. Fa lo stesso anche Bing per intenderci.

    In ogni caso spulciando i log del tuo server potrai vedere la provenienza di questo crawler che si manifesta come un Browser normale.


  • User Attivo

    @angelo.valenza
    Buon lavoro.

    @LorenzoRoma
    Come ho già detto Lynx è quello che più si avvicina a come gli spider riescono ad interpretare la pagina.
    Ciò non toglie che si possano utilizzare altri browser testuali. Gli utilizzatori di FireFox installando l'addon NoScript in parte intravedono come i browser testuali, ma con l'arricchimento dei tag HTML (come i colori, il font...); per altri browser non lo so.

    @Juanin,
    penso che il discorso sia molto lungo da essere trattato in un post anche perché ho una certa allergia agli equivoci, guerre di religione pur di difendere una propria posizione. Nelle differenze su una cosa invece concordo con te:

    @Juanin said:

    [...] il 99% dei SEO sono capre [...]

    infatti in giro ne vedo e leggo tanti.
    Invece non sono pienamente d'accordo sul fatto che secondo te leggono la documentazione di Google visto che poi si devono interfacciare proprio con la policy di questa multinazionale, altrimenti penso che dovrebbero prendere quella di Bing se volessero usare quest'altro MdR.

    Provando a fare un discorso sintetico inizio subito suggerendo di non prendere i log del server come il Vangelo perché sono camuffabili.

    Riguardo Instant preview altro non è che il codice HTML scaricato dagli spider e solo il nostro browser è in grado di renderizzare in base ai marcatori ipertestuali della pagina.
    Secondo me questo è il motivo per cui sbagli perché giochi sull'equivoco dei ruoli tra spider e browser.
    Cmq rispetto la tua opinione, fortunatamente la Terra è abbastanza vasta per tenerci tutti 🙂

    Forse quando avrò molto più tempo farò un articolo più dettagliato in futuro riguardo quanto trattato qui.

    Saluti a tutti.


  • Admin

    @MenteLibera Ti ho portato solo a titolo di esempio Instant Preview bada bene per dare modo di stuzzicare l'appetito.

    I log del server sono camuffabili fino ad un certo punto...almeno per chi li legge in modo corretto. Puoi fare un banale Reverse DNS per rimuovere i falsi positivi. Ci tengo a precisare che per la frase che hai quotato non mi riferivo ASSOLUTAMENTE a te, ma facevo un discorso generico che sicuramente condividerai.

    Non gioco su nessun equivoco, ma voglio solo farti presente senza entrare troppo nel tecnico che Google ha modo di sapere come è fatta la tua pagina. Poi puoi crederci oppure no 🙂

    Per quanto riguarda Google Analytics invece nei commenti sopra quello che volevo fare notare è che l'URL anche se non apparentemente linkata può essere raggiunta senza problemi sia da utenti che da bot (non parlo nello specifico di Googlebot) e di conseguenza il conteggio può essere falsato perché non tutti i bot non eseguono js. Non faccio nessun appunto al tuo commento e ragionamento che è assolutamente corretto anzi te lo posso reinforzare con questo

    --
    C'è questo link (che è quello di cui parlavi tu sulla post) http://googlewebmastercentral.blogspot.co.uk/2011/11/get-post-and-safely-surfacing-more-of.html

    Poi c'è anche questa affermazione di Cutts:

    "For a while, we were scanning within JavaScript, and we were looking for links. Google has gotten smarter about JavaScript and can execute some JavaScript. I wouldn't say that we execute all JavaScript, so there are some conditions in which we don't execute JavaScript. Certainly there are some common, well-known JavaScript things like Google Analytics, which you wouldn't even want to execute because you wouldn't want to try to generate phantom visits from Googlebot into your Google Analytics".
    http://www.searchnewz.com/seo-interview-with-matt-cutts-2010-03

    Che tendenzialmente e come è giusto che sia mette in esclusione l'eventuale esecuzione codice Analytics, ma non di JS in genere.
    Nella normalità delle cose non dovrebbe avvenire, ma non significa questo che non sia possibile. Non avviene semplicemente perché molto probabilmente GA è gestito come eccezione e non perché non ci sia la capacità.

    In ogni caso per quanto riguarda Analytics e Googlebot qui andremmo offtopic perché una possibile soluzione per angelo.valenza è di controllare che il codice di conversione venga effettivamente erogato solo in caso di vera conversione perché credo sia quello il suo problema.


  • User Attivo

    @Juanin, sì infatti concordo con te sulla discutibile professionalità di molti SEO con gli effetti che purtroppo ben vediamo, e lo dico senza retoriche.

    In effetti sapere con esattezza come e cosa fa Google è un po' come sapere la formula segreta della Coca-Cola, al limite possiamo fare delle congetture e ciò penso che apra le strade di più scuole.
    Mi ricorda un po' il Karate che ha 4 diversi stili ufficiali da cui divergono più filosofie di pensiero...

    JavaScript lo vedo un po' come un Jolly perché ci sono casi con comportamenti imprevedibili.
    Ad onor del vero per essere eseguito il sistema deve avere un motore Javascript funzionante, raramente vero.

    Ti ringrazio di aver riportato il link all'articolo che avevo citato nel mio primo post di questo thread.

    Mi fermo qui, non vorrei diventasse una conversazione a due, mentre penso che dovremmo aspettare qualche giorno per vedere la rimozione di quella pagina dell'OP dall'indice di Google, e magari speriamo che ci faccia sapere l'evoluzione.


  • Super User

    @MenteLibera visto che hai detto "Ma Lynx non mi sembrerebbe essere il browser degli spider di Google o sbaglio?" pensavo stessi chiedendo perchè usarlo se non è ciò che usano gli spider di Google. Io spesso non uso Lynx ma vado direttamente a leggermi il codice sorgente della pagina.


  • Super User

    @MenteLibera said:

    Provando a fare un discorso sintetico inizio subito suggerendo di non prendere i log del server come il Vangelo perché sono camuffabili.

    Tecnicamente... i log del server sono molto più affidabili del Vangelo.


  • User Attivo

    @LorenzoRoma,
    Lynx non è un prodotto di "Casa Google" (infatti sono gli sviluppatori di Chrome che nulla ha che vedere con il rendering dell'altro, anche il link che avevo postato a Wikipedia lo documenta), invece riportavo un passo di una linea guida di Google per invogliare i professionisti a testare i propri prodotti con un'applicazione che più si avvicina a quella vista dagli spider.
    IMHO quel loro suggerimento vale come l'oro, poi il mondo è bello perché vario e rispetto anche altre opinioni.

    In effetti in parte ti devo dar ragione: non fidiamoci ciecamente né dei log del server né nel Vangelo.


  • Super User

    Mi sa che non ci stiamo capendo, so benissimo che Lynx non è un prodotto di Google (e infatti l'ho scritto).
    Quel passo delle linee guida di Google credo voglia intendere che quello che vediamo noi non corrisponde sempre a ciò che vedono gli spider, perché ad esempio con i file CSS è possibile spostare i vari elementi della pagina dove vogliamo noi (esempio: position absolute + top 0) mentre invece gli spider si limitano a leggere la pagina così come è scritta nell'html e gli spider "danno più importanza" a ciò che è scritto all'inizio della pagina.


  • User Attivo

    @LorenzoRoma

    Esatto.