Obiettivi: il dato di Analytics non corrisponde al numero reale

mentelibera

Esiste anche un crawler visuale di Google

Mi potresti cortesemente dire il nome o la fonte? Ho cercato un po' su Google ma non l'ho trovato.

Invece dal supporto di Google ho trovato questo:

Utilizza un browser di testo come Lynx per esaminare il tuo sito, in quanto la maggior parte degli spider dei motori di ricerca rileva il sito allo stesso modo di Lynx. Se funzioni creative come JavaScript, cookie, ID di sessione, frame, DHTML o Flash ti impediscono di visualizzare l'intero sito in un browser di testo, anche gli spider dei motori di ricerca potrebbero riscontrare problemi durante la scansione del tuo sito.

Ma Lynx non mi sembrerebbe essere il browser degli spider di Google o sbaglio?
Per approfondimenti su Lynx: it.wikipedia.org/wiki/Lynx_(software)

angelo.valenza

@MenteLibera said:

@angelo.valenza,
una delle nuove funzionalità di Google è stata quella di cercare di indicizzare le pagine di processamento delle form se questa non contenesse elementi che facciano pensare ad un login. Sfortunatamente non ho il link sottomano.

Conseguentemente se quella pagina fosse indicizzata ed un utente con una certa ricerca su Google potrebbe riportarla nella SERP.

Ho messo il condizionale "potrebbe" perché si potrebbe dare la direttiva NOINDEX nel metatag robots che indica di non indicizzare quella pagina.

So che sto per ripetermi, ma GA registra solo le visite dei client con JavaScript abilitato. Conseguentemente non registra il traffico generato dagli spider di Google.
Infine, IMHO suggerisco di mettere un semplice Captcha per evitare di avere submit fatti dai Bot...

Grazie mille, eseguo subito!

lorenzoroma

Altrimenti c'è un italiano che da Mountain View passa le sue giornate a navigare sui siti italiani con tanti computer contemporaneamente.

lorenzoroma

@MenteLibera said:

Ma Lynx non mi sembrerebbe essere il browser degli spider di Google o sbaglio?
Per approfondimenti su Lynx: it.wikipedia.org/wiki/Lynx_(software)

Lynx non è di Google ma è un browser testuale quindi legge i siti web come li leggono gli spider.

E' come usare un filtro per trasformare un video a colori in bianco e nero per vedere come lo vedrebbe qualcuno che non vede i colori.

juanin

Diciamo che non c'è molta letteratura in merito perché il 99% dei SEO sono capre e tendono a leggere quello che dicono altri e quello che dice Google invece di sperimentare e spulciare i vari strumenti e i log, ma se vuoi qui trovi ad esempio un estratto dagli strumenti per webmaster di Google relativo alle anteprime.

Questo orientativamente esiste da molto ed è diventato più visibile da quanto Google introdusse Instant Preview. Fa lo stesso anche Bing per intenderci.

In ogni caso spulciando i log del tuo server potrai vedere la provenienza di questo crawler che si manifesta come un Browser normale.

mentelibera

@angelo.valenza
Buon lavoro.

@LorenzoRoma
Come ho già detto Lynx è quello che più si avvicina a come gli spider riescono ad interpretare la pagina.
Ciò non toglie che si possano utilizzare altri browser testuali. Gli utilizzatori di FireFox installando l'addon NoScript in parte intravedono come i browser testuali, ma con l'arricchimento dei tag HTML (come i colori, il font...); per altri browser non lo so.

@Juanin,
penso che il discorso sia molto lungo da essere trattato in un post anche perché ho una certa allergia agli equivoci, guerre di religione pur di difendere una propria posizione. Nelle differenze su una cosa invece concordo con te:

@Juanin said:

[...] il 99% dei SEO sono capre [...]

infatti in giro ne vedo e leggo tanti.
Invece non sono pienamente d'accordo sul fatto che secondo te leggono la documentazione di Google visto che poi si devono interfacciare proprio con la policy di questa multinazionale, altrimenti penso che dovrebbero prendere quella di Bing se volessero usare quest'altro MdR.

Provando a fare un discorso sintetico inizio subito suggerendo di non prendere i log del server come il Vangelo perché sono camuffabili.

Riguardo Instant preview altro non è che il codice HTML scaricato dagli spider e solo il nostro browser è in grado di renderizzare in base ai marcatori ipertestuali della pagina.
Secondo me questo è il motivo per cui sbagli perché giochi sull'equivoco dei ruoli tra spider e browser.
Cmq rispetto la tua opinione, fortunatamente la Terra è abbastanza vasta per tenerci tutti

Forse quando avrò molto più tempo farò un articolo più dettagliato in futuro riguardo quanto trattato qui.

Saluti a tutti.

juanin

@MenteLibera Ti ho portato solo a titolo di esempio Instant Preview bada bene per dare modo di stuzzicare l'appetito.

I log del server sono camuffabili fino ad un certo punto...almeno per chi li legge in modo corretto. Puoi fare un banale Reverse DNS per rimuovere i falsi positivi. Ci tengo a precisare che per la frase che hai quotato non mi riferivo ASSOLUTAMENTE a te, ma facevo un discorso generico che sicuramente condividerai.

Non gioco su nessun equivoco, ma voglio solo farti presente senza entrare troppo nel tecnico che Google ha modo di sapere come è fatta la tua pagina. Poi puoi crederci oppure no

Per quanto riguarda Google Analytics invece nei commenti sopra quello che volevo fare notare è che l'URL anche se non apparentemente linkata può essere raggiunta senza problemi sia da utenti che da bot (non parlo nello specifico di Googlebot) e di conseguenza il conteggio può essere falsato perché non tutti i bot non eseguono js. Non faccio nessun appunto al tuo commento e ragionamento che è assolutamente corretto anzi te lo posso reinforzare con questo

--
C'è questo link (che è quello di cui parlavi tu sulla post) http://googlewebmastercentral.blogspot.co.uk/2011/11/get-post-and-safely-surfacing-more-of.html

Poi c'è anche questa affermazione di Cutts:

"For a while, we were scanning within JavaScript, and we were looking for links. Google has gotten smarter about JavaScript and can execute some JavaScript. I wouldn't say that we execute all JavaScript, so there are some conditions in which we don't execute JavaScript. Certainly there are some common, well-known JavaScript things like Google Analytics, which you wouldn't even want to execute because you wouldn't want to try to generate phantom visits from Googlebot into your Google Analytics".
http://www.searchnewz.com/seo-interview-with-matt-cutts-2010-03

Che tendenzialmente e come è giusto che sia mette in esclusione l'eventuale esecuzione codice Analytics, ma non di JS in genere.
Nella normalità delle cose non dovrebbe avvenire, ma non significa questo che non sia possibile. Non avviene semplicemente perché molto probabilmente GA è gestito come eccezione e non perché non ci sia la capacità.

In ogni caso per quanto riguarda Analytics e Googlebot qui andremmo offtopic perché una possibile soluzione per angelo.valenza è di controllare che il codice di conversione venga effettivamente erogato solo in caso di vera conversione perché credo sia quello il suo problema.

mentelibera

@Juanin, sì infatti concordo con te sulla discutibile professionalità di molti SEO con gli effetti che purtroppo ben vediamo, e lo dico senza retoriche.

In effetti sapere con esattezza come e cosa fa Google è un po' come sapere la formula segreta della Coca-Cola, al limite possiamo fare delle congetture e ciò penso che apra le strade di più scuole.
Mi ricorda un po' il Karate che ha 4 diversi stili ufficiali da cui divergono più filosofie di pensiero...

JavaScript lo vedo un po' come un Jolly perché ci sono casi con comportamenti imprevedibili.
Ad onor del vero per essere eseguito il sistema deve avere un motore Javascript funzionante, raramente vero.

Ti ringrazio di aver riportato il link all'articolo che avevo citato nel mio primo post di questo thread.

Mi fermo qui, non vorrei diventasse una conversazione a due, mentre penso che dovremmo aspettare qualche giorno per vedere la rimozione di quella pagina dell'OP dall'indice di Google, e magari speriamo che ci faccia sapere l'evoluzione.

lorenzoroma

@MenteLibera visto che hai detto "Ma Lynx non mi sembrerebbe essere il browser degli spider di Google o sbaglio?" pensavo stessi chiedendo perchè usarlo se non è ciò che usano gli spider di Google. Io spesso non uso Lynx ma vado direttamente a leggermi il codice sorgente della pagina.

lorenzoroma

@MenteLibera said:

Provando a fare un discorso sintetico inizio subito suggerendo di non prendere i log del server come il Vangelo perché sono camuffabili.

Tecnicamente... i log del server sono molto più affidabili del Vangelo.

mentelibera

@LorenzoRoma,
Lynx non è un prodotto di "Casa Google" (infatti sono gli sviluppatori di Chrome che nulla ha che vedere con il rendering dell'altro, anche il link che avevo postato a Wikipedia lo documenta), invece riportavo un passo di una linea guida di Google per invogliare i professionisti a testare i propri prodotti con un'applicazione che più si avvicina a quella vista dagli spider.
IMHO quel loro suggerimento vale come l'oro, poi il mondo è bello perché vario e rispetto anche altre opinioni.

In effetti in parte ti devo dar ragione: non fidiamoci ciecamente né dei log del server né nel Vangelo.

lorenzoroma

Mi sa che non ci stiamo capendo, so benissimo che Lynx non è un prodotto di Google (e infatti l'ho scritto).
Quel passo delle linee guida di Google credo voglia intendere che quello che vediamo noi non corrisponde sempre a ciò che vedono gli spider, perché ad esempio con i file CSS è possibile spostare i vari elementi della pagina dove vogliamo noi (esempio: position absolute + top 0) mentre invece gli spider si limitano a leggere la pagina così come è scritta nell'html e gli spider "danno più importanza" a ciò che è scritto all'inizio della pagina.

mentelibera

@LorenzoRoma

Esatto.