lowlevel

lowlevel

@kal ha detto in Lo sapevate che Google effettua la ricerca solo fino a 32 parole chiave?:

Forse il limite c'era ma non era scritto?

Per quanto ricordi io, veniva scritto esplicitamente anche molti anni fa.

Questo post del 2005 su Google Blogoscoped mostra uno screenshot del messaggio che appariva all'epoca:

Questo è invece un post del 2014 su questo stesso forum, con una discussione analoga.

lowlevel

Ciao a tutti!

Il limite delle ~32 parole esiste da molti anni.

Non ricordo esattamente quanti, ma almeno una decina e non mi stupirei se fosse una caratteristica di "protezione" esistente fin dall'infanzia del motore di ricerca.

Per "protezione" intendo che la funzione principale di quella soglia è di limitare i costi. Per ogni parola indicata nella query, Google sostiene un costo di ricerca del termine nelle cosiddette "hitlist", che non sono altro che le strutture dati in cui Google ha memorizzato quali documenti contengono certe parole. L'analogo di un indice analitico presente nei libri.

Più parole ci sono nella query, più il costo sale, quindi Google ha deciso di impostare un limite arbitrario alla quantità di parole accettate. E' una contromisura comune tra i motori di ricerca, perché il Web è fatto anche di bot, scraper e di interrogazioni automatiche che i motori non gradiscono.

Fate conto che stiamo parlando di contromisure "storiche", antecedenti a contromisure anti-bot più recenti e sofisticate, come l'uso di captcha.

Immagino che ci sia anche una seconda ragione, di buonsenso, nel limitare la quantità di parole: per come funzionano le cose in Google, una quantità maggiore di parole non migliora necessariamente la qualità dei risultati di ricerca, anzi...

Oltre una certa soglia di parole, è più probabile che aggiungerne di più aumenti i costi, abbassi la qualità della SERP (per non parlare dei tempi di attesa maggiori per l'utente).

Questo limite di 32 non è correlato ad altri limiti osservati in passato, come quello delle prime 12 parole del tag title, né è correlato ai contenuti delle risorse scoperte e analizzate dal motore. Di conseguenza non può dare suggerimenti per le attività di scrittura testi.

E' solo un limite che viene imposto a monte a quanto l'utente vorrebbe cercare.

lowlevel

Ecco quali sono gli interventi che mi sono piaciuti di più.

<black_hat_mode>
Quello di Morellato
Quello di Altavilla
Il SEO Wars
</black_hat_mode>

<white_hat_mode>
Quello di Michele Baldoni
Quello di Andrea Scarpetta
Quello di Enrico Madrigrano
Quello di Marco Loguercio
Quello di Fabio Sutto
</white_hat_mode>

Ringrazio tutti gli organizzatori per la bellissima esperienza e per aver supportato senza limiti i due deficienti che rispondono al nome di Morellato e Altavilla.

(aggiunto: unica nota negativa, il catering e i problemi tecnici ai microfoni)

lowlevel

@mloguercio said:

non argomenta mai le cose "perchè lo dico io che sono un guru" (qui ci sarebbe stato bene scriverlo nel suo romanesco:-)

"Si t'o dico io, te devi da fida'."

lowlevel

@sognista said:

@ Lowlevel: terrorista nel senso 'paranoico che si fa troppi scrupoli' o nel senso che proprio mettere i nofollow potrebbe far scattare una perquisizione di arsenali nucleari sotto alla mia scrivania?

"Terrorista" riferito sia alle motivazioni per le quali prendi una scelta simile (dettate da timori ma prive di una connotazione logica né in linea con le stesse linee guida di Google) sia alla soluzione in sé, che prevede di relagare a fondo pagina una struttura di navigazione che i tuoi utenti trovano utile ed usano, più una presa di distanze nei confronti di altri contenuti di qualità che hanno la "colpa" (secondo standard tuoi, non certo dei motori) di essere ospitati su domini esterni. Come se usare domini diversi fosse un morbo.

Prendere a calci l'usabilità di un sito e ridurre la sua qualità complessiva solo perché sei convinto che ci sia da qualche parte una regola che dica "tutti i link fatti a questo modo sono considerati spam", non è niente di positivo.

Sono azioni indotte dal terrore e che , in base a quanto hai detto, hanno già prodotto decisioni terroristiche nei confronti del tuo sito, che ne abbasseranno la qualità.

lowlevel

Ho visto le nuove novità ma uso Twitter prevalentemente attraverso client esterni e sul sito vado poco spesso.

Non sono novità che cambieranno il mio modo di usufruire del servizio, perché non influiscono sulle uniche informazioni che mi interessa monitorare e che monitoro già senza problemi.

Penso che molto dipenda da come ciascuno di noi usa il servizio: io interagisco molto poco, non lo uso quasi mai per chattare o scambiare opinioni e mi basta ricevere informazioni. L'interazione la relego ad altri contesti sociali, ma magari per chi vive Twitter come un social network le nuove aggiunte potranno piacere ed essere utili.

lowlevel

In ogni caso, io provo a essere ottimista: metto il navigatore in fondo alla pagina e tutti gli interlink con il nofollow

Questo non significa essere ottimisti, significa essere terroristi.

lowlevel

@alfa038 said:

C'è un modo, utilizzando la modalità sopra indicata, per essere sicuri che il risultato mostrato sia quello "ufficiale"?

No, perché quel concetto non esiste più da molto tempo.

Il concetto di "posizione" è stato sostituito da "posizione media" e puoi monitorarla attraverso Google Webmaster Tools... che purtroppo fornisce dati approssimativi.

Tra l'altro, non hai specificato che tipo di ricerche devi monitorare (il settore, se riguardano contenuti in continua evoluzione, se sono legate a località geografiche, se sono legate ad un utilizzo mobile, ecc.) e senza queste informazioni non è possibile sapere quanto la tua posizione oscilla a seconda di come/dove viene fatta la ricerca.

lowlevel

@marta_de_angelis said:

Che qualche manciata di revisori controllino miliardi e miliardi di pagine la vedo dura.

No, aspetta, nessuno ha detto che il personale lavori in quel modo, non controllano a mano miliardi di pagine. Funziona in un altro modo, cerco di spiegarlo meglio di come ho fatto nel post precedente.

Alcuni tipi di algoritmi di machine learning, per natura, devono beneficiare di alcune fasi di training, che consiste nella valutazione umana di un sottoinsieme di risorse, dalla quale poi l'algoritmo "apprende" estraendone criteri generali. I risultati della valutazione servono dunque all'algoritmo per identificare quali caratteristiche tecniche possiedono le risorse che sono state valutate positivamente o negativamente.

Per esempio, Panda è un algoritmo che fa uso di una tecnica simile: son partiti da una manciata di valutazioni umane per tirar fuori regole generiche applicabili all'intero web (o quasi).

Era questo a cui mi riferivo quando dicevo: "considerazioni umane, successivamente trasposte in combinazioni dei segnali tecnici". Si fa uso di personale per acquisire valutazioni umane (e qui rientra il "Google guarda alla tua coscienza"), poi da queste valutazioni vengono estratti criteri generali.

@marta_de_angelis said:

I controlli scattano su segnalazioni, non è che si mettono a navigare e controllare.

In alcuni casi sì, dipende dal tipo di controlli a cui ti riferisci. Esistono due contesti diversi, gestiti in Google da due team diversi.

(questa distinzione è più importante di quello che si crede, perché chi la ignora crede che Google proceda prevalentemente con criteri punitivi, quando il criterio principe è invece quello di individuazione della qualità, ma qui sto divagando...)

Nel contesto della valutazione della qualità dei risultati, Google usa sia personale umano (sono i Quality Rater, personale che tra le altre cose "naviga e controlla" su indicazioni di Google) sia soluzioni algoritmiche. L'obiettivo principale delle valutazioni dei QR non è fare antispam, però se gli capita dello spam sotto il naso lo possono flaggare come tale.

Nel contesto anti-spam, invece, Google usa sia soluzioni algoritmiche sia personale interno (che si occupa di valutare le segnalazioni antispam a cui facevi riferimento tu).

In tutti e due i contesti, l'apporto umano c'è, ovviamente sfruttato nel modo che indicavo sopra e non per fargli valutare a mano l'intero web.

Alcuni Quality Rater sono anche frequentatori di questo forum. Se il loro contratto gli permettesse di manifestarsi come tali in pubblico, potrebbero confermare. In assenza di ciò, le linee guida dei quality rater recentemente pubblicate da SEL forniscono una buona visione generale di quanto i quality rater fanno e come lo fanno.

@marta_de_angelis said:

Ne ho visti network del genere fare pessima fine.

Sì, ne ho osservato tantissimi anche io. Qualità globale orrenda, contenuti carenti, inutili o superflui per gli utenti. Sono stati segati per quella ragione, non perché erano interlinkati. Interlinkare argomenti correlati e di qualità fa bene al network, interlinkare contenuti non correlati o spazzatura fa male al network.

Nel caso dell'utente sognista, senza osservare il suo specifico caso non c'è modo di sapere se sta andando incontro a problemi di qualche genere, proprio perché di per sé l'interlinking non modifica di una virgola la natura o la bontà del sito/network.

Al massimo si può dire che in molti contesti spammosi, gli spammer hanno in passato linkato i siti di un network in quel modo là. Ma del resto molti siti porno hanno sfondo scuro e dubito che ciò sia sufficiente a indurre Google a classificare come pornografici tutti i siti con sfondo scuro.

lowlevel

@sognista said:

il problema è che Google non guarda nel codice, non nella mia coscienza

Ma certo che guarda alla tua coscienza, lo fa da anni!

I Quality Rater sono personale umano stipendiato per allenare il motore a riconoscere risultati di ricerca migliori e siti di alta o bassa qualità sulla base di considerazioni umane, successivamente trasposte in combinazioni dei segnali tecnici che il motore di ricerca monitora costantemente.
L'intera caccia alle streghe degli ultimi anni sulla compravendita di link ha avuto l'obiettivo di individuare proprio gli intenti dietro la nascita di un link. Un link, di per sé, non è ne buono né cattivo. A fare la differenza è l'intento per il quale è stato creato.
Il cloaking non è una tecnica sgradita da Google se la usi per intenti etici. Persino Google ti suggerisce di usarlo in specifici casi! (es: First Click Free)

Lo spauracchio che ad essere punite sono le tecniche e non gli intenti se lo sono creati i SEO nella propria testa, ma è una convinzione malata oltre che una semplificazione eccessiva alla quale si ricorre in assenza di informazioni su come un motore di ricerca valuta realmente le risorse.

Qualunque algoritmo di penalizzazione di un motore viene progettato in modo da evitare o minimizzare i "falsi positivi". Questa non è una teoria, è una conditio sine qua non per tutti gli informatici che devono sviluppare algoritmi volti a valutare scenari potenzialmente malevoli.

Se il motore si rende conto che un algoritmo produce troppi falsi positivi, aggiusta il tiro modificando i parametri che lo regolano, per esempio abbassando un valore soglia o un peso della formula che incide sulla classificazione dell'oggetto valutato.

Un motore di ricerca produrrebbe risultati scandalosamente cattivi se le proprie analisi si fermassero al codice delle pagine, così come un sistema giudiziario farebbe schifo se giudicasse automaticamente colpevoli tutti i possessori di armi, fermando la valutazione al solo possesso dell'oggetto.

I network espliciti di domini non possiedono una valenza intrinsecamente positiva o negativa, stanne certo. Sul web ci sono sicuramente diversi portali con queste caratteristiche, eventuali loro problemi SEO possono essere ricondotti a parametri qualitativi (es: l'interlinking ha un senso per l'utente?), non all'interlinking in sé.

Riassumendo: se un progettista pazzo di Google aggiungesse (unilateralmente e senza fare prima mesi di test in ambienti di sandbox) una regola assoluta che dice "Tutti i siti che si linkano in questo modo vanno considerati spam", perderebbe il posto di lavoro dopo pochi millisecondi. E poi lo perderebbe chi l'ha assunto.

lowlevel

@sognista said:

perché mai se li connetto uno con l'altro devo rischiare punizionie corporali da Google?

Ma infatti il motore non ha interesse a punirti. I motori non hanno interesse a penalizzare le implementazioni ma solo le cattive intenzioni che vi stanno dietro.

L'interlinking tra domini diversi non è di per sé qualcosa di positivo o negativo, non esistono tecnologie buone o cattive ma al massimo solo utilizzi malevoli.

Quindi la domanda da porti è: hai progettato il tuo network in quel modo per fregare i motori di ricerca? Se sì, allora stai rischiando una penalizzazione; se no, allora non stai rischiando una penalizzazione, a meno che Google non scazzi completamente e che per tua sfiga si sbagli sulla tua valutazione (a volte capita).

Poi c'è un discorso diverso da fare e che riguarda la qualità. Qual è la qualità del sistema che hai creato? E' più usabile per l'utente? E' facile da navigare? La natura multi-dominio è giustificata da un vantaggio dato agli utenti?

Le domande sulla qualità rimangono sempre valide per capire se la situazione può essere ulteriormente migliorata, ma non riguardano il fenomeno delle penalizzazioni.

Lì fuori ci sono centinaia di siti e portali multi-dominio, così come tanti siti che erogano a Googlebot contenuti diversi da quelli che vedrebbe l'utente, così come pagine che hanno testi "a comparsa". Sono intrinsecamente cattivi? No. Buoni? Nemmeno. Dipende dal perché lo fanno.

lowlevel

@Marcomail said:

però non vorrei che google, una volta che gli passiamo tutte le nostre info, diventa più esigente.

Al di là del caso specifico, più informazioni dai al motore, più esso è preciso nelle sue valutazioni. Il che significa: più preciso nell'identificare la qualità e più preciso nell'identificare la mancanza di qualità.

lowlevel

Ci sono alcuni rari casi in cui Google può decidere di bannare tutti i siti ospitati su un IP.

Tuttavia non ho mai osservato un caso del genere in condizioni normali di web hosting, nel senso che non è sufficiente essere messi dall'hosting provider su un server usato anche da siti spammosi per subirne conseguenze negative.

Ricordo che Matt Cutts da qualche parte confermò quanto appena scritto, ma non ricordo dove (Youtube? Blog? Intervista? boh).

lowlevel

Il fatto che i link non abbiano tutti lo stesso valore è stato quasi dato per scontato negli ultimi anni, sia alla luce di osservazioni sui benefici portati sia svolgendo test specifici.

Da anni i SEO comprendono che un link in un footer ha un valore diverso rispetto a quello presente in un contesto di utilità maggiore per l'utente; allo stesso modo c'è consapevolezza che i link venduti perdono valore nel momento in cui il motore comprende la natura "commerciale" che sta dietro alla loro creazione. Non penso che Cutts abbia rivelato niente che già non sia stato osservato.

Un buon sistema di valutazione dei link dovrebbe però basarsi su analisi link-per-link e non generiche. Le ragioni sono almeno due:

Un sistema fondato principalmente sulla qualità generale di un sito non sarebbe in grado di gestire i tanti casi in cui link di qualità vengono creati su siti non autorevoli oppure in cui link di bassa qualità vengono creati su siti autorevoli;
I sistemi che si basano su whitelist di siti sono quasi sempre degli accrocchi orrendi e poco scalabili, per tale ragione vengono evitati come la peste. Ci sono casi in cui vengono usati, ma si tratta di eccezioni e ripieghi ai quali si accorre quando non è possibile fare di meglio.

Quanto scritto sopra non significa che nel determinare la bontà di un link il motore non tenga conto anche della qualità della risorsa in cui il link risiede, anzi è più probabile proprio il contrario. Però significa che non è sufficiente che un sito sia classificato come "buono" per rendere automaticamente buoni anche tutti i link che ospita.

lowlevel

@SeoDart said:

Le tue idee sono interessanti

Espondendo quanto sopra non vorrei aver indotto all'equivoco ed eventualmente mi scuso precisando: non sono mie idee, è proprio come un motore di ricerca viene progettato.

Quando progetti un motore, anche semplice e seguendo le tecnologie e gli algoritmi meno complessi dell'information retrieval, fai le cose in modo che gli algoritmi rendano ciascun documento unico e "distante" da qualsiasi altro.

In altre parole hai bisogno che ogni documento sia diverso e distante dall'altro, anche nel caso di contenuti identici. E siccome hai questo bisogno progetti il motore in maniera che tale diversità esista sempre.

Questo implica che non c'è modo di rendere ininfluenti i contenuti di un documento o le informazioni esterne al documento che il motore associa ad esso.

Quindi non è una questione di quante pagine produci o di quello che ci metti dentro: non esiste proprio modo di creare due (o più) documenti che il motore percepisce come identici né modo di rendere ininfluenti parte dei loro contenuti o (sopratutto) delle informazioni esterne che il motore vi assegna.

Creare un contesto in grado di isolare un singolo fattore è tecnicamente impossibile, sopratutto perché molti degli elementi valutati non li crei né gestisci tu ma li "produce" il motore stesso attraverso le proprie attività e calcoli.

@overclokk said:

Però dovresti usare pagine uguali in tutto e questo significherebbe avere contenuti duplicati.

Anche questo è corretto. Qualora fosse possibile creare due risorse uguali in tutto e per tutto (cosa che non è possibile), subentrerebbero comunque fenomeni aggiuntivi come quello dei filtri anti-duplicazione, che ovviamente falserebbe in ogni caso i risultati del test.

lowlevel

@SeoDart said:

Non vedo altra spiegazione.

Hmm.. Temo che ce ne siano molte di più oltre all'unica che hai pensato.

Innanzitutto le formule che calcolano l'attinenza tra una query e un documento fanno uso di statistiche sulle parole presenti nell'intero corpus del motore.

Il fatto che uno dei documenti contenga un numero maggiore o minore di parole già conosciute dal motore, può influenzare tali calcoli. Pur avendo ruotato i caratteri di molte parole, alcune rotazioni hanno dato comunque vita a parole di senso compiuto e sicuramente conosciute dal motore, come la parola "simili", che appare in uno solo dei due documenti.

In secondo luogo, gli algoritmi di gestione degli errori di battitura potrebbero riconoscere o ritenere una parola di senso compiuto anche nel caso in cui essa sia stata scritta in modo errato. Questo implica che, nonostante alla vista ciascuna parola sembri priva di senso, nel momento in cui essa viene passata al vaglio di un algoritmo per la sua riconduzione a degli n-grammi già conosciuti dal motore, l'output produce comunque informazioni di vicinanza a parole di senso compiuto. Magari le informazioni sono scazzate e la congettura del motore non è sempre corretta, ma esse vengono comunque prodotte.

Per renderti conto di questo fenomeno, purtroppo solo in fase di querying, è sufficiente che tu cerchi le parole [graize anche all' autio di alcune] (senza virgolette) per renderti conto di come potrebbe avvenire il processo di riconduzione a termini conosciuti. Sia ben chiaro: il fatto che in fase di query avvenga la correzione delle parole non implica necessariamente che una gestione simile avvenga anche in fase di indicizzazione e analisi dei testi dei documenti. Però è altrettanto vero che esistono da anni algoritmi che si avventaggiano di queste analisi per stimare il livello di correttezza sintattica dei testi, un indice qualitativo che non si può escludere venga preso in considerazione dai motori.

Terzo: c'è un'ulteriore differenza tra le due pagine, ovvero solo una delle due fa uso di neretti (tag "B"). Anche questi tipi di arricchimento possono giocare a favore o a sfavore di una delle due pagine, anche se tali arricchimenti non sono a beneficio delle parole cercate.

Quarto aspetto: anche il numero delle parole nei documenti è diverso, a causa di alcuni spazi in più in uno dei due. Per certo il numero di parole del documento è sempre stato uno dei parametri delle formule usate per calcolare la "vicinanza" di un documento alla query dell'utente (per esempio, è un parametro tipico del BM25).

Riassumendo: non è più possibile da tempo creare due pagine di testo sperando di rendere ininfluenti i testi stessi per i calcoli di attinenza documento-query. Quantità di parole, frequenza di parole nel corpus, differenze semantiche e algoritmi di riconoscimento degli n-grammi per la gestione degli errori di battitura tengono conto di tutte le parole di una pagina e influiscono su qualsiasi calcolo di attinenza. Non c'è modo di azzerare la loro influenza, perché le formule usate tengono conto di tali elementi e fattori.

Si potrebbe andare oltre e ricordare che le formule di cui sopra vengono poi comunque usate per produrre una rappresentazione matematica o spaziale, del documento. Questa fase associa a ciascuno dei due documenti delle coordinate che per certo sono diverse tra loro, essendo i due documenti composti da parole differenti.

Quindi tu vedi tra le due pagine solo una differenza, nel nome del file, ma in realtà gli algoritmi dei motori di differenze ne vedono decine e le sfruttano tutte per decidere quale delle due pagine è più vicina alla query dell'utente.

lowlevel

al primo posto c'è MAM e al secondo NAN.

Perdonami l'ovvietà: ma al primo posto facendo quale ricerca?

lowlevel

La novità è collegata anche a questa recente news ufficiale di Google: http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html

In certe condizioni (tipiche di AJAX), per acquisire certi dati non è sufficiente eseguire Javascript ma è anche necessario effettuare richieste di tipo XMLHttpRequest via metodo POST.

Siamo ancora molto molto lontani da un sistema in grado di eseguire Javascript in maniera sicura in tutti i contesti: per il momento si tratta di alcuni metodi sviluppati ad-hoc per gestire specifiche situazioni, come la possibilità di seguire nuovi tipi di redirezioni e la possibilità di inviare richieste XMLHttpRequest.

lowlevel

@marta_de_angelis said:

Ma Goolge le informazioni dei commenti li recupera da frame in html o da javascript?

Le recupera eseguendo Javascript.

Matt Cutts ha appena divulgato un tweet che spiega che la novità è legata ad una nuova capacità di Googlebot di eseguire Javascript e quindi gli effetti non sono limitati ai commenti di Facebook:

http://searchengineland.com/google-can-now-execute-ajax-javascript-for-indexing-99518

Questa è una **grande ** novità per le capacità di indicizzazione del motore.

lowlevel

Secondo me si può inquadrare semplicemente nel desiderio di indicizzare il testo dei commenti così come è possibile farlo sui blog/siti che non usano i commenti di Facebook.

Ovvio, questo risultato produce effetti collaterali positivi come quelli elencati da Giorgio, ma io ritengo che l'obiettivo principale sia la semplice indicizzazione del testo dei commenti.

A volte i commenti forniscono molte più informazioni rispetto a quelle fornite nel testo del post stesso e l'esperienza dell'utente può essere influenzata dalla lettura dei commenti non meno di quanto lo sia la lettura del post.

La ragione per la quale non venivano indicizzati finora mi pare sia tecnica, la volontà di farlo c'è sempre stata. Con l'espansione dei commenti di Facebook su siti esterni, era una faccenda che prima o poi doveva essere affrontata.

Mi pare che la mossa sia in linea con altre tecnologie di Google che in passato hanno tentato di valutare le pagine web interpretando il codice Javascript per accedere a quantità maggiori di informazioni.

lowlevel

@lowlevel

Post creati da lowlevel