Google Panda

vnotarfrancesco

Google Panda

Apro questa discussione per raccogliere tutte le idee e le ipotesi che abbiamo elaborato sui meccanismi e i fattori presi in considerazione da Google Panda.

Questa discussione sarà diversa da tutte le altre perché vuole essere una raccolta enciclopedica su Google Panda, quindi come tutte le enciclopedie* ogni voce va spiegata e motivata*: non basta dire quindi "per me Google Panda penalizzerà i siti blu" ma occorrerà motivare la propria tesi portando a riferimento proprie o altrui ricerche, dati, osservazioni e/o dichiarazioni di vari personaggi.

Inoltre una buona enciclopedia deve dare spazio a tutte le tesi senza che si crei un contraddittorio tra i sostenitori di un'ipotesi e chi è convinto invece che sia un'idea completamente infondata.
Pertanto vi chiedo di limitare le vostre risposte e repliche solo per chiarire l'ipotesi esposta dall'autore e capire meglio il suo pensiero.
Il forum gt mette a disposizione tanti altri spazi nel caso voleste confutare un'idea, lasciamo questo thread riservato solo al suo scopo.
Sposteremo pertanto in nuove discussioni i messaggi non idonei allo spirito di questo thread.

Se volete potete anche inserire più ipotesi, anche in contrasto tra di loro.

Valerio Notarfrancesco

vnotarfrancesco

Inizio io.

Ipotesi:
Penso che uno tra i tanti fattori presi in considerazione da Google Panda sia l'analisi semantica del testo e che gli algoritmi siano stati messi elaborati per individuare non solo i contenuti copiati o parzialmente copiati come avveniva fino ad adesso ma che siano in grado di individuare anche testi rimaneggiati o rielaborati a partire da un articolo originale.

Motivazione:
La scorsa settimana, precisamente il 7 giugno, al SMX Matt Cutts all'ennesima domanda su quale sia il focus di Google Panda risponde:

I think what’s best is what helps the internet thrive. If you’re rehashing content or writing low quality content, that’s not good for the internet. At a lot of sessions today, I heard people talking about being creative with content and developing stuff users will find interesting.
Non ha detto più copiare quindi ma ha usato il più generico e ampio "rehashing", ovvero rielaborare.
Sappiamo tutti che il web è pieno oggi di siti che alla fine riportano le stesse informazioni esposte solo con parole diverse oppure raccontano la stessa notizia solo rielaborata, appunto.

Aggiungo un'informazione importante appresa da un tweet di Misterjinx proprio ieri.
John Mueller in un post sul forum di supporto per webmaster di Google scrive di fare molta attenzione al contenuto scritto dagli utenti e soprattutto che sia scritto correttamente.
Gli algoritmi di Google Panda potrebbero non riconoscere, quindi penalizzare, contenuti scritti in modo approssimativo, pieno di errori, abbreviazioni, e termini gergali non compresi nel suo vocabolario.
Infatti sappiamo che Google Panda è tarato per ogni specifica lingua ed è il motivo per cui è stato rilasciato solo per contenuti in inglese.

Strategia:
Essere creativi e sviluppare contenuti originali non solo semanticamente ma anche nella loro forma ed esposizione e avendo una cura editoriale del contenuto inserito.

Valerio Notarfrancesco

webmaster70

Bella idea questo thread.

Io aggiungo un ragionamento partendo da due considerazioni, che ormai ritengo abbastanza certe.

- Panda è un algoritmo sopratutto di penalizzazione, e non di premiazione.
Se si guarda all'impatto che ha avuto su molti siti grandi (1, 2, 3), si nota che le percentuali con segno - hanno valori assoluti in genere molto maggiori di quelle con segno +.
Inoltre nel valutarle occorre considerare che quelle al ribasso impattano molto di più di quelle al rialzo, cioè per recuperare un -50% ci vuole un +100%, per recuperare un -90% ci vuole un +1000%.
Quindi credo sia ragionevole ritenere che i "premiati" crescono principalmente perché i loro concorrenti sono stati penalizzati.

- Panda penalizza l'intero sito. Non opera su singole key, neppure su singole pagine, ma sul sito.

Ora mettiamo di avere un sito con due sezioni A e B, abbastanza diverse fra loro, non per l'argomento trattato, mi spiego con degli esempi: forum e blog, oppure recensioni e aggregatore di news.

Panda potrebbe ragionare in 3 modi, se qualcuno ne immagina altri li aggiunga e li discutiamo:

(1) Faccio una media (magari ponderata) della qualità delle pagine e/o delle sezioni e sotto un certa soglia penalizzo.
Qualità sito = (qualità A + qualità B) / 2

(2) La sola presenza di una quantità non trascurabile di contenuti di bassa qualità giustifica una penalizzazione.
Qualità sito = min(qualità A, qualità B)

(3) La qualità di un sito è data dalla massima qualità riscontrabile al suo interno.
Qualità sito = max(qualità A, qualità B)

Il punto 3 io lo escluderei, perché da che mondo è mondo si penalizzano i difetti, l'inosservanza delle regole ecc. e non la mancanza di grandi pregi, e pure le altre penalizzazioni di Google finora hanno seguito questa logica.

Mettiamo che Panda consideri la qualità minima (2).
Con 2 sezioni se una viene colpita, trascina a fondo l'altra anche se di altissima qualità.
Quindi a me webmaster, che non so con certezza come Google valuterà i miei contenuti, a parità di altri elementi conviene portare le 2 sezioni in 2 siti diversi.

Mettiamo ora che consideri la qualità media (1).
In questo caso il traffico medio atteso rimane uguale: con il sito unico l'alta qualità dei contenuti A mediando la bassa qualità di quelli B potrebbe salvarli, e potrebbe ugualmente accadere il contrario, cioè che grazie a B pure A sia penalizzato.
Però nel suddividere i contenuti in 2 siti si corre meno rischio, ovvero il traffico atteso è meno variabile.
Rispetto a tutte le penalizzazioni, io so circa come difendermi, sono consapevole quando dalla white hat attraverso la zona grigia avvicinandomi alla black hat, con Panda no.
Ed è questo che rende tutto più rischioso, e quindi di valore la riduzione del rischio ottenuta mettendo le uova in panieri diversi.

In entrambi i casi (1) e (2), Panda rende più conveniente avere tanti siti piccoli, piuttosto che un solo sito grande.

Un altro aspetto di Panda potrebbe spingere verso questa frammentazione.

Si è parlato, e condivido, che Panda potrebbe usare dati sul comportamento degli utenti.
La statistica è tanto più affidabile tanto maggiori sono i dati a disposizione.
Nei confronti di siti piccoli, potrebbe avere così pochi dati, da non potersi esprimere sulla qualità degli stessi, e quindi non poter prendere alcun provvedimento.

Per completare dovrei approfondire, e chiedo a voi, cosa può intendere esattamente per sito: dominio, sottodominio, pagine di un dominio che condividono layout /logo/menu di navigazione ...

Ovviamente sono tante le valutazioni da fare quando si decide se fare più siti od uno solo, io ho ne ho aggiunta una ulteriore legata a Panda.

Poi se è una tesi discutibile, sono qui a posta per discuterla.

webmaster70

Vorrei precisare che questa mia tesi

"Panda rende più conveniente avere tanti siti piccoli, piuttosto che un solo sito grande"

è strettamente legata alla situazione citata

"sezioni [...] abbastanza diverse fra loro [...] esempi: forum e blog, oppure recensioni e aggregatore di news"

Se diverse sezioni del sito hanno una qualità (anche se a noi ignota ma) che a Google può apparire diversa,
perché sono diverse le fonti (autore del sito, UGC, autori terzi, web tools),
oppure perché danno all'utente una diversa esperienza,
credo sia utile valutare se usare diversi siti.

E io ho trovato un senso a questo.

Quando parliamo di qualità in altre situazioni, ci riferiamo a quella media (1) ma anche alla qualità minima garantita (2), quest'ultima soprattutto per i grandi marchi.

La Barilla non fa una pasta a volte buona e altre buonissima, è sempre uguale.

E può fare la pasta più buona del mondo, ma se in solo 1 pacchetto su 10 c'è la muffa, nessuno più la compra.

Livellare la qualità, anche eventualmente usando diversi siti.

vnotarfrancesco

Grazie Webmaster70 di aver condiviso la tue tesi, l'hai spiegata in modo davvero semplice e chiaro.
Vediamo chi si fa avanti adesso.

Valerio Notarfrancesco

web.hunter

Ciao a tutti e grazie per questa opportunità. Ho una tesi diciamo controcorrente, ma dimostrabile, e forse più che una tesi è una critica ad una palese debolezza di questo nuovo algoritmo.

Il discorso è semplice. Guardate questo sito:

www funnybirthdaywishes. net

anche senza il Panda, sarebbe stato da ban, senza alcun dubbio. Tenete presente che ha soltanto links da alcune decine di pagine con barretta grigia in forum e vari social, molti nofollow. In pratica tutti ottenuti tramite spam

Ebbene: per la chiave funny birthday wishes (5 milioni di risultati su google.com e 19.800 con l'operatore "allintitle") si posiziona in quinta posizione, ed è lì da mesi.

Teoria: il Panda arriva fino ad un certo punto, ovvero dove ha dei dati degli utenti (Chrome, Google Account ecc.) mentre non propone nuovi sofisticati algoritmi per eliminare realmente lo spam.

Il sito sopra ne è un esempio. Vero che si tratta di un singolo esempio, ma è altrettanto vero che parliamo di una quinta posizione per una chiave concorrenziale che genera 27.100 ricerche al mese.

Come è possibile che vengano penalizzati siti che, pur facendo leva sul guadagno di adsense, pur riportando in parte notizie da altri siti aggiungono comunque commenti e informazioni utili mentre un sito totalmente inutile e spammoso come questo rimanga dov'è?

Infatti è stato più volte osservato come a seguito del Panda siano scomparsi grandi siti mentre piccoli siti spammosi siano cresciuti.

Allora quanto dobbiamo ritenere debole e fallace questo nuovo Panda? A mio avviso molto, visto il caso in questione.

Vengono penalizzati, a mio avviso, siti che "arraffano" tutto e di tutto, come il noto tutto gratis .it (grande link farm che, se non venisse penalizzata sarebbe uno scandalo), mentre piccoli siti spammosi sfuggono in virtù del fatto che vi sono pochi dati.

E con questo mi riallaccio da quanto appena esposto da Webmaster70.

Questa non è proprio una mia teoria, in quanto è stata già esposta da Enrico Madrigano (Madri).

Io aggiungo che il Panda ha grossi limiti, e lo ritengo il peggiore tra tutti gli algoritmi messi in essere finora da Google, poiché pretende l'impossibile, ovvero che un software possa valutare il valore di una pagina come un umano.

Per completare dovrei approfondire, e chiedo a voi, cosa può intendere esattamente per sito: dominio, sottodominio, pagine di un dominio che condividono layout /logo/menu di navigazione ...
a mio avviso si parla di un dominio, escludendo i sottodomini, ma credo poco al fatto che una singola pagina poco utile possa influenzare il ranking di tutto il sito. Se fosse vero, non esisterebbe portare che non dovrebbe essere penalizzato, poiché TUTTI i portali, per loro natura, hanno qualche pagina poco utile, di servizio, con contenuti duplicati.

In pratica l'assurdo sembra questo: più il tuo sito è visitato, più corri dei rischi, solo perché magari tratti troppi argomenti (anche se utili).

E poi qual è il sito che non cerca di guadagnarci? Se il web è gratis lo dobbiamo ad Adsense.

Panda sta facendo solo terrorismo, puntando l'attenzione su cose inutili che già da prima erano tenute presenti dai veri Seo. Tutti i portali hanno necessità di offrire buoni contenuti ai propri utenti, senza necessità delle stupide domande indicate da Google.

vnotarfrancesco

Grazie anche a te Web Hunter per aver condiviso la tua teoria; che sia controcorrente al limite è un pregio perché solo ragionando fuori dagli schemi potremo trovare nel minor tempo possibile la soluzione per domare il Panda.

Valerio Notarfrancesco