• Super User

    @Everfluxx said:

    [grassetto mio]

    Everfluxx, certo ... ma quella parte si riferisce a solo uno dei brevetti (l'ultimo qui sopra e che fanno tutti capo a Anna Lynn Patterson, ex archive.org ora google) e che riguardano "l'ingegnerizzazione" di molti aspetti (non solo quelli legati all'individuazione dello spam) che ruotano intorno alla realizzazione di un MDR basato su un indicizzazione per frasi
    (dove indicizzazione è intesa esattamente per cio' che è ...cioè il modo o meglio, la tecnica di archiviazione dei "contenuti spiderizzati" e che influenza fortemente la tipologia di algoritmi successivamente applicabili per il ranking e la ricerca dei migliori documenti).

    Mi quoto sulla parte legata allo spam: >

    • Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ...

    :ciauz:
    Nicola


  • User Attivo

    Finalmente sono riuscito a leggere per intero il thread (non ancora i brevetti per intero, ma lo farò nei prossimi giorni).

    L'impressione che ricavo dalla lettura, a caldo, è che verranno (forse ingiustamente?) penalizzati quei siti che presentano sezioni differenti su temi differenti, tipicamente i grandi portali generalisti.

    Questo, a meno che Google non abbia in cantiere (o già sui server di produzione) un algo che definisce e differenzia anche le pagine di un sito, per sezione di appartenenza. Tenendo conto anche degli eventuali riferimenti incrociati tra le stesse, e rapportando questi riferimenti al web tutto.

    Agoago, giustamente, dice che il motore ragiona avendo come parametro di riferimento il web nella sua interezza. E questo sembrerebbe a prima vista escludere ogni speculazione che riguardi il singolo dominio/sito.

    Ma troppe indicazioni ci portano a ritenere che google ragioni ANCHE in funzione del dominio di appartenenza. E allora, forse che un sito che tratti di cani non possa, nel contempo, parlare ANCHE di automobili, in due sezioni distinte del sito?

    Io credo che questa sia una sfida già vinta, a Mountain View. Non ci vuole molto, del resto; e chi dice che i grandi portali non abbiano contenuti di qualità? Semmai è vero il contrario!

    La domanda che deriva da questo ragionamento diverrebbe dunque: meglio avere un portale che parli sia di cani che di automobili, o un sito sui cani E uno sulle automobili?

    Questa domanda però è ingiusta, in quanto prescinde dall'appeal che il "marchio" del portale ha sui visitatori, e da tutte le altre implicazioni legate al trattare più argomenti, anche semanticamente lontani, su uno stesso sito.

    Io personalmente non credo che Google (o chi per esso) abbia interesse a penalizzare, tanto per dirne una, una testata giornalistica che, per definizione, tratta argomenti molto distanti tra loro.

    Se voi foste il motore, come interpretereste un sito che tratta parecchi argomenti distanti tra loro?
    Vi basereste: sul Trust, sull'attinenza relativa alla pagina relativamente alla sezione (altre pagine attinenti) del sito, sull'attinenza delle frasi contenute in un sito col resto delle frasi provenienti dal sito nella sua interezza, sul rapporto delle stesse con le frasi contenute in altre pagine/sezioni/siti nel web?

    E come interpretereste le frasi retoriche? Andrebbero, in linea teorica: penalizzate, ritenute ininfluenti, premiate algoritmicamente? Nell'ultimo caso, in che modo?

    P.s. "Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali." ...:D

    Nei prossimi giorni rielaboro le questioni più "tecniche" (tra virgolette) legate al prhase rank.


  • User

    Buongiorno a tutti.

    Leggo con enorme piacere questo post. Davvero molto interessante. Anche perche conferma e non smentisce quanto da me notato nel come google stia indicizzando il web.
    Premetto che non sono un seo, che di algoritmi non ne capisco un "H", ma senza ombra di dubbio ho iniziato a notare questo modello di indicizzazione da almeno sei mesi ad oggi, e per una semplice logica deduttiva posso affermare che google indicizza per frasi.
    L'intento del buon googlito è senza dubbio quello di dare risposte agli utenti, risposte sempre piu precise e aggirare lo spam. Ovvio.
    Bene, con questi nuovi algoritmi ci riesce, eccome se ci riesce, per un semplice motivo.

    Taglia la testa al toro, tutta di un colpo.

    Consideriamo da un punto di vista logico cosa determini lo spam. Altro non determina che una serie di pagine che non hanno un valore di contenuti, quindi nessuna risposta vera per gli utenti, quindi nessun valore per google.Anzi l'esatto contrario.
    Quindi, spam vuol dire morte di un motore.
    No riuscire a dare gratuitamente (si fa per dire) ad un utente/cliente la risposta che cerca.
    Bene. Se quindi indicizzo per frasi, e non credo che sia piu o meno importante che un sito sia fatto di 10-100-1000 e piu pagine, indicizzo contenuti che "costringono" chi li redige a scriverli.
    Scrivere comporta tempo, scrivere comporta studio, scrivere comporta conoscenza di un tema, di un oggetto di un servizio etc etc.
    Bene, potrei anche in questo caso mettermi a creare diciamo "spam" perche no. MA per farlo stavolta devo erudirmi sulla materia.
    Voglio fare un sito per mettere i mie annunci adsense..bene..mi devo erudire..conoscere e scrivere. E quel sito "che sia o meno iimportante per l'utente finale" darà comunque una risposta.
    E qui entrano in gioco gli altri algoritmi che danno piu o meno importanza al sito.

    A me sembra cosi logico che non ci vedo nulla di che in questo algoritmo, se non che una logica ricerca da parte di un motore di fare il suo mestiere.
    E non credo che neanche ci si debba arrovellare cosi tanto sul come interpretare l'algoritmo, perche se lo interpreti cerchi unicamente di aggirarlo in qualche maniera, se invece scrivi contenuti scritti bene, attinenti a ciò che l'utente cerca E A CIò CHE VUOI OFFRIRE, be.....viene da se che sarai indicizzato e anche bene e anche in poco tempo.

    E non credo, tanto per fare un esempio, che i blog ed i forum abbiano avuto questo successo perche vengono indicizzati a se.....nono.
    Credo proprio perche corrispondono esattamente a quanto definito da questo algoritmo, ne rappresentino l'esempio concreto, spontaneo e semplice che possa esistere sul web.
    E se fossi google la prima cosa che farei quando trovo un sito e passargli sopra con questi algoritmi, ancora prima del trust o del page.
    Se fossi Googlito userei un ordine del genere:

    prhase rank > page rank > trust rank = una serp molto pulita

    A volte guardo con attenzione e cerco di calArmi nella testa dell'utente con ciò che scrive come chiave di ricerca. Ci sarebbero tanti esempi da fare ma le necessità, a parte quelle generalisticha legata al mio settore di richiedere un prestito, sono molteplici. Ovvio quella di richiedere un prestito rappresenta l'80% delle richieste, ma ciò che fa crescere il mio sito per google è il restante 20%.
    Bene, l'utente fa richieste anche molto precise composte da frasi ben circostanziate ad un determinato argomento. Sta cercando una risposta ad una sua necessità.

    Forse sarà banale, ma è reale che se un cliente chiede come si calcola il tasso di interesse la migliore pagina che si piazzerà sul web sarà quella non che parla del tasso di interesse o che sia un semplice calcolatore, ma inizia a parlare di come è nato il sistema bancario, di come si è giunti alle attuali formulazioni del taeg, tan..bla bkla bla, delle formule che lo calcolano (matematica finanziaria e se mi piazzo anche li con le mie pagine che si fa!!!!cavolo appena google si accorge che le mie visite muoiono perche chi ricerca matematica finanziaria non sa che farsene del mio sito-----devo ovviare, mettiamoci una borsa di studio, mettiamoci qualcosa che dia a quello studente una motivazione in piu a guardare le mie pagine - mettiamoci una offerta di stage per giovani che studiano la matematica finanziaria - bene, se i miei accessi tengono, google mi terrà anche li), di come si applica, degli organi che controllano e che regolano, delle leggi etc e tutti i calcolatori per ogni esigenza...etc.

    Certo che tutto questo lavoro costa fatica, risorse, tempo. E quindi cio che rende di piu viene settato per primo e controllato piu spesso, e cio che rende di meno sempre id meno.
    Ovvio no!!!!!
    Sempre se fossi googlito se una determinata ricerca mi vale xx€ e un'altra me ne vale XXXX€, ovvio che seguo piu la seconda che la prima...Non vi pare logico.
    Mica googlito non hai il suo ROI e settato per parole chiave (ops , reminiscenze - frasi chiave)

    E mi sta costringendo, e ben venga, a riscrivermi pagina per pagina quelle già scritte. Tempo di lavoro. una pagina al giorno. Ed ogni volta che la termino quella pagina sale. Incredibile ma vero. E perche inizialmente avevo scritto 30 pagine per frasi e le altre per parole. Bene.
    quelle per parole manco le prende in considerazione, anzi mi dice cortese " te le indicizzo ma essendo un po ripetuti i concetti delle prime 30 se le vuoi vedere clicca sui risultati omessi". E non te le banno, non è necessario. Sono fatte bene, sono pulite, ma mi stai ripetendo un concetto già espresso.
    E quindi mi applico e ogni due giorni ne rifaccio una (che fatica scrivere:-), ma mi da una mano in questo googlito, e si.

    E si, perche le ha indicizzate, anche se le ha messe in 300 posizione, ma ci sono, e per frasi che manco mi erano passate per la testa ( e certo ne adword ne search di yahoo me le mostrano, fossero scemi a mostrarmele - ma le hanno, eccome se le hanno e non mi dilungo nel perche:-).
    E devo essere ancora piu sincero frasi che possono portarmi clienti.
    Devo solo lavorarci su.

    Meditate e scrivete gente. Senza programmi, scrivete qualcosa di autentico. Il posizionamento è il marketing vanno a braccetto.

    Un caro saluto.

    Ps. questo post sè indicizzato da google. Bene, sono proprio curioso di vedere in quali ricerche attinenti al mio settore lo riporterà, perche sono già certo che lo riporterà in frasi di ricerca del mio settore (avendo inserito una decina di righe lo farà per certo).
    Ma proprio tanto curioso. Meno male che sul forum gt ci passa spesso e fà in fretta. Non dovrò attendere parecchio per vederlo e per studiare:-)


  • Super User

    a spam document will have an excessive number of related phrases
    😉


  • User Attivo

    Rispondo con enorme ritardo ad uno dei topic più interessanti degli ultimi tempi.

    Se permettete sposto il discorso da analisi > algoritmo ad analisi > algoritmo_che_cerca_di_pensare_come_un_utente.

    Google negli ultimi anni non ha fatto altro che puntare su qualità e user experience, anzi fin dall’inizio ha puntato moltissimo su visual appeal della home page e soprattutto della SERP. Ha preso concetti e assiomi di usabilità, interfaccia utente, web design e architettura, gli ha testati e applicati meticolosamente.
    Ci tiene così tanto a soddisfare l’utente, che spesso non mostra pemium position se non sono realmente valide, se non le considera rilevanti preferisce non guadagnarci.

    E’ evidente che se l’obbiettivo è assolvere ad una query nel migliore dei modi, non basta proporre dei buoni risultati, ossia quei siti che per una serie di fattori on e off site risultano essere rilevanti per quella query. E’ evidente perché lo proviamo tutti, quotidianamente, le nostre ricerche si fanno sempre più specifiche, le nostre aspettative sempre più elevate, e il tempo a disposizione invece è sempre meno.

    Quello che Google sa, è che se ci porta su un sito “verticale” su di un argomento, è più probabile che soddisferemo il nostro bisogno, sa anche che un sito verticale e ricco di contenuti, ben organizzati, è quasi certamente frutto di una persona che oltre ad essere competente su quel argomento, ha la capacità di renderlo facilmente leggibile e comprensibile per l’utente.

    Però credo che questo discorso si possa estendere anche ai portali, se ben strutturati ed organizzati in maniera gerarchicamente corretta, possono funzionare benissimo come un agglomerato di tanti siti verticali.

    Tornando ai siti monotematici, se (e sono quasi sicuro ce l’abbia) agoago ha ragione, Google non farà altro che applicare tecniche e metodi volti a migliorare l’user experience, a proporre effettivamente quello che l’utente cerca. Per chi si deve promuovere la strada più facile è biddare per la premium position su kws molto specifiche, con landing page di qualità, dato che in questo caso il quality score di adwords è sicuramente più “tollerante”.

    Per quanto riguarda invece i risultati organici, bisognerà lavorare molto sull’architettura del sito, tale da rendere ogni area tematica forte, rilevante e verticale. Fatto questo bisognerà progettare pagine che siano pensate come tante landing page, ognuna contente elementi/frasi-chiave/parole-chiave/contenuto testuale e non, in grado di assolvere ai bisogni dei nuovi utenti e quindi del nuovo algoritmo.


  • Super User

    a spam document will have an excessive number of related phrases

    ;););)


  • User

    sono rimasto piacevolmente impressionato dal livello della discussione e faccio a tutti i complimenti di dovere
    Sono poco presente sul forum per i tempi "stretti" del mio lavoro da Programmatore/SEO
    Avrei 10.000 commenti sulla discussione... ma penso che in fin dei conti scrivere bei contenuti, utili, chiari, con rimandi, completi, che possano addirittura esser linkati spontaneamente è sempre la miglior politica per non ritrovarsi fuori da un giorno all'altro...


  • Bannato User Attivo

    E il buon senso?


  • Super User

    @Cineasta said:

    E il buon senso?

    Quello è sottointeso:D


  • Bannato User Attivo

    Agoago, "Le frasi buone sono quelle frasi che contengono termini in tema con l'argomento trattato dal sito. Rinforzano le key a tema che le frasi contengono al loro interno."

    Io mi chiedo se una scelta del genere non si sia la strada maestra per agevolare la proliferazione di spam engine tematici.

    ====

    Secondo voi l'algoritmo in questione è già stato introdotto?
    Ciao


  • Super User

    @"Nbriani" said:

    E , lo dice il brevetto, non è la ripetizione di keyword a determinare cio' che è spam o meno (quei doc semplicemente non emergono) ma il "Phrase stuffing" (:D ) concetto con cui credo dovremmo confrontarci alla svelta... cioè documenti che contengono un immensità di frasi comuni correlate ad un argomento a rischiare il flag per Spam!

    @"Everfluxx" said:

    a spam document will have an excessive number of related phrases ;););)

    Quindi secondo la vostra interpretazione o secondo il brevetto stesso, rischierebbe il flag per spam anche chi si dilunga, si ripete e "allunga il brodo" in un testo?


  • Super User

    Ciao Micky,

    no, il mio parere è che il brevetto si riferisca a documenti che contengono una moltitudine di frasi "valide" (nel senso del brevetto) ma che molto probabilmente (cioè attraverso il raffronto con un valore standard) evidenziano proprio che non riguardano un solo argomento... tipico ad esempio degli spam engines...

    In sostanza, se si identificano delle regole per definire un frase come "BUONA" (good phrases) , google è in grado di definire un numero medio di "frasi buone" per documento... (nel far questo prenderà in considerazione anche i documenti dove gli argomenti sono ben spiegati e pure ben "allungati" come dici tu) ... quindi penso che l'asticella per definire un documento come SPAM attraverso un algo del genere (ricordati che gg ne utilizza molti altri di metodi) debba essere necessariamente molto alta ...

    A normal, non-spam document will generally have a relatively limited number of related phrases, typically on the order of between 8 and 20, depending on the document collection. By contrast, a spam document will have an excessive number of related phrases, for example on the order of between **100 and 1000 **related phrases.E' il concetto di "frase buona" che devi tenere bene in mente... probabilmente anche se tu infioretti un argomento quanto vuoi... difficilmente supererai un certo numero medio di "frasi buone" (ti ricordo che le buone sono quelle che anche ricorrono piu' di altri documenti semanticamente vicini)

    Imho,
    :ciauz:
    Nicola


  • Super User

    ciao Nicola :), non sono sicuro di aver capito bene; solo che se si setta un "limite" di frasi buone anche gli spammer possono regolarsi di conseguenza e tarare i loro algoritmi di costruzione testi proprio limitandone ad un numero ragionevole le frasi buone stesse.
    Probabilmente sono io che continuo a non capire cosa voglia dire sostanzialmente questo phrase rank. Possiamo provare a spiegarlo e a ricapitolarne gli aspetti salienti in maniera semplice per i comuni mortali come me :)?


  • Super User

    @micky said:

    ... solo che se si setta un "limite" di frasi buone anche gli spammer possono regolarsi di conseguenza e tarare i loro algoritmi di costruzione testi proprio limitandone ad un numero ragionevole le frasi buone stesse.

    embè? 🙂 vorrà dire che avrai fatto proprio cio' che gg voleva.. 😄 Perchè dici questo come fosse una critica a quel sistema? anche il Keyword stuffing puo' essere determinato da un "limite" in qualche modo "settato" dal Mdr a cui dobbiamo stare attenti ad attenerci per non incorrere in effetti contrari..no? Se una keyword non ce l'hai nel testo ne in anchor non appari, se cè l'hai qualche migliaio di volte dappertutto sei in OOP ... sicuro ! 😉

    Quindi non vedo cosa ci sia di diverso... solo che mentre attenersi alle "regole" del Keywords stuffing puo' essere abbastanza fattibile (vedasi l'uso dell'arma segreta del SEO... cioè il "buon senso" :1: la cosa non è altrettanto immediata per il "Brevetto sul Phrase Rank" ....
    [/QUOTE]

    @micky said:

    Probabilmente sono io che continuo a non capire cosa voglia dire sostanzialmente questo phrase rank. Possiamo provare a spiegarlo e a ricapitolarne gli aspetti salienti in maniera semplice per i comuni mortali come me :)?

    Sai bene che quando fai di questi "assist" tu mi inviti a nozze... ma poi non ti lamentare degli pseudo "SEO" che fanno i post didascalici, definitivi e che si fanno "belli" attraverso forum e blog .... 😉

    Stavolta pero' ti consiglio di rileggere questo thred da cima a fondo perchè penso che contenga ed esprima molto bene il senso del brevetto (almeno per quanto riguarda me...) ... e gli interventi a volte di getto altre volte ben ponderati che vi sono da parte di molti dei piu' esperti e appassionati utenti del forum ne sono una conferma. 🙂

    Comunque ci provero' a farti un riassunto lampo che vada nella direzione dell'aspetto che stiamo dibattendo cioè sulla rilevazione dello spam (che è solo una delle implicazioni del brevetto)

    Si parla di "indicizzazione per frasi"

    quindi di come possa essere diversa la fase di "indicizzazione" di un MDR se viene fatta per frasi e non per singole parole

    Indicizzazione intendo proprio la creazione degli indici ... cioè dello strumento che consente al MDR di collegare la query al documento ...

    ok? 😉

    Sono quindi indici di frasi non di parole

    Per costruirli si individuano le frasi buone e le frasi non buone (diciamo trascurabili)

    "Frasi buone" hanno tra l'altro la caratteristiche di prevedere la presenza di un certo numero medio di altre "frasi buone" (si parla in termini di media)

    .. fra le varie implicazioni e caratteristiche che ha o avrebbe una tale architettura c'è n'è una nel brevetto che riguarda la rilevazione dello spam :

    "un documento che contenga un grande numero di frasi buone, in una forma molto superiore alla media calcolata su l'indicizzazione di tutta la rete puo' essere flaggato come sospetto spam"

    esattamente come avviene in una indicizzazione normale con le parole.. ma mentre prima si ragionava in termini di numero di volte in cui singole parole erano presenti oggi si parla (parlerebbe) di "Related good Phrases" ....

    Insomma se parli di cani , di macchine o di pere userai un certo numero di frasi "tipiche" rispetto a tutti i documenti in rete che parlano di quegli stessi argomenti.... se il tuo doc pero' si discosta enormemente dalla media ... rischi di incorrere in penalizzazioni per spam....

    Pensa all'esempio del Brevetto: argomento: "La casa Bianca" ora immagina tutti i documenti in rete che parlano della "La casa Bianca" quante related phrases avranno mediamente? 🙂 (cioè quanti e quali altri argomenti vi sono collegati?) diciamo i presidenti, washington, clinton, i sigari (:D) e via e via ... concordi che sia ragionevole pensare che mediamente è possibile trovare un certo numero medie di frasi "buone presenti" ?
    Ok.. allora immagina un doc parli della casa Bianca ma che contenga qualche migliaio di frasi buone in piu'.... spam?

    Bo', sono stato abbastanza ermeticamente chiaro e riassuntivo sul mio punto di vista ? 🙂

    :ciauz:
    Nicola


  • Super User

    Nicola sei stato chiarissimo :). Il topic l'avevo letto per intero intervento di Agoago compreso :D! Quello che mi lascia/lasciava perplesso era il fatto che se mentre uno "scrittore reale" deve proprio impegnarsi in negativo per incorrere nel keyword stuffing, lo stesso "scrittore reale" in un eccesso di verve potrebbe scrivere naturalmente un botto di frasi correlate ad un argomento ed essere erroneamissimamente tacciato come spammer. Tu mi dirai: no micky, guarda che per un numero alto di frasi correlate intendo proprio alto alto; e micky dice: benissimo allora cari spammer, invece di usare il 100% delle frasi correlate che il vostro algoritmo riesce a pescare, fermatevi al 66%, sparato a caso, soglia "ottima" di un documento ottimizzato per x keyword o phrases. Ma non può essere così semplice il discorso: probabilmente dietro c'è altro che ancora non riesco a comprendere :).


  • Super User

    @micky said:

    s Ma non può essere così semplice il discorso: probabilmente dietro c'è altro che ancora non riesco a comprendere :).

    Mah.. secondo me non è cosi' semplice nel senso che **tutti **i brevetti intorno al "Phrase Rank" hanno ben altro da dire che "semplicemente" 😄 segnalare lo Spam 🙂
    ... insomma si tratta di brevetti che modificano fortemente la struttura "classica" dell'indicizzazione per andare nella direzione della **qualità dei risultati e della semantica... ** poi puo' essere naturale che un brevetto del genere preveda anche aspetti legati alla individuazione dello Spam... ma mi pare **non **determinante ne decisivo rispetto al resto delle possibili novità...

    Imho..

    :ciauz:
    Nicola


  • Moderatore

    @nbriani said:

    Mah.. secondo me non è cosi' semplice nel senso che **tutti **i brevetti intorno al "Phrase Rank" hanno ben altro da dire che "semplicemente" 😄 segnalare lo Spam 🙂
    ... insomma si tratta di brevetti che modificano fortemente la struttura "classica" dell'indicizzazione per andare nella direzione della **qualità dei risultati e della semantica... ** poi puo' essere naturale che un brevetto del genere preveda anche aspetti legati alla individuazione dello Spam... ma mi pare **non **determinante ne decisivo rispetto al resto delle possibili novità...

    Imho..

    :ciauz:
    Nicola

    Quoto in pieno 😉