Doorway e G, algoritmo micidiale.

must

La prima cosa a cui ho pensato (per formazione mentale) e' stata cosa potesse apparire illogico-forzato ad un motore.

Nell'ordine ho messo:

Pagine sempre con contenuto nuovo (nessuna logica)

secondo me non é tanto illogico.
se il contenuto cambia ogni volta che lo spider passa, come fa il motore ad assegnare un ranking su un contenuto definito? se ogni volta che passa, lo spider trova un contenuto diverso, é facile dedurre che quando un utente arriverá a quella pagina da una query sul mdr, troverá un risultato diverso da quello previsto. e questa é una violazione delle linee guida dei motori, in fondo

everfluxx

@must said:

se ogni volta che passa, lo spider trova un contenuto diverso, é facile dedurre che quando un utente arriverá a quella pagina da una query sul mdr, troverá un risultato diverso da quello previsto. e questa é una violazione delle linee guida dei motori, in fondo
Il tuo ragionamento fila, però ti faccio una domanda: una pagina come [url=http://froogle.google.com/]questa a tuo giudizio viola le linee guida? (Mi riferisco ovviamente alle query d'esempio che cambiano a ogni reload della pagina).

must

a mio giudizio, di umano, no. perché il vero sito, lí, é il campo di ricerca.

certo non saprei come un algoritmo potrebbe definirlo senza ausilio umano, ma per fortuna io vendo salumi, non faccio motori di ricerca

catone

Io non ho capito varie cose, perdonate la mia ottusità:

quando viene generata la door poi che fine fa?
quando ripassa lo spider viene creata una nuova door ex novo e riprodotta la precedente?
mi pare di avere capito che se cerchi su google queste pagine saltano fuori nelle serp o mi sbaglio? E se questo è vero perchè le riesci a vedere solo tu? Con 100K pagine ci dovrà essere per forza qualcuno che ci arriva. Se invece ho capito male ignora quest'ultima domanda.
le door non hanno nessunissimo link, nemmeno di ritorno alla pagina precedente?
che tecnologia hai utilizzato per generarle (non mi interessano i dettagli, anche perché probabilmente non li capirei )?

pieropan

@agoago said:

Secondo voi, sono arrivati a tanto?

Ciao agoago,
non saprei, ma a naso e solo leggendo quello che racconti, c'è qualcosa nel tuo sito che disturba il motore. La cosa piu' probabile è il grande numero di pagine "anomale" (senza link in uscita e senza anzianità, cosa + grave imho).
Individuare la qualità media di un sito è piuttosto semplice per l'algoritmo, non deve far altro che dividere un fattore, mettiamo la presenza di kw facenti parte di un cluster semantico, per il numero di pagine invece che per il numero di parole nella pagina. Idem per il numero di link, per la presenza intitle ecc ecc. Il MdR ha una idea della tua qualità media, on-site.

Qualsiasi sito in salute a cui tu aggiunga 100k pagine che hanno un elemento disturbante, si trasformerà per il MdR in un sito disturbato, poiche', nella media, di fatto lo diventerà.

Insomma, la soluzione non ce l'ho, ma guarderei in direzione della qualità media stroiata da un enorme numero di dangling pages. Una pagina che non mette link trattiene il PR e viene trattata con sospetto dallo zio... si sapeva di trattamenti differenziati per rimettere in circolo il PR trattenuto indebitamente.... magari sei incappato in questi trattamenti.

A presto.

claudioweb

@must said:

secondo me non é tanto illogico.
se il contenuto cambia ogni volta che lo spider passa, come fa il motore ad assegnare un ranking su un contenuto definito? se ogni volta che passa, lo spider trova un contenuto diverso, é facile dedurre che quando un utente arriverá a quella pagina da una query sul mdr, troverá un risultato diverso da quello previsto. e questa é una violazione delle linee guida dei motori, in fondo
@Everfluxx said:

Il tuo ragionamento fila, però ti faccio una domanda: una pagina come [url=http://froogle.google.com/]questa a tuo giudizio viola le linee guida? (Mi riferisco ovviamente alle query d'esempio che cambiano a ogni reload della pagina).
C'è una grossa differenza. Ragionando per pura logica/ipotesi: se una pagina ti cambia i contenuti ok, se 100 mila pagine cambiano i contenuti qualcosa non va.
In quest'ottica mi sembrano valide le considerazioni di must.

Inoltre, non è questo il caso, ma tante pagine che cambiano contenuti (e parliamo della totalità dei contenti) se io fossi un motore di ricerca, le vedrei come un tentativo di reverse engineering...

Googlebot passa e trova sempre qualcosa di diverso, alla fine si dirà: questo sito mi passa sempre una minestra diversa per vedere quale mi piace, non mi vorrà imbrogliare?...

Non mi stupirei dunque che ci anche fossero meccanismi di penalizzazione, finalizzati proprio ad evitare comportamenti simili.

D'altra parte allargando, forse troppo, il discorso, in Ingegneria tutti i sistemi devono tener conto delle condizioni iniziali, cioè di ciò che è successo negli istanti precedenti.

Quindi è normalissimo immaginare che quando si passa un ingresso (pagina) il sistema a tempo discreto (google) tenga conto degli ingressi precedenti (pagine precedentemente trovate a quell'indirizzo).

Dall'analisi di ingresso attuale e degli ingressi precedenti, ne vien fuori l'uscita (ad esempio il valore della pagina).

Se gli ingressi precedenti e quello all'attuale sono fortemente scorrelati tra loro, verosimilmente il sistema fornirà un'uscita non troppo buona.

umor

Secondo voi, sono arrivati a tanto?

Secondo me si, comunque, per prova, prima aggiungi dei link ad altre pagine del tuo sito, poi se ancora non fa accessi, prova a renderle statiche.

Se ancora non manda accessi, cancellale e vediamo che succede. Magari esplodi su altre chiavi..

lowlevel

@agoago said:

Mancanza di link verso l'esterno (possile ma poco probabile su 100k pagine, capisco su una pagina ogni tanto, ma 100k pagine senza link esterni? puzza a me... chissa' ai motori).

agoago, guarda che le dangling page costituiscono davvero un problema imponente.

Sin dagli albori sono state trattate da Google come pagine anomale in quanto, di fatto, impediscono al modello del PageRank (ma puoi estendere a quellochetipareRank) di effettuare correttamente i calcoli.

Qualunque cosa venga distribuita attraverso i link e giunga ad una pagina va reimmessa nel sistema.

Nel fare ciò è possibile convogliare l'elemento distribuito più su alcune pagine che su altre, ma la reimmissione nel sistema è imperativa, altrimenti le pagine perdono valore agli occhi del motore e, a catena, perdono valore le pagine che offrono link solo verso le dangling page.

Non sottovaluterei questo aspetto, sopratutto perché tale fenomeno esiste da anni ed è uno di quei casi in cui teoria (la gestione delle dangling page viene spiegata anche nella paper originale del PageRank) e pratica si trovano d'accordo.

Ti chiedo scusa in anticipo se ho compreso male la tua spiegazione. Da quello che ho capito quelle pagine non ospitano link di alcun genere (a nessuna pagina, interna o esterna al sito). Se così non fosse, chiedo venia per l'equivoco.

everfluxx

@claudioweb said:

C'è una grossa differenza. Ragionando per pura logica/ipotesi: se una pagina ti cambia i contenuti ok, se 100 mila pagine cambiano i contenuti qualcosa non va.
Perfettamente d'accordo: quando poi è solo una parte ben definita dei contenuti di una pagina, o anche di tutte le pagine di un sito, a cambiare a ogni accesso del bot (esempio classico: la data e ora dinamica inserita lato-server), non avrebbe alcun senso applicare una penalty. Cosa che infatti non avviene.

agoago

Must quando scrivo che:

"1) Pagine sempre con contenuto nuovo (nessuna logica)"

voglio dire che da subito ho pensato che i motori capiscono che non ci sia nessuna logica per un wm di comportarsi in questo modo. Ho pensato esattamente come dici tu: "questa é una violazione delle linee guida dei motori"

E' la prima cosa che ho valutato, ma non pensavo i motori fossero gia' cosi' "capaci". Per questo parlo di algoritmo micidiale.

Credo che Pieropan abbia inquadrato perfettamente la situazione.

Nelle mie 100k pagine c'e' un elemento disturbante... e dato l'alto numero di pagine disturbanti non solo le pagine che disturbano non ricevono accessi, ma il sito tutto ha subito una penalizzazione. Ha perso di valore ed e' stato declassato, svalorizzato (pieropan ho vissuto a siena, ma col cavolo che altri sanno cosa e' un qualcosa stroiato).

Allora cerchiamo di capire quale sia l'elemento disturbante che penalizza.

No link, contenuto sempre nuovo od entrambi?

Catone:

"1. quando viene generata la door poi che fine fa?"

Mostra il suo contenuto (inutile) a chi vi accede. Fine.

"2. quando ripassa lo spider viene creata una nuova door ex novo e riprodotta la precedente?

Ogni utente vede un nuovo contenuto per una stessa url, se fai refresh 100 volti vedrai 100 contenuti diversi."

"3. mi pare di avere capito che se cerchi su google queste pagine saltano fuori nelle serp o mi sbaglio? E se questo è vero perchè le riesci a vedere solo tu? Con 100K pagine ci dovrà essere per forza qualcuno che ci arriva. Se invece ho capito male ignora quest'ultima domanda."

Non le vedo solo io, ma chiunque scriva nella query una frase contenuta nella pagina. E' proprio questo il punto centrale della discussione. G ha assegnato un valore cosi' basso a quelle pagine che solo cercando pezzi di frasi tra virgolette le puoi trovare. La discussione verte appunto su questo punto: cosa penalizza queste pagine al punto che 100k pagine non rendano tra tutte 1 o 2 accessi al giorno quando va bene?

"4. le door non hanno nessunissimo link, nemmeno di ritorno alla pagina precedente?"

Molti link in entrata nessuno in uscita.

"5. che tecnologia hai utilizzato per generarle (non mi interessano i dettagli, anche perché probabilmente non li capirei )?"

Beh e' la cosa piu' facile del mondo. Uno script in perl di pochi k viene richiamato ogni volta che un utente riceverebbe un 404. Il server intercetta il 404, crea il contenuto al volo per quella url e restiruisce un contenuto random ed un 200 code in risposta all'utente.

(visto che parliamo qui solo tra di noi e nessun altro ci legge vi dico perche' non usare mai un trucco del genere. Gli script che creano contenuti al volo per qualsiasi url, o il dns settato in modo che si possa avere infiniti domini di terzo livello, presentano un grosso limite. Se un competitor lo scopre vi fa bannare immettendo nei motori infinite url random del vostro sito. Nel mio caso posso permettermelo solo per quel mio sito perche' e praticamente istituzionale, ma se non siete forti non provateci)

Anche Claudioweb pensa che dipenda dal contenuto sempre nuovo, ed inoltre introduce un parametro: il tempo discreto.

Il mio ragionamento si basava sulla mancanza di link esterni e sul fatto che il contenuto cambiava di volta in volta.

Nel caso dei link potevo pensare ad una penalizzazione, ma minima.
Nel caso del contenuto sempre nuovo potevo pensare che fosse fondamentale, ma pensavo che i motori non potessero avere infiniti db storici per confrontare il divinire dei contenuti nel tempo. Troppe risorse per un solo algoritmo.

Non capisco perche' a volte ci si impunti-fissi su alcune idee senza riuscire a vedere oltre il proprio dito.

Se per tempo discreto setto non un valore temporale ma il semplice confronto tra l'ultimo spider ed il penultimo ecco che tutto torna.

L'algoritmo che prima mi sembrava micidiale adesso mi sembra banale e del tutto logico.

Se un motore trova il contenuto di una pagina molto differentre rispetto alla sua precedente spiderizzazione ecco che allora non ha senso per lui valorizzare quella pagina per i vecchi link in entrata perche' chi aveva lincato il contenuto precedente non aveva intezione di lincare il nuovo contenuto, contenuto che manco conosce.

Se a questo aggiungiamo che questo elemento disturbante non e' casuale in quanto 100k pagine stravolte non possono essere frutto di casualita', allora tutto torna.

Mi ero fissato sulla comparazione (improbabile) da parte dei motori di molti db storici senza pensare al semplice confronto del precedente rispetto al nuovo, inoltre non avevo pensato alla cosa piu' logica e cioe' di considerare la "qualità media, on-site".

Era cosi' semplice, grazie a tutti.

everfluxx

@agoago said:

La discussione verte appunto su questo punto: cosa penalizza queste pagine al punto che 100k pagine non rendano tra tutte 1 o 2 accessi al giorno quando va bene?
Sarà forse il fatto che si tratta di 100k pagine di :spam:?

Era cosi' semplice, grazie a tutti.
Prego.

must

si ok, ma sarebbe bello cosa fa dire a Mr.G. "questo é spam".

il contenuto che cambia sempre?
o forse il fatto che siano dangling pages?
o appunto che sia tutto il sito che si comporta in maniera anomala?

agoago

@LowLevel said:

agoago, guarda che le dangling page costituiscono davvero un problema imponente.

Sin dagli albori sono state trattate da Google come pagine anomale in quanto, di fatto, impediscono al modello del PageRank (ma puoi estendere a quellochetipareRank) di effettuare correttamente i calcoli.

Qualunque cosa venga distribuita attraverso i link e giunga ad una pagina va reimmessa nel sistema.

Nel fare ciò è possibile convogliare l'elemento distribuito più su alcune pagine che su altre, ma la reimmissione nel sistema è imperativa, altrimenti le pagine perdono valore agli occhi del motore e, a catena, perdono valore le pagine che offrono link solo verso le dangling page.

Non sottovaluterei questo aspetto, sopratutto perché tale fenomeno esiste da anni ed è uno di quei casi in cui teoria (la gestione delle dangling page viene spiegata anche nella paper originale del PageRank) e pratica si trovano d'accordo.

Ti chiedo scusa in anticipo se ho compreso male la tua spiegazione. Da quello che ho capito quelle pagine non ospitano link di alcun genere (a nessuna pagina, interna o esterna al sito). Se così non fosse, chiedo venia per l'equivoco.

Nessun equivoco LowLevel, mi sono spiegato bene, nessun link verso l'esterno.

Questo aspetto della mancanza di link esterni e' da un po' che mi "ossessiona". Pensavo di essere tra pochi ad accuparsene, mi fa piacere ritrovarmi in buona compagnia.

Non conosco un termine comune per definire le pagine che non hanno link verso l'esterno, non so come vengono chiamate ufficialmente... io le chiamo in ufficio pagine sterili, l'importante e' capirsi.

Ora non so, ma in passato si diceva che G calcolasse un link verso una pagina sterile al 15% del suo ipotetico valore.

Non mi piace il termine dangling associato al termine pagina, faccio fatica ad associarlo ad alcune frasi, immaginati alle pagine.

Comunque sono dibattuto, dentro.
Mi sembra che questa storia dei link verso le pagine sterili sia tutta una sporca, bastarda montatura.

Sento che soprattutto in questo caso rischiamo di adattare i nostri siti, i nostri link verso pagine sterili, basandoci su una regola di giudizio assurda.

Mi piace da sempre paragomare il web alla vita di tutti i giorni.
E' come se volessimo discriminare-penalizzare-ignorare chi ha un amico senza figli.

La mancana di link esterni e' stata la prima cosa a cui ho pensato che potesse penalizzarmi.

Poi, in un raro momento di lucidita' ho pensato: che si fotta google con le sue valutazioni dei link verso le pagine sterili.

Un conto e' capire cosa mi penalizza, un conto e' adattarmi.

LowLevel che teoria e pratica vadano di pari passo nel caso di link verso lo sterile lo accetto come dato di fatto. Sappiamo che e' cosi'.

Da qui ad edeguami ce ne vuole...

I seo non devono adeguare il proprio lavoro in base agli algoritmi dei motori (sarebbero condizionati).

I motori non devono adeguare i loro algortmi in base a valori fotografati, man mano nel tempo, del web (sarebbero condizionati).

Senza offesa per nessuno, ma i siti che spiegano come i motori ragionano-valutano-calcolano (a secondo dei loro algoritmi mestruali) il web fanno piu' danno che altro.

Anche chi lo facesse unicamente a fine didattico finira' col condizionare i wm che da quel momento, influenzati, forzeranno-modificheranno i siti loro (o dei loro clienti) appiattendosi-adeguandosi ai valori degli algoritmi momentanei dei motori.

Vedro' come risolvere il problema del contenuto sempre nuovo, poi mettero' qualche link esterno in alcuni contenuti al fine di abbassare la media delle pagine con elemento disturbante, ma mi rifiuto in modo categorico di farlo su tutti i nuovi contenuti.

Prima G ha teorizzato ed usato questa storia dei link verso pagine sterili, poi dopo anni, non contento ha teorizzato siti hub e compagnia bella, ok puo' aver perfettamente ragione in queste sue scelte, ma perche' pubblicizzarle??

Per me G e' ancora il miglior motore, ma non mi piace questo suo fare carbonaro che con la complicita' di matt e simili vi dice come deve essere per lui il web e vi induce ad adattarvi se volete beneficiare al meglio dei suoi accessi.

Non mi piace questa sua tecnica di far "trasparire" ogni suo nuovo algoritmo che poi misteriosamente ed immediatamente diventa pubblico e discusso in tutti i forum dei seo.

Ammiro invece yahoo e msn che nulla lasciano trasparire, sono un mistero per tutti i seo e zitti zitti migliorano senza mai influenzare direttamente e non il lavoro dei wm.

Non pretendiamo nulla dai seo esteri ma certamente dai seo italiani, che in quanto italiani hanno lo stile nel loro stesso dna.

Stile che per google e' solo una delle tante word nel suo vocabolario.

catone

Dico la verità anche a me era venuto in mente il discorso del contenuto che muta di volta in volta, ecco il perchè delle domande.

Ma, ammettendo che sia questo il motivo, mi sembra che l'algoritmo non sia efficiente giacchè quel contenuto unico potrebbe essere di utilità per l'utente per quanto vari considerevolmente nel tempo.

Poniamo vi sia un sito (che utilizzi o meno la tua modalità di creazione pagine) che ogni sei ora promuova un viaggio in una data città e che nell'offerta sia presente una descrizione della medesima. Ebbene ogni sei ore avviene il cambio, le informazioni sono utili per l'utente e google che fa mi declassa il sito?
Se l'esempio è corretto ed è corretto dire che quello il motivo allora, ribadisco, non c'è efficienza.

pieropan

@Catone said:

Dico la verità anche a me era venuto in mente il discorso del contenuto che muta di volta in volta, ecco il perchè delle domande.

Ma, ammettendo che sia questo il motivo, mi sembra che l'algoritmo non sia efficiente giacchè quel contenuto unico potrebbe essere di utilità per l'utente per quanto vari considerevolmente nel tempo.

Poniamo vi sia un sito (che utilizzi o meno la tua modalità di creazione pagine) che ogni sei ora promuova un viaggio in una data città e che nell'offerta sia presente una descrizione della medesima. Ebbene ogni sei ore avviene il cambio, le informazioni sono utili per l'utente e google che fa mi declassa il sito?
Se l'esempio è corretto ed è corretto dire che quello il motivo allora, ribadisco, non c'è efficienza.

imho google incrocia i fattori e se entrano in un pattern sei fritto.
stare alla larga dai pattern equivale a uno skipper che sta alla larga dagli scogli o le secche.

qui abbiamo sostanzialmente due problemi:
1)pagine che non sono MAI uguali (non che cambiano spesso, la stessa pagina non è MAI uguale a se stessa, non c'è una fottuta volta che il bot veda la stessa cosa) ... è un pattern di spam? io dico che ci va vicino... è il core di uno spam engine.
2) sono anche dangling pages, e a gogo.. lo zio vede un sito con oltre il 90% di dangling pages... direi che un sopracciglio lo alza.

Basta e avanza per considerare il sito dubbio e magari non aprire i rubinetti del rank.

Se per efficienza intendiamo un legame sensato tra il "reato" e la "pena", beh in questo caso a me pare efficiente.

C'è una ragione logica per la quale un qualsiasi servizio, anche istantaneo e volatile non dovrebbe linkare la home?

Per lo zio ha un qualche peso anche la qualità dell'html, e se non metti un link alla home non fai neanche la seconda lezione del corso base di web design

brizio

Stupendo post...!

Alla luce di ciò, il sig. agoago sicuramente farà un bel test e ci farà sapere se le teorie sviluppate avranno avuto un riscontro reale.

Vero?

catone

@Pieropan non funziona il quote, come al solito :).

Ok ho capito. Eppure mi sembra ci sia sfuggito ancora qualcosa...

claudioweb

@Catone said:

Poniamo vi sia un sito (che utilizzi o meno la tua modalità di creazione pagine) che ogni sei ora promuova un viaggio in una data città e che nell'offerta sia presente una descrizione della medesima. Ebbene ogni sei ore avviene il cambio, le informazioni sono utili per l'utente e google che fa mi declassa il sito?
Se l'esempio è corretto ed è corretto dire che quello il motivo allora, ribadisco, non c'è efficienza.

Ti rispondo in due modi:

Must Mode - che me ne faccio di un sito in serp tale che quando l'utente lo visità non troverà ciò che ha cercato. Visto tra passaggio dello spider e comparsa dei dati in serp molto probabilmente sono già passate 6 ore e i contenuti non ci sono più?

Claudio Mode - ok il sito cambia spesso contenuti. Ma ci deve essere comunque una certa probabilità di beccare la stessa pagina...
Come detto da Pieropan qui cambia sempre tutto e in tutte quelle pagine.
Poi credo capiti spesso nei log dei tuoi siti di vedere che lo spider sia passato in 5 minuti 2 volte sulla stessa pagina,o no?
In questo caso potrebbe passare anche ogni 2 secondi, troverebbe sempre roba nuova.

Per la questione delle pagine senza link, sicuramente possono non piacere a google per le ragioni dette.
Ma non credo siano un sintomo di qualcosa di strano (leggi spam engine), perchè?
Ma semplicemente perchè mettere un link alla home nelle pagine generate non è che richieda tanti sforzi...

pieropan

@claudioweb said:

Per la questione delle pagine senza link, sicuramente possono non piacere a google per le ragioni dette.
Ma non credo siano un sintomo di qualcosa di strano (leggi spam engine), perchè?
Ma semplicemente perchè mettere un link alla home nelle pagine generate non è che richieda tanti sforzi...

Mi spiego meglio.
Per capire la qualità di un sito lo zio calcola il valore medio sull'insieme di fattori. Molte pagine di pessima qualità=sito di bassa qualità. Ciascuna di queste pagine ora viene intercettata come di bassa qualità per l'assenza assoluta di link (quoto low, che ne sul dangling ne sa a pacchi). E' una questione che ha a che vedere con quello che google considera una buona pagina. Ma non ti penalizza di certo solo per questo, rimani nel db, ci sono un sacco di listati di pdf e doc in SERP che fanno la loro porca figura. Ma fai danno al sistema e hai per qualche aspetto un trattamento speciale. Cartellino giallo.

Il testo sempre diverso è un'altra questione. Mozilla-googlebot è un pirana, passa mooolto piu' spesso del vecchio googlebot, passa a sciami. E non vede mai un contenuto uguale.... mmmmmmhhh... sarà mica uno spam engine? Non pare, non sembra, manca il movente, boh.....lo zio non decide. Entra in stallo. Non puo' fare confronti, non puo' applicare tutta la sua sapienza algoritmica per assenza di alcune basi. Altro cartellino giallo.

Che farebbe di solito il bot?
Sei credibile e i tuoi testi cambiano spesso? Infittisce le visite.
Fai schifo al web e i tuoi testi cambiano sempre? Ti saluta, passerà quando non ha altro da fare, fottuto spammer.
Un indicatore utile per capire a volte è l'analisi dei bot nel tempo.

Agoago, potrebbe essere utile un'occhiata ai log e al numero di visite da bot, sia sulle pagine finali che su quelle che le linkano.

Un'altro test che farei è proprio quello che dice claudioweb, mettere di colpo un link in tutte le 100k pagine alla home, giusto per misurare le implicazioni del dangling.

Ciao, notte

agoago

Faccio subito la cosa piu' semplice, metto un numero di link random (da 0 a 5 per dire) che puntano a pagine interne e a siti istituzionali, per esempio verso lo stesso G.

In questa maniera iniziamo a delimitare il problema!