• User Attivo

    Doorway e G, algoritmo micidiale.

    Mi scuso fin da subito per il titolo ma non sapevo come rendere l'idea di cosa ho potuto constatare... ed ho bisogno di un consiglio.


    In breve, su un mio sito ad alto pr, oltre un anno fa ho messo uno script che creava "al volo" una pagina "artificiale "ogni qual volta che uno spider cercava una pagina ormai inesistente.

    Insomma, per capirci nessun 404.

    In poche parole, ipotizziamo che su un sito ci sia la pagina a.html
    Quando la pagina a.html non mi serve piu' la cancello, ma lo spider al posto di ricevere un 404 code cercando a.html si becca invece un testo artificiale lato server, testo che riempie di contenuto la a.html

    Insomma, ogni pagina cancellata e' ricreata dal server ex novo, e lo spider se la legge.

    --

    Passano i mesi e dopo un anno verifico che G ha preso oltre 100k pagine artificiali, doorway create al volo ma senza redirect, senza pubblicita', senza link, senza nulla. Solo testo ed immagini.

    Ovviamente nessun beneficio per me, perche' un utente che le raggiungesse via serp si troverebbe davanti ad una pagina senza via di uscita, senza link ne redirect... torna indietro ed amen.


    Ok, fino a qui tutto normale, G trova una doorway ben fatta al posto della vecchia pagina precedente, la spiderizza e la mette in serp.


    Bene, veniamo al dunque.

    Per capirci e per non dare adito a ipotesi errate, considerate che da 10 anni sono in grado di creare doorway ben fatte. O meglio, tra 100 cose diverse (non lo faccio di mestiere), piu' o meno serie, sono in grado di creare doorway in modo quasi naturale. Nel senso che solo un buon vecchio seo puo' riconoscerle come tali.

    Tengo conto di decine di fattori: grammaticali, logici, tematici, html, immagini, errori voluti (solo un programma non sbaglia), peso pagina, livelli, link e via discorrendo.

    Se creo per esempio uno spamengine su un dominio nuovo, dopo pochissimo tempo G mette nel suo db centinaia di pagine, poi magari le banna, ma fin tanto che le pagine sono nel suo db danno la loro bella resa.


    Bene, riassumendo:

    1. Il sito e' forte.

    2. Ogni qualvolta che cancello una pagina del sito la stessa viene sostituita da una doorway.

    3. Il motore si becca sempre un 200 code quando spiderizza la pagina rimossa e ricreata lato server.

    4. Il motore si becca sempre un contenuto diverso quando spiderizza una pagina.

    5. Il contenuto delle doorway e' ottimo, quasi naturale.

    6. Le stesse doorway su un sito nuovo qualsiasi danno ottimi risultati-resa.


    Ah, scusate, nel divagare non vi ho detto il problema che mi fa dannare.

    100k pagine-doorway nel db di G, nessuna con risultato supplementare a fianco, ma 0 accessi.


    A costo di essere noioso voglio farmi capire perfettamente.

    Su un mio sito ho una pagina a pr4. La secco
    Il mio prog, quando passa uno spider o chiunque altro, riscrea al volo quella pagina con contenuto random, scitto in modo quasi perfetto.

    Il motore passa, si becca il nuovo contenuto e lo memorizza nel db. La pagina rimane con il suo bel pr 4.

    Con il vecchio contenuto faceva per dire 10 accessi al giorno, ora 0.

    Questo per oltre 100.000 pagine.

    Se guardo la cache della serp, di una doorway qualsiasi, e cerco una sua frase, la doorway appare nei primi posti, pertanto le pagine sono nel db e ben attive.

    Pero' nessun accesso.

    Possibile che nessun utente le trovi magari con query assurde da 4 o 5 parole?

    Perche lo stesso schema per crearle da ottimi risultati su siti magari appena aperti?


    Ho ragionato molto su questa faccenda.

    Per prima cosa ho pensato che se le doorway sostitutive fossero state fatte male allora anche altri miei siti di sole doorway avrebbero avuto grossi problemi sotto G, ma cosi' non e'.

    Pertanto il contenuto sostitutivo e' ok.

    Ho pensato che G tenga conto dei temi storici, ma le door istantanee sono a tema con le pagine rimosse, pertanto non ha senso...


    Morale, la mia primordiale idea e' che G confronti il contenuto di una data pagina con il contenuto precedentemente spiderizzato.

    Se il contenuto e' stato "stravolto", pur rimanendo in tema, G penalizza pesantemente la pagina.

    La pagina viene assorbita, messa nel db, ma con un punteggio talmente basso da non produrre nessuna resa-accesso.

    Insomma, quanti di voi hanno oltre 100k pagine in G ben fatte, costantemente spiderizzate ed aggiornate, e non ricevono nessun accesso? Impossibile!

    Eppure e' cosi'. Le pagine che non sono state sostitute da doorway vanno benissimo, e ricevono accessi da G costantemente.

    Ma quando ne cancello una vecchia, ed il prog lato server ne ricrea una nuova al volo quando la vecchia viene richiesta, ecco che la nuova non rende nulla, ma e' presente nel db.

    Se lo stesso contenuto creato "al volo" lo metto su un nuovo sito rende.


    Questa cosa mi fa diventare matto, sinceramente non credo che G abbia voglia di comparare i contenuti di una pagina con i precedenti ogni volta che la spiderizza, sarebbe facilissimo per lui a livello tecnico, ma userebbe parecchie risorse per far fronte-verificare ad una % bassissima di "furbi".


    In base alla teoria che se una pagina non riceve accessi deve essere cancellata dovrei rimuovere lo script e perdere di conseguenza 100.000 pagine dal db di G. Onestamente mi girano, ma a rigor di logica non posso fare altrimenti.


    Che G sia dannatamente bravo a sgamare i "barbatrucchi" lo sappiamo tutti, ma spero non fino a questo punto.

    Che fare?


  • User Attivo

    Ciao agoago 🙂

    è sempre un piacere leggere i tuoi post.

    Premetto la mia "inesistente" esperienza in materia, vorrei approfondire alcuni concetti se ti va 🙂

    @agoago said:

    Ah, scusate, nel divagare non vi ho detto il problema che mi fa dannare.

    100k pagine-doorway nel db di G, nessuna con risultato supplementare a fianco, ma 0 accessi.

    Possibile che nessun utente le trovi magari con query assurde da 4 o 5 parole?

    Penso di aver compreso il problema e sono "sconvolto" che 100K pagine nn facciano un singolo accesso, anche con query assurde: non ho esperienza ma sicuramente è un "po" strano.

    Una cosa vorrei approfondire, quando dici

    @agoago said:

    Se il contenuto e' stato "stravolto", pur rimanendo in tema, G penalizza pesantemente la pagina.

    Ma allora cosa succederebbe per i "cambi" di dominio?

    Cioè quando un dominio nn viene rinnovato, acquistato da altri che ne "cambiano il tema" per Google, dovrebbe sempre essere penalizzato?

    Dai dati storici sappiamo che Google può verificare un cambio totale di un dominio in diversi modi: server, intestazioni, whois, ip, fino ad arrivare alla struttura e ai contenuti della pagina.

    Quindi, magari, un "corretto" riconoscimento del "cambio" di un dominio avviene solo se risultano verificati determinati fattori.


    Tornando alle 100k pagine:

    • dici che la generazione delle doorway è "perfetta", visto che in altri siti nuovi tutto funziona correttamente

    • Fai il cambio, Google archivia in db le 100k sostituite (quindi niente duplicazione), ma è come se venissero considerate "a utilità 0" per l'utente, visto che non fanno accessi.

    Avevo cominciato a studiare il brevetto antiduplicazione un po di tempo fa, ma non ho più finito.

    1. Non potrebbe essere, visto l'elevato numero di pagine cmq "simili" che vengono generate dal cambiamento, cioè tutte senza link, senza pubblicità, etc, che incappi cmq in una sorta di filtro antiduplicazione per l'ordinamento dei risultati?

    2. Lo stravolgimento del tema: come dicevo sopra per i cambi di dominio, potrebbe essere che, sempre per l'elevato numero di pagine stravolte, Gooogle si sia allarmato di un probabile cambio di domino, ma poi andando a verificare altri dati, si rende conto che così non è, e fa scattare altri controlli, come al punto 1.?

    uhmm...mi sa che mi sono capito da solo...

    Spero cmq di esserti utile, anche se solo con punti di vista diversi 🙂


  • User Attivo

    Ovviamente nessun beneficio per me, perche' un utente che le raggiungesse via serp si troverebbe davanti ad una pagina senza via di uscita, senza link ne redirect... torna indietro ed amen.

    Ma queste pagine finte sono linkate ?

    Che fare?

    Aggiungi dei link e vedi che succede. Integrale come se fossero pagine naturali. Si è mai visto una pagina di un sito web senza link ?

    Io motore di ricerca, che vantaggio ho a mandare un utente su una pagina se poi non ci può fare niente ? Penso che sia fuffa, perchè se su 8 miliardi di pagine che ho indicizzato ce ne sono 100.000 (le tue) senza link mi viene il dubbio che qualcosa non funzioni.

    Tua è la teoria della distribuzione degli accessi:
    se queste pagine prima avevano valore X, poi le hai rigenerate magari non linkandole, per logica han perso valore quindi sono poco competitive in serp (magari le trovi ma dopo la 4000 posizione).

    Cioè quando un dominio nn viene rinnovato, acquistato da altri che ne "cambiano il tema" per Google, dovrebbe sempre essere penalizzato?

    Se compri un dominio e cambi il contenuto vieni bannato al volo.


  • Super User

    Cambiare i contenuti delle pagine ad ogni accesso degli spider è qualcosa che puoi fare senza problemi su siti nuovi e dei quali Google non possiede un grande storico.

    Se, al contrario, un sito ha acquisito una buona autorevolezza/importanza agli occhi di Google anche in funzione della "stabilità" dei suoi contenuti, togliendo quella stabilità tu costringi Google a rivalutare il sito e le sue pagine.

    Ma visto che la ri-generazione è continua e al volo, togli a Google la possibilità di formarsi un'idea stabile della singola pagina e, conseguentemente, dell'intero sito.

    Google compara sempre i contenuti testuali delle pagine. Ci sono modi per fare ciò senza consumare molte risorse.

    A questo si aggiunge il potenziale problema segnalato da uMoR: che fine fanno i link su quelle pagine?


  • Super User

    @uMoR said:

    Se compri un dominio e cambi il contenuto vieni bannato al volo.

    purtroppo, "al volo" mi sembra un'espressione un po' troppo forte... 😉


  • User Attivo

    Provato personalmente, al volo significa passa lo spider e mi banna.

    C'è un sacco di gente che compra vecchi domini e ci mette su pagine porno, il tempo di mettere la pagina e sono già bannati.


  • Super User

    E' perfettamente comprensibile un banning conseguente a un cambio repentino e radicale della tipologia di contenuti di un sito. Ad esempio rilevare un dominio anziano, con buoni back link ecc. per riempirlo di PPC (Porn, Pills & Casinos) è probabile sia una pratica non molto ben vista da Google. 🙂


  • User Attivo

    @Everfluxx said:

    E' perfettamente comprensibile un banning conseguente a un cambio repentino e radicale della tipologia di contenuti di un sito. Ad esempio rilevare un dominio anziano, con buoni back link ecc. per riempirlo di PPC (Porn, Pills & Casinos) è probabile sia una pratica non molto ben vista da Google. 🙂

    giustamente 🙂

    leggiamo anche dai [url=http://giorgiotave.it/forum/viewtopic.php?t=628&postdays=0&postorder=asc&start=75&sid=306ddf5b3aeca17f16c8cd73c0e677f0]dati storici

    [0128] Un significativo cambiamento nel tempo in un set di temi associati con il documento può indicare che il documento ha cambiato proprietario e gli indicatori del documento precedente, come il punteggio, gli anchor text, etc, non sono più attendibili. Similarmente, un picco nel numero dei temi potrebbe indicare spam. Per esempio, se un particolare documento è associato con un set di uno o più temi sui quali può essere considerato un periodo ?stabile? di tempo e poi avviene un picco (improvviso) nel numero di temi associati con il documento, questo può essere un indicatore che il documento sia un documento ?doorway?. Un'altra indicazione può includere la scomparsa dei temi originali associati con il documento. Se una o più di queste situazioni sono riscontrate, allora GG può ridurre relativamente il punteggio dei documenti e/o dei links, degli anchor text, o altri dati associati al documento.

    La mia domanda si riferiva ad una situazione legittima, tipo:

    una nuova società trova il suo nome a dominio registrato con su sito con temi diversi dai suoi, già stabile; rileva il dominio, lo paga per 10 anni e cambia il tema; Google dovrebbe procedere a tutte le analisi, penalizzare automaticamente i vecchi Bl e i vecchi contenuti, ma ricominciare ad acquisire e rivalutare i nuovi dati... è nel suo interesse o sbaglio?

    Così come se rileva picchi improvvisi nel numero dei temi, e la scomparsa degli originali, si allarma e procede alle penalizzazione.

    è per questo che cercavo di dare importanza all'elevato numero di pagine e il cambiamento del tema: perchè sono picchi che allarmano Google.

    poi, come già detto, non ho esperienza diretta: per il porno ci saranno sicuramente filtri particolari che portano al ban, ma è così in generale?

    per la valutazione dell'aggiornamento dei contenuti quoto Low: sempre dai dati storici c'era una funzione per valutare gli aggiornamenti che lega entità e frequenza...ma come dice Low, Google non ha il tempo di valutarli.


  • User Attivo

    Premesso nuovamente che non ho la minima idea in merito a questa cosa delle 100k pagine e 0 accessi, rivediamo il tutto:

    Raele-l'Angelo (e grazie per il complimento):

    "Quindi, magari, un "corretto" riconoscimento del "cambio" di un dominio avviene solo se risultano verificati determinati fattori."

    Nel mio caso il dominio e' sempre lo stesso!

    "1. Non potrebbe essere, visto l'elevato numero di pagine cmq "simili" che vengono generate dal cambiamento, cioè tutte senza link, senza pubblicità, etc, che incappi cmq in una sorta di filtro antiduplicazione per l'ordinamento dei risultati?"

    Le pagine non sono simili, ma come ricordi sono senza link ecc ecc, solo testo ed immagini random. Pero' moltissime pagine soprattutto di genere scentifico non hanno link verso l'esterno, sono classici documenti informativi.

    "2. Lo stravolgimento del tema: come dicevo sopra per i cambi di dominio, potrebbe essere che, sempre per l'elevato numero di pagine stravolte, Gooogle si sia allarmato di un probabile cambio di domino, ma poi andando a verificare altri dati, si rende conto che così non è, e fa scattare altri controlli, come al punto 1.?"

    Come detto prima il dominio e' sempre lo stesso, cambio il contenuto delle pagine ma non il dominio.. se cambiassi dominio potrei pensare che dipenda da quello... invece purtroppo non e' cosi'! Inoltre le pagine nuove sono a tema con le vacchie, e' stato la prima cosa che ho affrontato nel creare le nuove pagine.

    uMoR:

    "Ma queste pagine finte sono linkate ? "

    Lincate? Stralincate, alcune da oltre 7 anni, anche con pr5, fai tu....

    "Io motore di ricerca, che vantaggio ho a mandare un utente su una pagina se poi non ci può fare niente ? Penso che sia fuffa, perchè se su 8 miliardi di pagine che ho indicizzato ce ne sono 100.000 (le tue) senza link mi viene il dubbio che qualcosa non funzioni."

    Si sono lincate ma non hanno link in uscita. Interessante questa tua analisi, nel senso che se G interpretando il contenuto della pagina lo ritenesse non utile, non vedendo per di piu' link in uscita potrebbe effettivamente pensare che non vale la pena di mandarci qualcuno.

    Tuttavia uMoR, sappiamo entrambi che i motori sono ancora troppo intenti ad occuparsi di cose piu' pratiche, piuttosto che valutare il potenziale valore informativo di una pagina al punto di decidere se penalizzarla o meno in mancanza di link esterni. Mi piace come idea, ma ho visto troppe schifezze nei motori in questi anni per non essere consapevole che ad oggi non si degnano in questo tipo di analisi. Ma visto che il motore vince ed io perdo, nulla di piu' facile che mi sbagli nel giudizio.

    "Tua è la teoria della distribuzione degli accessi:
    se queste pagine prima avevano valore X, poi le hai rigenerate magari non linkandole, per logica han perso valore quindi sono poco competitive in serp (magari le trovi ma dopo la 4000 posizione)."

    E' proprio in base alla teoria della distribuzione ed assegnazione degli accessi in rapporto al valore complessivo del sito che ho avuto l'ennesima conferma. Le pagine sono lincate, ma probabilmente per G sono di basso, bassissimo valore, pertanto tutto il sito ne risente, perde pesantemente di valore e di conseguenza i minori accessi assegnati sono distribuiti solo sulle pagine originali, e su questo siamo d'accordo. Il problema e': perche' le nuove che vanno alla grande altrove non funzionano se usate al posto delle pagine vecchie di un sito storico??

    LowLevel:

    "Se, al contrario, un sito ha acquisito una buona autorevolezza/importanza agli occhi di Google anche in funzione della "stabilità" dei suoi contenuti, togliendo quella stabilità tu costringi Google a rivalutare il sito e le sue pagine.
    Ma visto che la ri-generazione è continua e al volo, togli a Google la possibilità di formarsi un'idea stabile della singola pagina e, conseguentemente, dell'intero sito.
    Google compara sempre i contenuti testuali delle pagine. Ci sono modi per fare ciò senza consumare molte risorse. "

    Ecco, quando parlo di "algoritmo micidiale" mi riferisco proprio a qualcosa del genere, nel senso che c'e' sicuramente un filtro di cui non sono a conoscenza che di fatto mi supera.

    La prima cosa a cui ho pensato (per formazione mentale) e' stata cosa potesse apparire illogico-forzato ad un motore.

    Nell'ordine ho messo:

    1. Pagine sempre con contenuto nuovo (nessuna logica)

    2. Mancanza di link verso l'esterno (possile ma poco probabile su 100k pagine, capisco su una pagina ogni tanto, ma 100k pagine senza link esterni? puzza a me... chissa' ai motori).

    Pero' forse a torto, mi sono detto: non e' possibile che G sia cosi' raffinato. Non e' possibile perche' G presenta dei limiti in alcuni (pochissimi a dir la verita') suoi algoritmi che faccio fatica a pensare che applichi 1 o 2 algoritmi studiati ad hoc per i 2 punti sopra citati.

    Secondo voi, sono arrivati a tanto?

    P.S. Sul discorso delle pagine senza link esterni, proprio mentre ci ragionavo sopra, era intervenuto con un suo post Stuart. La coincidenza mi aveva stupito e fatto piacere allo stesso tempo.


  • Super User

    @agoago said:

    La prima cosa a cui ho pensato (per formazione mentale) e' stata cosa potesse apparire illogico-forzato ad un motore.

    Nell'ordine ho messo:

    1. Pagine sempre con contenuto nuovo (nessuna logica)

    secondo me non é tanto illogico.
    se il contenuto cambia ogni volta che lo spider passa, come fa il motore ad assegnare un ranking su un contenuto definito? se ogni volta che passa, lo spider trova un contenuto diverso, é facile dedurre che quando un utente arriverá a quella pagina da una query sul mdr, troverá un risultato diverso da quello previsto. e questa é una violazione delle linee guida dei motori, in fondo 🙂


  • Super User

    @must said:

    se ogni volta che passa, lo spider trova un contenuto diverso, é facile dedurre che quando un utente arriverá a quella pagina da una query sul mdr, troverá un risultato diverso da quello previsto. e questa é una violazione delle linee guida dei motori, in fondo 🙂
    Il tuo ragionamento fila, però ti faccio una domanda: una pagina come [url=http://froogle.google.com/]questa a tuo giudizio viola le linee guida? (Mi riferisco ovviamente alle query d'esempio che cambiano a ogni reload della pagina).


  • Super User

    a mio giudizio, di umano, no. perché il vero sito, lí, é il campo di ricerca.

    certo non saprei come un algoritmo potrebbe definirlo senza ausilio umano, ma per fortuna io vendo salumi, non faccio motori di ricerca 😄


  • Super User

    Io non ho capito varie cose, perdonate la mia ottusità:

    1. quando viene generata la door poi che fine fa?
    2. quando ripassa lo spider viene creata una nuova door ex novo e riprodotta la precedente?
    3. mi pare di avere capito che se cerchi su google queste pagine saltano fuori nelle serp o mi sbaglio? E se questo è vero perchè le riesci a vedere solo tu? Con 100K pagine ci dovrà essere per forza qualcuno che ci arriva. Se invece ho capito male ignora quest'ultima domanda.
    4. le door non hanno nessunissimo link, nemmeno di ritorno alla pagina precedente?
    5. che tecnologia hai utilizzato per generarle (non mi interessano i dettagli, anche perché probabilmente non li capirei 🙂 )?

  • User Attivo

    @agoago said:

    Secondo voi, sono arrivati a tanto?

    Ciao agoago,
    non saprei, ma a naso e solo leggendo quello che racconti, c'è qualcosa nel tuo sito che disturba il motore. La cosa piu' probabile è il grande numero di pagine "anomale" (senza link in uscita e senza anzianità, cosa + grave imho).
    Individuare la qualità media di un sito è piuttosto semplice per l'algoritmo, non deve far altro che dividere un fattore, mettiamo la presenza di kw facenti parte di un cluster semantico, per il numero di pagine invece che per il numero di parole nella pagina. Idem per il numero di link, per la presenza intitle ecc ecc. Il MdR ha una idea della tua qualità media, on-site.

    Qualsiasi sito in salute a cui tu aggiunga 100k pagine che hanno un elemento disturbante, si trasformerà per il MdR in un sito disturbato, poiche', nella media, di fatto lo diventerà.

    Insomma, la soluzione non ce l'ho, ma guarderei in direzione della qualità media stroiata da un enorme numero di dangling pages. Una pagina che non mette link trattiene il PR e viene trattata con sospetto dallo zio... si sapeva di trattamenti differenziati per rimettere in circolo il PR trattenuto indebitamente.... magari sei incappato in questi trattamenti.

    A presto.


  • Super User

    @must said:

    secondo me non é tanto illogico.
    se il contenuto cambia ogni volta che lo spider passa, come fa il motore ad assegnare un ranking su un contenuto definito? se ogni volta che passa, lo spider trova un contenuto diverso, é facile dedurre che quando un utente arriverá a quella pagina da una query sul mdr, troverá un risultato diverso da quello previsto. e questa é una violazione delle linee guida dei motori, in fondo 🙂 :quote:
    @Everfluxx said:

    Il tuo ragionamento fila, però ti faccio una domanda: una pagina come [url=http://froogle.google.com/]questa a tuo giudizio viola le linee guida? (Mi riferisco ovviamente alle query d'esempio che cambiano a ogni reload della pagina).
    C'è una grossa differenza. Ragionando per pura logica/ipotesi: se una pagina ti cambia i contenuti ok, se 100 mila pagine cambiano i contenuti qualcosa non va.
    In quest'ottica mi sembrano valide le considerazioni di must.

    Inoltre, non è questo il caso, ma tante pagine che cambiano contenuti (e parliamo della totalità dei contenti) se io fossi un motore di ricerca, le vedrei come un tentativo di reverse engineering...

    Googlebot passa e trova sempre qualcosa di diverso, alla fine si dirà: questo sito mi passa sempre una minestra diversa per vedere quale mi piace, non mi vorrà imbrogliare?...

    Non mi stupirei dunque che ci anche fossero meccanismi di penalizzazione, finalizzati proprio ad evitare comportamenti simili.

    D'altra parte allargando, forse troppo, il discorso, in Ingegneria tutti i sistemi devono tener conto delle condizioni iniziali, cioè di ciò che è successo negli istanti precedenti.

    Quindi è normalissimo immaginare che quando si passa un ingresso (pagina) il sistema a tempo discreto (google) tenga conto degli ingressi precedenti (pagine precedentemente trovate a quell'indirizzo).

    Dall'analisi di ingresso attuale e degli ingressi precedenti, ne vien fuori l'uscita (ad esempio il valore della pagina).

    Se gli ingressi precedenti e quello all'attuale sono fortemente scorrelati tra loro, verosimilmente il sistema fornirà un'uscita non troppo buona.


  • User Attivo

    Secondo voi, sono arrivati a tanto?

    Secondo me si, comunque, per prova, prima aggiungi dei link ad altre pagine del tuo sito, poi se ancora non fa accessi, prova a renderle statiche.

    Se ancora non manda accessi, cancellale e vediamo che succede. Magari esplodi su altre chiavi..


  • Super User

    @agoago said:

    1. Mancanza di link verso l'esterno (possile ma poco probabile su 100k pagine, capisco su una pagina ogni tanto, ma 100k pagine senza link esterni? puzza a me... chissa' ai motori).

    agoago, guarda che le dangling page costituiscono davvero un problema imponente.

    Sin dagli albori sono state trattate da Google come pagine anomale in quanto, di fatto, impediscono al modello del PageRank (ma puoi estendere a quellochetipareRank) di effettuare correttamente i calcoli.

    Qualunque cosa venga distribuita attraverso i link e giunga ad una pagina va reimmessa nel sistema.

    Nel fare ciò è possibile convogliare l'elemento distribuito più su alcune pagine che su altre, ma la reimmissione nel sistema è imperativa, altrimenti le pagine perdono valore agli occhi del motore e, a catena, perdono valore le pagine che offrono link solo verso le dangling page.

    Non sottovaluterei questo aspetto, sopratutto perché tale fenomeno esiste da anni ed è uno di quei casi in cui teoria (la gestione delle dangling page viene spiegata anche nella paper originale del PageRank) e pratica si trovano d'accordo.

    Ti chiedo scusa in anticipo se ho compreso male la tua spiegazione. Da quello che ho capito quelle pagine non ospitano link di alcun genere (a nessuna pagina, interna o esterna al sito). Se così non fosse, chiedo venia per l'equivoco. 🙂


  • Super User

    @claudioweb said:

    C'è una grossa differenza. Ragionando per pura logica/ipotesi: se una pagina ti cambia i contenuti ok, se 100 mila pagine cambiano i contenuti qualcosa non va.
    Perfettamente d'accordo: quando poi è solo una parte ben definita dei contenuti di una pagina, o anche di tutte le pagine di un sito, a cambiare a ogni accesso del bot (esempio classico: la data e ora dinamica inserita lato-server), non avrebbe alcun senso applicare una penalty. Cosa che infatti non avviene.


  • User Attivo

    Must quando scrivo che:

    "1) Pagine sempre con contenuto nuovo (nessuna logica)"

    voglio dire che da subito ho pensato che i motori capiscono che non ci sia nessuna logica per un wm di comportarsi in questo modo. Ho pensato esattamente come dici tu: "questa é una violazione delle linee guida dei motori"

    E' la prima cosa che ho valutato, ma non pensavo i motori fossero gia' cosi' "capaci". Per questo parlo di algoritmo micidiale.


    Credo che Pieropan abbia inquadrato perfettamente la situazione.

    Nelle mie 100k pagine c'e' un elemento disturbante... e dato l'alto numero di pagine disturbanti non solo le pagine che disturbano non ricevono accessi, ma il sito tutto ha subito una penalizzazione. Ha perso di valore ed e' stato declassato, svalorizzato (pieropan ho vissuto a siena, ma col cavolo che altri sanno cosa e' un qualcosa stroiato).

    Allora cerchiamo di capire quale sia l'elemento disturbante che penalizza.

    No link, contenuto sempre nuovo od entrambi?


    Catone:

    "1. quando viene generata la door poi che fine fa?"

    Mostra il suo contenuto (inutile) a chi vi accede. Fine.

    "2. quando ripassa lo spider viene creata una nuova door ex novo e riprodotta la precedente?

    Ogni utente vede un nuovo contenuto per una stessa url, se fai refresh 100 volti vedrai 100 contenuti diversi."

    "3. mi pare di avere capito che se cerchi su google queste pagine saltano fuori nelle serp o mi sbaglio? E se questo è vero perchè le riesci a vedere solo tu? Con 100K pagine ci dovrà essere per forza qualcuno che ci arriva. Se invece ho capito male ignora quest'ultima domanda."

    Non le vedo solo io, ma chiunque scriva nella query una frase contenuta nella pagina. E' proprio questo il punto centrale della discussione. G ha assegnato un valore cosi' basso a quelle pagine che solo cercando pezzi di frasi tra virgolette le puoi trovare. La discussione verte appunto su questo punto: cosa penalizza queste pagine al punto che 100k pagine non rendano tra tutte 1 o 2 accessi al giorno quando va bene?

    "4. le door non hanno nessunissimo link, nemmeno di ritorno alla pagina precedente?"

    Molti link in entrata nessuno in uscita.

    "5. che tecnologia hai utilizzato per generarle (non mi interessano i dettagli, anche perché probabilmente non li capirei )?"

    Beh e' la cosa piu' facile del mondo. Uno script in perl di pochi k viene richiamato ogni volta che un utente riceverebbe un 404. Il server intercetta il 404, crea il contenuto al volo per quella url e restiruisce un contenuto random ed un 200 code in risposta all'utente.

    (visto che parliamo qui solo tra di noi e nessun altro ci legge vi dico perche' non usare mai un trucco del genere. Gli script che creano contenuti al volo per qualsiasi url, o il dns settato in modo che si possa avere infiniti domini di terzo livello, presentano un grosso limite. Se un competitor lo scopre vi fa bannare immettendo nei motori infinite url random del vostro sito. Nel mio caso posso permettermelo solo per quel mio sito perche' e praticamente istituzionale, ma se non siete forti non provateci)


    Anche Claudioweb pensa che dipenda dal contenuto sempre nuovo, ed inoltre introduce un parametro: il tempo discreto.

    Il mio ragionamento si basava sulla mancanza di link esterni e sul fatto che il contenuto cambiava di volta in volta.

    Nel caso dei link potevo pensare ad una penalizzazione, ma minima.
    Nel caso del contenuto sempre nuovo potevo pensare che fosse fondamentale, ma pensavo che i motori non potessero avere infiniti db storici per confrontare il divinire dei contenuti nel tempo. Troppe risorse per un solo algoritmo.

    Non capisco perche' a volte ci si impunti-fissi su alcune idee senza riuscire a vedere oltre il proprio dito.

    Se per tempo discreto setto non un valore temporale ma il semplice confronto tra l'ultimo spider ed il penultimo ecco che tutto torna.

    L'algoritmo che prima mi sembrava micidiale adesso mi sembra banale e del tutto logico.

    Se un motore trova il contenuto di una pagina molto differentre rispetto alla sua precedente spiderizzazione ecco che allora non ha senso per lui valorizzare quella pagina per i vecchi link in entrata perche' chi aveva lincato il contenuto precedente non aveva intezione di lincare il nuovo contenuto, contenuto che manco conosce.

    Se a questo aggiungiamo che questo elemento disturbante non e' casuale in quanto 100k pagine stravolte non possono essere frutto di casualita', allora tutto torna.


    Mi ero fissato sulla comparazione (improbabile) da parte dei motori di molti db storici senza pensare al semplice confronto del precedente rispetto al nuovo, inoltre non avevo pensato alla cosa piu' logica e cioe' di considerare la "qualità media, on-site".

    Era cosi' semplice, grazie a tutti.


  • Super User

    @agoago said:

    La discussione verte appunto su questo punto: cosa penalizza queste pagine al punto che 100k pagine non rendano tra tutte 1 o 2 accessi al giorno quando va bene?
    Sarà forse il fatto che si tratta di 100k pagine di :spam:?

    Era cosi' semplice, grazie a tutti.
    Prego.