• Super User

    @ArkaneFactors said:

    PS: non è un trucco. 🙂
    Ah no?...
    Se non esistesse Google (o un qualsiasi motore di ricerca) che utilizzo pratico avrebbe?

    ps: non è male però!...;)

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    Ah no?...
    Se non esistesse Google (o un qualsiasi motore di ricerca) che utilizzo pratico avrebbe?
    Una custom 404 error page. Presente? 🙂

    ps: non è male però!...;)
    Oh, grazie.


  • Super User

    @Stuart said:

    ps: @arkane: le motivazioni autorevoli sulla quadrilaterazione di scambio link sono in pagina precedente 😄
    'azzo, non avevo visto il tuo post. Scusa.


  • Super User

    @ArkaneFactors said:

    ...Se così non è secondo te, dicci perché.
    PS: non è un trucco. 🙂

    Di sicuro fa questo:

    • Controlla che il titolo della pagina contenga "404" e l'intestazione HTTP abbia status 404. (test falso=allarme)
    • Richiede dal tuo server un file nominato in maniera random (Esempio: 1f5d1s1s4145fd5.htm)
      Così ottiene molte informazioni necessarie per certificare a se, la bonta o disonestà della pagina di errore.

  • Super User

    @Stuart said:

    http://www.motoricerca.info/news/news-245.html
    Pagina che tra l'altro hai citato anche te in un thread sul Pagerank qui su GT.

    Rilevare algoritmicamente scambi di link con uno schema leggermente più complesso del A->B->A pare non sia particolarmente arduo.
    Sì, sono d'accordo con questa interpretazione. Avevo letto l'intervista a Vigna (ovviamente), ma quel passaggio dev'essermi sfuggito. Ti ringrazio per avermelo segnalato, era esattamente la risposta che cercavo. 🙂

    @Stuart said:

    Non conoscevo quei programmi fino a quando non li hai linkati, e sai che non parlo di cose che non conosco (più o meno) a fondo.
    ps: il secondo sito, tra quelli da te proposti ha uno strano PR=0 (ma non è bannato)
    L'idea di fondo non è malaccio, tu hai usato questi servizi?
    Sì, li uso tutti i giorni. Scherzo. 😄
    Nemmeno io li conoscevo finché non sono capitato per caso sul primo dei due (il secondo l'ho trovato cercando "non reciprocal link exchange" -- una specie di ossimoro-- su Google). L'ho provato per sfizio su un sito a perdere (più che altro per vedere come funzionava essendo in PHP) ma l'ho rimosso quasi subito perché veniva fuori solo Phentermine Phentermine Viagra Viagra. 🙂
    Secondo me avran vita breve (lo pensavo prima, e lo penso ancora di più dopo dopo aver letto la risposta di Vigna). Strano in effetti quel PR0 sulla home di nxlinks, l'ho notato anch'io. Eppure la pagina è nella cache, e le altre hanno PR. Boh. Ho sonno.


  • Super User

    @ArkaneFactors said:

    'azzo, non avevo visto il tuo post. Scusa.
    Don't worry! 🙂
    Non è una domanda banale, ma sapere ESATTAMENTE come Google riesca a rilevare gli schemi di scambio link non è ovviamente dato saperlo.

    Al momento, non senza fatica visto il mio remotissimo background matematico, sto leggendo il paper "[url=http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=2005-33&format=pdf&compression=&name=2005-33.pdf]Link Spam Detection Based on Mass Estimation" che dà delle indicazioni su come sia possibile algoritmicamente scovare tecniche anche complesse di mistificazione della link popularity (anche in assenza di scambio diretto/indiretto).

    Volgarmente parlando, potrebbe essere semplice analizzando la 'storia' dei link, o la vicinanza dei nodi ("sito che linka a..."), o seguendo il movimento dello spider che seguendo i link ritorna al sito di partenza.

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    Non è una domanda banale, ma sapere ESATTAMENTE come Google riesca a rilevare gli schemi di scambio link non è ovviamente dato saperlo.
    Sì, ovvio. Intendevo chiederti: "Quali indizi hai per ritenere che..." ecc.

    Ad ogni modo, direi che la spiegazione matematica di Vigna lascia poco spazio a dubbi... Anche le altre ipotesi da te appena suggerite mi sembrano assolutamente plausibili.

    Esaustivo e convincente come sempre. 😉


  • Super User

    @Serp said:

    Di sicuro fa questo:

    • Controlla che il titolo della pagina contenga "404" e l'intestazione HTTP abbia status 404. (test falso=allarme)
    • Richiede dal tuo server un file nominato in maniera random (Esempio: 1f5d1s1s4145fd5.htm)
      Così ottiene molte informazioni necessarie per certificare a se, la bonta o disonestà della pagina di errore.
      Mi sembrano test insufficienti a determinare se una pagina di errore 404 personalizzata è "disonesta" (qualsiasi cosa tu voglia intendere con questo termine)...

    Perdona il mio scetticismo ma, davvero, proprio non capisco per quale motivo Google dovrebbe penalizzare un sito per i contenuti di una pagina che non verrà mai indicizzata.

    Per come la vedo io, un webmaster deve essere libero di mettere quello che più gli aggrada su una pagina di errore 404 ([url=http://www.plinko.net/404/area404.asp]qui ce n'è di parecchio divertenti, e [url=http://www.useit.com/alertbox/20010624.html]qui e [url=http://www.alistapart.com/articles/perfect404/]qui ci sono ottimi consigli su come renderle più utili agli utenti), senza bisogno di preoccuparsi dei motori di ricerca (a loro deve bastare e avanzare l'header 404). Una custom 404 page non potrà mai esser considerata spam, perchè non è spam. IMHO.

    Posto che non è nemmeno classificabile come cloaking (uno spider vede lo stesso identico contenuto che vedono gli utenti, HTTP header compresi), mi riesce molto difficile anche immaginare un modo per usare una pagina del genere per fini di spamming... Ma questo magari me lo potete suggerire voi. 😉

    Io adesso però vado a letto. Cia'


  • Super User

    @ArkaneFactors said:

    Perdona il mio scetticismo ma, davvero, proprio non capisco per quale motivo Google dovrebbe penalizzare un sito per i contenuti di una pagina che non verrà mai indicizzata.
    Infatti. Secondo me non è spam.
    Google punisce chi spamma perchè gli 'sporca' l'archivio, ma se una pagina, disonesta quanto vuoi, nell'indice non ci entra proprio, Page&Brin non hanno proprio nulla da lamentare...

    That's all folks... g.night 🙂

    Cordialmente,
    Stuart


  • Super User

    @ArkaneFactors said:

    Perdona il mio scetticismo ma, davvero, proprio non capisco per quale motivo Google dovrebbe penalizzare un sito per i contenuti di una pagina che non verrà mai indicizzata.

    @Stuart said:

    Infatti. Secondo me non è spam.
    Google punisce chi spamma perchè gli 'sporca' l'archivio, ma se una pagina, disonesta quanto vuoi, nell'indice non ci entra proprio, Page&Brin non hanno proprio nulla da lamentare...

    Non sono d'accordo. E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.
    Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia ;). E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti 😄 e di conseguenza ME.

    -Sto anche implicitamente chiedendo: il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?

    -Ricapitolando, quando chiedo uno scambio link cosa devo controllare per non prendere fregature?

    1. il rel="nofollow"
    2. il robots.txt, che mi sembri si trovi nella root e lo possa scaricare in locale salvando la pagina index come html, e cosa devo trovar scritto di preciso?
    3. lo script <?php header("HTTP/1.0 404 Not Found"); ?>
      e poi, solo questi, siete sicuri?

    -E poi, @Stu, d'accordo la procedura della non indicizzazione funzionerebbe per una pagina di scambio, ma per i link da home a home?


  • Super User

    @micky said:

    E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.
    Meno di quanto pensi.

    @micky said:

    Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia 😉
    Se tu comunichi agli spider di NON indicizzare una directory tramite file robots.txt, rispettano questa tua decisione. In genere molto scrupolosamente. L'uso di questo file è suggerito anche nelle guidelines di Google come mezzo di esclusione dall'indicizzazione.

    Sul giochetto della custom 404 proposto da ArkaneFactors non ho esperienza. Ho motivo di ritenerla una mezza ideona, anche perchè gli spider fanno già solitamente fatica ad indicizzare pagine che il webmaster vorrebbe indicizzare figuriamoci se si sbatte a farlo per pagine 'non trovate'

    @micky said:

    E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti e di conseguenza ME.
    Giusta osservazione 😉
    Classico esempio di penalizzabilità 'a vista'. Sia usando l'header 404 che il robots.txt (sono due cose diverse, te lo spiego più avanti nel post), lo spider non indicizza le pagine, ma se per altri motivi un tecnico giunge sul sito e lo analizza dubito gli sfuggirebbe una cosa simile.

    Nella peggiore delle ipotesi, ti verrebbero svalutati i link in entrata, non verresti certo bannato (la tua personalissima link farm l'hai tenuta lontana dall'indice di Google). Che tu stia fregando gli inserzionisti a Google importa poco. comunque.

    @micky said:

    il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?
    Ecco, questo me lo sto chiedendo anche io da un po'.
    Nel senso, sappiamo che usando il rel=nofollow su un link io posso inserire un link ad un sito che NON mi piace senza votarlo/passare PR, o a cui ho venduto uno spazio pubblicitario sul mio sito senza contravvenire alle guidelines.

    Ma cosa succede in realtà a quel link? Viene semplicemente ignorato? O viene seguito ma non gli si applica la classica formuletta del PR e non gli si attribuisce valore semantico? Nel secondo caso, uno scambio link pulito VS link con rel=nofollow verrebbe comunque visto come uno scambio.

    Ipotesi, ovviamente.

    @micky said:

    -Ricapitolando, quando chiedo uno scambio link cosa devo controllare per non prendere fregature?
    @micky said:
    il rel="nofollow"
    Sicuramente e innanzitutto.

    @micky said:

    il robots.txt, che mi sembri si trovi nella root e lo possa scaricare in locale salvando la pagina index come html, e cosa devo trovar scritto di preciso?
    Il file robots.txt è un file testuale che puoi visualizzare tranquillamente dal browser digitando nomesito.com/robots.txt
    La sintassi di un robots.txt che ha escluso dall'indice una o più directory è questa:

    User-agent: *
    Disallow&#58; /cgi-bin/
    Disallow&#58; /links/
    
    

    Dove l'asterisco indica TUTTI (diversamente puoi inserire i nomi degli user agent - Googlebot, Scooter...-) e Disallow (non permetti) l'elenco delle directory che non vuoi che l'user agent non indicizzi. In questo caso una cartella che si chiama LINKS, preposta allo scambio link

    @micky said:

    lo script <?php header("HTTP/1.0 404 Not Found"); ?>
    Questo non lo trovi all'interno del robots.txt, bensì all'inizio di una pagina PHP. A meno di non conoscere le password FTP del sito (o essere smanettoni e io purtroppo non lo sono), non c'è modo di scaricare e analizzare una pagina PHP di un altro sito in locale.
    Puoi fare così. Prendi l'indirizzo della pagina dove è stato inserito il tuo link/banner e gli fai un esame degli header. Molto comodamente puoi utilizzare questo tool:
    http://www.seoconsultants.com/tools/headers.asp

    @micky said:

    e poi, solo questi, siete sicuri?
    Non me ne vengono in mente altri, così su due piedi...se se non di controllare anche che l'Url di rimando al tuo sito non sia dinamico, e magari mascherato con uno script javascript (che ti fa vedere il tuo url sulla barra di stato ma in realtà è www.sito.com/?url=www.sitodimiky.com o robe simili.

    @micky said:

    a procedura della non indicizzazione funzionerebbe per una pagina di scambio, ma per i link da home a home?
    NO, ovviamente, a meno che tu non voglia escludere da Google l'home page. Io non sono propenso agli scambi home-home, a meno che non mi convenga da un punto di vista della visibilità del mio link/banner e quindi in termini di probabili accessi.

    Cordialmente,
    Stuart


  • Super User

    @micky said:

    Non sono d'accordo. E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.
    Pardon?

    Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia ;).
    "Non è detto?" Finché non mi fai vedere il contrario, io dico che una pagina con status code 404 non viene indicizzata, se permetti. Perdonami se sono franco, ma non puoi demolire una delle pochissime certezze che abbiamo con una supposizione che appare senza fondamento. 🙂

    E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti 😄 e di conseguenza ME.
    -Sto anche implicitamente chiedendo: il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?
    E' proprio il contrario, in effetti. Tant'è che Google (per bocca del solito Matt Cutts) incoraggia esplicitamente chi vende link dal proprio sito (pratica di per sé perfettamente "lecita"), a farlo usando rel=nofollow sugli stessi. Questo non per fregare la gente, ma per impedire che si faccia commercio di PageRank ("we consider it outside our guidelines to get PageRank via buying links"):

    @Matt Cutts said:

    What if a site wants to buy links purely for visitor click traffic, to build buzz, or to support another site? In that situation, I would use the rel=?nofollow? attribute. The nofollow tag allows a site to add a link that abstains from being an editorial vote. Using nofollow is a safe way to buy links, because it?s a machine-readable way to specify that a link doesn?t have to be counted as a vote by a search engine.
    http://www.mattcutts.com/blog/text-links-and-pagerank/

    Quanto sopra è estensibile a mio avviso a 404, robots.txt, noindex ecc.


  • Super User

    Grazie Stu, che risposta con i contro...OO ehm da incorniciare ;).
    Se faccio scambio banner, è palusibile inserirli all'interno del testo, visto che come dici giustamente tu, google odia una serie di link a manetta isolati?


  • Super User

    @Stuart said:

    Infatti. Secondo me non è spam.
    Google punisce chi spamma perchè gli 'sporca' l'archivio, ma se una pagina, disonesta quanto vuoi, nell'indice non ci entra proprio, Page&Brin non hanno proprio nulla da lamentare...
    That's it.


  • Super User

    @micky said:

    Se faccio scambio banner, è palusibile inserirli all'interno del testo, visto che come dici giustamente tu, google odia una serie di link a manetta isolati?
    La reciprocità c'è comunque. Inserendo del testo puoi in qualche modo 'sdrammatizzare' la tendenza alla link farming della tua pagina, ma il link rimane reciproco. Soprattutto quest'accortezza dovresti richiederla anche al webmaster con cui fai lo scambio.

    Cordialmente,
    Stuart


  • Super User

    @Stu said:

    Sul giochetto della custom 404 proposto da ArkaneFactors non ho esperienza.
    Io sì, se permetti. 🙂 E ti confermo che una pagina del genere non viene indicizzata, e non dà problema alcuno coi motori di ricerca.

    Ho motivo di ritenerla una mezza ideona,
    Wow, sono lusingato.

    Giusta osservazione 😉
    I strongly disagree.

    Ma cosa succede in realtà a quel link? Viene semplicemente ignorato? O viene seguito ma non gli si applica la classica formuletta del PR e non gli si attribuisce valore semantico?
    Viene seguito, ma non viene contato come voto. 😉


  • Super User

    @ArkaneFactors said:

    Io sì, se permetti. Smile E ti confermo che una pagina del genere non viene indicizzata, e non dà problema alcuno coi motori di ricerca.
    I trust you 😉

    @ArkaneFactors said:

    I strongly disagree.
    Quindi, secondo te, se il nuovo stagista di Matt Cutts comincia a smanettare su un sito e vede che la directory LINK (che prima non conosceva perchè non indicizzata) contiene N links, tutti reciproci, si fa una bella risata e basta?

    @ArkaneFactors said:

    Viene seguito, ma non viene contato come voto. 😉
    OK, e fin qui ci siamo. Ergo, la reciprocità del link è comunque rilevata anche in caso di link Vs nofollow link...... per logica, dico..

    Cordialmente,
    Stuart


  • Super User

    @ArkaneFactors said:

    micky ha scritto:
    Non sono d'accordo. E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.

    Pardon?

    Citazione:
    Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia .

    "Non è detto?" Finché non mi fai vedere il contrario, io dico che una pagina con status code 404 non viene indicizzata, se permetti. Perdonami se sono franco, ma non puoi demolire una delle pochissime certezze che abbiamo con una supposizione che appare senza fondamento.

    Ehi, io non voglio demolire niente :), a parte i miei competitors :D.
    Sto solo dicendo che a google piacerebbe piazzare in prima posizione un sito esente a trucchi di vario genere e questo è un trucco, perchè è uno scambio link mascherato con una procedura formalmente lecita, ma sostanzialmente no!
    Il fatto che google pesi un link spontaneo molto più (ah proposito non mi avete quantificato questo **molto più ** come chiedevo), sta a significare che google premia giustamente un sito che merita di essere citato senza una contropartita, perchè la contropartita stessa è il "servizio" o la bontà di contenuto che esso offre. Ed è ovvio che link che tecnicamente sono resi spontanei, ma che sostanzialmente non lo sono, sono passibili di un filtro da parte degli ingegneri dei motori, i quali sono accaniti quanto noi.
    Pensi che davvero basti un comando di no-index per far credere a google:"A bene il webmaster mi sta chiedendo di non indicizzare la pagina, facciamolo". Che poi tu scrivi site:pincopallino.com e la pagina in questione non ti appaia, è un altro paio di maniche. Ma penso che Google, e compagnia, abbiano un loro database interno in cui fanno **eccome **tutti questi calcoli. Se ho un sito che fa schifo, e riesco a ottenere un milione di link spontanei in questo modo, pensi che google dica a se stesso: "Beh, è giusto premiarlo perchè tecnicamente sono link spontanei :)?)

    @ArkaneFactors said:

    Citazione: Micky scriveva
    E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti e di conseguenza ME.
    -Sto anche implicitamente chiedendo: il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?

    E' proprio il contrario, in effetti. Tant'è che Google (per bocca del solito Matt Cutts) incoraggia esplicitamente chi vende link dal proprio sito (pratica di per sé perfettamente "lecita"), a farlo usando rel=nofollow sugli stessi. Questo non per fregare la gente, ma per impedire che si faccia commercio di PageRank ("we consider it outside our guidelines to get PageRank via buying links"):

    Se leggi bene avevo chiesto non se la pratica fosse lecita o meno, ma se google considerasse una situazione di link eschange con uno dei due link con il nofollow effettivamente come scambio , oppure no, ma propenderei, viste le mie considerazioni precedenti, con sufficiente sicurezza asintotica, per la prima ipotesi 🙂


  • Super User

    @Stuart said:

    @ArkaneFactors said:

    Io sì, se permetti. 🙂 E ti confermo che una pagina del genere non viene indicizzata, e non dà problema alcuno coi motori di ricerca.

    I trust you 😉

    Fiducia reciproca, come sai. Ah, BTW: non è un "giochetto". 🙂

    Quindi, secondo te, se il nuovo stagista di Matt Cutts comincia a smanettare su un sito e vede che la directory LINK (che prima non conosceva perchè non indicizzata) contiene N links, tutti reciproci, si fa una bella risata e basta?
    Sbaglierò, ma secondo me le pagine escluse non le prendono proprio in considerazione.


  • Super User

    @micky said:

    Pensi che davvero basti un comando di no-index per far credere a google:"A bene il webmaster mi sta chiedendo di non indicizzare la pagina, facciamolo".
    Voglio sperare di sì, e voglio sperare che prendano ancor più seriamente in considerazione il comando Disallow nel robots.txt

    C'è un contratto 'non scritto' tra webmaster e motori di ricerca: i primi si attengono alle guidelines e permettono agli spider il passaggio sulle loro pagine e la conseguente indicizzazione (che comporta, di fatto, consumo di banda e duplicazione delle proprie pagine), i secondi si impegnano a rispettare la volontà dei primi di non indicizzare pagine o directory indicate secondo gli standard convenuti: meta robots o robots.txt.

    Cordialmente,
    Stuart