scambio link e posizionamento

arkanefactors

Non ho dubbi in merito. Vorrei però comprendere come tu creda di inserire i link necessari per lo scambio (ricordi il problema in apertura del tread?) e renderli disponibili ai visitatori...
La vedi [url=http://fattori-arcani.awardspace.com/ciao.php]questa pagina? Bene, quella pagina restituisce HTTP status code 404 (Not Found), e non verrà mai indicizzata dai motori di ricerca.

Sorgente:

<?php header&#40;"HTTP/1.1 404 Not Found"&#41;; ?> 
<html><head><title>Ciao Serp!</title></head><body><h1>Ciao Serp! :-&#41;</h1></body></html>

Output:

HTTP/1.1 404
Date&#58; Thu, 13 Apr 2006 22&#58;32&#58;09 GMT
Server&#58; Apache
Connection&#58; close
Transfer-Encoding&#58; chunked
Content-Type&#58; text/html

5a
 
<html><head><title>Ciao Serp!</title></head><body><h1>Ciao Serp! &#58;-&#41;</h1></body></html>

0

serp

Infatti, è un trucco molto pericoloso da usare contro Google.

stuart

My opinion...
ormai il rel=nofollow lo guardano tutti... il robots.txt un po' meno...
Io farei una directory 'partners', 'amici' o quello che è, e la dedicherei agli scambi link, poi proteggerei la directory dagli occhi indiscreti degli spider con un bel robots.txt...

Certo, non potrò fare scambio link indiscriminato home-home (ma non lo farei comunque) e non posso farmi linkare quella directory, ma qualche link in più lo posso raccattare.

Se poi l'altro webmaster mi becca..."Ooops!"
E metto in atto la tecnica "Serp" di rimozione dell'Url da Google per 6 mesi

ps: @arkane: le motivazioni autorevoli sulla quadrilaterazione di scambio link sono in pagina precedente

Ooops,
Stuart

arkanefactors

@Serp said:

Infatti, è un trucco molto pericoloso da usare contro Google.
Ne dubito. Una pagina del genere per qualsiasi motore di ricerca è indistinguibile da una custom 404 error page. Anzi, è, di fatto, una custom 404 error page. Se così non è secondo te, dicci perché.

PS: non è un trucco.

arkanefactors

@Stuart said:

ps: @arkane: le motivazioni autorevoli sulla quadrilaterazione di scambio link sono in pagina precedente
La mia domanda era come fa Google, secondo te, a capire al volo che una quadrangolazione è uno scambio link. E' una domanda banale?

stuart

@ArkaneFactors said:

PS: non è un trucco.
Ah no?...
Se non esistesse Google (o un qualsiasi motore di ricerca) che utilizzo pratico avrebbe?

ps: non è male però!...;)

Cordialmente,
Stuart

arkanefactors

@Stuart said:

Ah no?...
Se non esistesse Google (o un qualsiasi motore di ricerca) che utilizzo pratico avrebbe?
Una custom 404 error page. Presente?

ps: non è male però!...;)
Oh, grazie.

arkanefactors

@Stuart said:

ps: @arkane: le motivazioni autorevoli sulla quadrilaterazione di scambio link sono in pagina precedente
'azzo, non avevo visto il tuo post. Scusa.

serp

@ArkaneFactors said:

...Se così non è secondo te, dicci perché.
PS: non è un trucco.

Di sicuro fa questo:

Controlla che il titolo della pagina contenga "404" e l'intestazione HTTP abbia status 404. (test falso=allarme)
Richiede dal tuo server un file nominato in maniera random (Esempio: 1f5d1s1s4145fd5.htm)
Così ottiene molte informazioni necessarie per certificare a se, la bonta o disonestà della pagina di errore.

arkanefactors

@Stuart said:

http://www.motoricerca.info/news/news-245.html
Pagina che tra l'altro hai citato anche te in un thread sul Pagerank qui su GT.

Rilevare algoritmicamente scambi di link con uno schema leggermente più complesso del A->B->A pare non sia particolarmente arduo.
Sì, sono d'accordo con questa interpretazione. Avevo letto l'intervista a Vigna (ovviamente), ma quel passaggio dev'essermi sfuggito. Ti ringrazio per avermelo segnalato, era esattamente la risposta che cercavo.

@Stuart said:

Non conoscevo quei programmi fino a quando non li hai linkati, e sai che non parlo di cose che non conosco (più o meno) a fondo.
ps: il secondo sito, tra quelli da te proposti ha uno strano PR=0 (ma non è bannato)
L'idea di fondo non è malaccio, tu hai usato questi servizi?
Sì, li uso tutti i giorni. Scherzo.
Nemmeno io li conoscevo finché non sono capitato per caso sul primo dei due (il secondo l'ho trovato cercando "non reciprocal link exchange" -- una specie di ossimoro-- su Google). L'ho provato per sfizio su un sito a perdere (più che altro per vedere come funzionava essendo in PHP) ma l'ho rimosso quasi subito perché veniva fuori solo Phentermine Phentermine Viagra Viagra.
Secondo me avran vita breve (lo pensavo prima, e lo penso ancora di più dopo dopo aver letto la risposta di Vigna). Strano in effetti quel PR0 sulla home di nxlinks, l'ho notato anch'io. Eppure la pagina è nella cache, e le altre hanno PR. Boh. Ho sonno.

stuart

@ArkaneFactors said:

'azzo, non avevo visto il tuo post. Scusa.
Don't worry!
Non è una domanda banale, ma sapere ESATTAMENTE come Google riesca a rilevare gli schemi di scambio link non è ovviamente dato saperlo.

Al momento, non senza fatica visto il mio remotissimo background matematico, sto leggendo il paper "[url=http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=2005-33&format=pdf&compression=&name=2005-33.pdf]Link Spam Detection Based on Mass Estimation" che dà delle indicazioni su come sia possibile algoritmicamente scovare tecniche anche complesse di mistificazione della link popularity (anche in assenza di scambio diretto/indiretto).

Volgarmente parlando, potrebbe essere semplice analizzando la 'storia' dei link, o la vicinanza dei nodi ("sito che linka a..."), o seguendo il movimento dello spider che seguendo i link ritorna al sito di partenza.

Cordialmente,
Stuart

arkanefactors

@Stuart said:

Non è una domanda banale, ma sapere ESATTAMENTE come Google riesca a rilevare gli schemi di scambio link non è ovviamente dato saperlo.
Sì, ovvio. Intendevo chiederti: "Quali indizi hai per ritenere che..." ecc.

Ad ogni modo, direi che la spiegazione matematica di Vigna lascia poco spazio a dubbi... Anche le altre ipotesi da te appena suggerite mi sembrano assolutamente plausibili.

Esaustivo e convincente come sempre.

arkanefactors

@Serp said:

Di sicuro fa questo:

Controlla che il titolo della pagina contenga "404" e l'intestazione HTTP abbia status 404. (test falso=allarme)

Richiede dal tuo server un file nominato in maniera random (Esempio: 1f5d1s1s4145fd5.htm)
Così ottiene molte informazioni necessarie per certificare a se, la bonta o disonestà della pagina di errore.
Mi sembrano test insufficienti a determinare se una pagina di errore 404 personalizzata è "disonesta" (qualsiasi cosa tu voglia intendere con questo termine)...

Perdona il mio scetticismo ma, davvero, proprio non capisco per quale motivo Google dovrebbe penalizzare un sito per i contenuti di una pagina che non verrà mai indicizzata.

Per come la vedo io, un webmaster deve essere libero di mettere quello che più gli aggrada su una pagina di errore 404 ([url=http://www.plinko.net/404/area404.asp]qui ce n'è di parecchio divertenti, e [url=http://www.useit.com/alertbox/20010624.html]qui e [url=http://www.alistapart.com/articles/perfect404/]qui ci sono ottimi consigli su come renderle più utili agli utenti), senza bisogno di preoccuparsi dei motori di ricerca (a loro deve bastare e avanzare l'header 404). Una custom 404 page non potrà mai esser considerata spam, perchè non è spam. IMHO.

Posto che non è nemmeno classificabile come cloaking (uno spider vede lo stesso identico contenuto che vedono gli utenti, HTTP header compresi), mi riesce molto difficile anche immaginare un modo per usare una pagina del genere per fini di spamming... Ma questo magari me lo potete suggerire voi.

Io adesso però vado a letto. Cia'

stuart

@ArkaneFactors said:

Perdona il mio scetticismo ma, davvero, proprio non capisco per quale motivo Google dovrebbe penalizzare un sito per i contenuti di una pagina che non verrà mai indicizzata.
Infatti. Secondo me non è spam.
Google punisce chi spamma perchè gli 'sporca' l'archivio, ma se una pagina, disonesta quanto vuoi, nell'indice non ci entra proprio, Page&Brin non hanno proprio nulla da lamentare...

That's all folks... g.night

Cordialmente,
Stuart

micky

@ArkaneFactors said:

Perdona il mio scetticismo ma, davvero, proprio non capisco per quale motivo Google dovrebbe penalizzare un sito per i contenuti di una pagina che non verrà mai indicizzata.

@Stuart said:

Infatti. Secondo me non è spam.
Google punisce chi spamma perchè gli 'sporca' l'archivio, ma se una pagina, disonesta quanto vuoi, nell'indice non ci entra proprio, Page&Brin non hanno proprio nulla da lamentare...

Non sono d'accordo. E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.
Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia ;). E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti e di conseguenza ME.

-Sto anche implicitamente chiedendo: il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?

-Ricapitolando, quando chiedo uno scambio link cosa devo controllare per non prendere fregature?

il rel="nofollow"
il robots.txt, che mi sembri si trovi nella root e lo possa scaricare in locale salvando la pagina index come html, e cosa devo trovar scritto di preciso?
lo script <?php header("HTTP/1.0 404 Not Found"); ?>
e poi, solo questi, siete sicuri?

-E poi, @Stu, d'accordo la procedura della non indicizzazione funzionerebbe per una pagina di scambio, ma per i link da home a home?

stuart

@micky said:

E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.
Meno di quanto pensi.

@micky said:

Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia
Se tu comunichi agli spider di NON indicizzare una directory tramite file robots.txt, rispettano questa tua decisione. In genere molto scrupolosamente. L'uso di questo file è suggerito anche nelle guidelines di Google come mezzo di esclusione dall'indicizzazione.

Sul giochetto della custom 404 proposto da ArkaneFactors non ho esperienza. Ho motivo di ritenerla una mezza ideona, anche perchè gli spider fanno già solitamente fatica ad indicizzare pagine che il webmaster vorrebbe indicizzare figuriamoci se si sbatte a farlo per pagine 'non trovate'

@micky said:

E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti e di conseguenza ME.
Giusta osservazione
Classico esempio di penalizzabilità 'a vista'. Sia usando l'header 404 che il robots.txt (sono due cose diverse, te lo spiego più avanti nel post), lo spider non indicizza le pagine, ma se per altri motivi un tecnico giunge sul sito e lo analizza dubito gli sfuggirebbe una cosa simile.

Nella peggiore delle ipotesi, ti verrebbero svalutati i link in entrata, non verresti certo bannato (la tua personalissima link farm l'hai tenuta lontana dall'indice di Google). Che tu stia fregando gli inserzionisti a Google importa poco. comunque.

@micky said:

il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?
Ecco, questo me lo sto chiedendo anche io da un po'.
Nel senso, sappiamo che usando il rel=nofollow su un link io posso inserire un link ad un sito che NON mi piace senza votarlo/passare PR, o a cui ho venduto uno spazio pubblicitario sul mio sito senza contravvenire alle guidelines.

Ma cosa succede in realtà a quel link? Viene semplicemente ignorato? O viene seguito ma non gli si applica la classica formuletta del PR e non gli si attribuisce valore semantico? Nel secondo caso, uno scambio link pulito VS link con rel=nofollow verrebbe comunque visto come uno scambio.

Ipotesi, ovviamente.

@micky said:

-Ricapitolando, quando chiedo uno scambio link cosa devo controllare per non prendere fregature?
@micky said:
il rel="nofollow"
Sicuramente e innanzitutto.

@micky said:

il robots.txt, che mi sembri si trovi nella root e lo possa scaricare in locale salvando la pagina index come html, e cosa devo trovar scritto di preciso?
Il file robots.txt è un file testuale che puoi visualizzare tranquillamente dal browser digitando nomesito.com/robots.txt
La sintassi di un robots.txt che ha escluso dall'indice una o più directory è questa:

User-agent: *
Disallow&#58; /cgi-bin/
Disallow&#58; /links/

Dove l'asterisco indica TUTTI (diversamente puoi inserire i nomi degli user agent - Googlebot, Scooter...-) e Disallow (non permetti) l'elenco delle directory che non vuoi che l'user agent non indicizzi. In questo caso una cartella che si chiama LINKS, preposta allo scambio link

@micky said:

lo script <?php header("HTTP/1.0 404 Not Found"); ?>
Questo non lo trovi all'interno del robots.txt, bensì all'inizio di una pagina PHP. A meno di non conoscere le password FTP del sito (o essere smanettoni e io purtroppo non lo sono), non c'è modo di scaricare e analizzare una pagina PHP di un altro sito in locale.
Puoi fare così. Prendi l'indirizzo della pagina dove è stato inserito il tuo link/banner e gli fai un esame degli header. Molto comodamente puoi utilizzare questo tool:
http://www.seoconsultants.com/tools/headers.asp

@micky said:

e poi, solo questi, siete sicuri?
Non me ne vengono in mente altri, così su due piedi...se se non di controllare anche che l'Url di rimando al tuo sito non sia dinamico, e magari mascherato con uno script javascript (che ti fa vedere il tuo url sulla barra di stato ma in realtà è www.sito.com/?url=www.sitodimiky.com o robe simili.

@micky said:

a procedura della non indicizzazione funzionerebbe per una pagina di scambio, ma per i link da home a home?
NO, ovviamente, a meno che tu non voglia escludere da Google l'home page. Io non sono propenso agli scambi home-home, a meno che non mi convenga da un punto di vista della visibilità del mio link/banner e quindi in termini di probabili accessi.

Cordialmente,
Stuart

arkanefactors

@micky said:

Non sono d'accordo. E' una procedura che sfrutta in maniera sostanziale, ma non formale, dei parametri per salire artificiosamente nelle serp.
Pardon?

Si dice a Google di non piazzare una pagina nell'indice, ma non è detto che lui non lo faccia ;).
"Non è detto?" Finché non mi fai vedere il contrario, io dico che una pagina con status code 404 non viene indicizzata, se permetti. Perdonami se sono franco, ma non puoi demolire una delle pochissime certezze che abbiamo con una supposizione che appare senza fondamento.

E a quel punto basta un controllo. Se la pagina in questione contiene una percentuale di link esterni del 5000% superiore alle altre pagine del sito, guarda caso ricambiati, e guarda caso mi sta dicendo di non indicizzarla, questo qui sta cercando di fregare gli scambisti e di conseguenza ME.
-Sto anche implicitamente chiedendo: il "rel=nofollow" serve chiaramente a non ciucciare PR, ma non a far considerare unilaterale uno scambio link, dico bene?
E' proprio il contrario, in effetti. Tant'è che Google (per bocca del solito Matt Cutts) incoraggia esplicitamente chi vende link dal proprio sito (pratica di per sé perfettamente "lecita"), a farlo usando rel=nofollow sugli stessi. Questo non per fregare la gente, ma per impedire che si faccia commercio di PageRank ("we consider it outside our guidelines to get PageRank via buying links"):

@Matt Cutts said:

What if a site wants to buy links purely for visitor click traffic, to build buzz, or to support another site? In that situation, I would use the rel=?nofollow? attribute. The nofollow tag allows a site to add a link that abstains from being an editorial vote. Using nofollow is a safe way to buy links, because it?s a machine-readable way to specify that a link doesn?t have to be counted as a vote by a search engine.
http://www.mattcutts.com/blog/text-links-and-pagerank/

Quanto sopra è estensibile a mio avviso a 404, robots.txt, noindex ecc.

micky

Grazie Stu, che risposta con i contro...OO ehm da incorniciare ;).
Se faccio scambio banner, è palusibile inserirli all'interno del testo, visto che come dici giustamente tu, google odia una serie di link a manetta isolati?

arkanefactors

@Stuart said:

Infatti. Secondo me non è spam.
Google punisce chi spamma perchè gli 'sporca' l'archivio, ma se una pagina, disonesta quanto vuoi, nell'indice non ci entra proprio, Page&Brin non hanno proprio nulla da lamentare...
That's it.

stuart

@micky said:

Se faccio scambio banner, è palusibile inserirli all'interno del testo, visto che come dici giustamente tu, google odia una serie di link a manetta isolati?
La reciprocità c'è comunque. Inserendo del testo puoi in qualche modo 'sdrammatizzare' la tendenza alla link farming della tua pagina, ma il link rimane reciproco. Soprattutto quest'accortezza dovresti richiederla anche al webmaster con cui fai lo scambio.

Cordialmente,
Stuart