Doesn't follow robots.txt anyway, but...

osvi

Più che altro, bisognerebbe capire se le pagine limitate da robots, meta o nofollow vengano comunque acquisite dal crawler.

dipende dal crawler
quelli buoni non scaricano le pagine in "disallow", ti copio un pezzo del robots di wikipedia

Doesn't follow robots.txt anyway, but...

User-agent: k2spider
Disallow: /

Hits many times per second, not acceptable

User-agent: NPBot
Disallow: /

fheller

Ciao,

se Google mi bannasse per un qualcosa presente in una pagina che non dovrebbe neppure annusare di striscio...commetterebbe un errore, ma di solito quando commette un errore lo fa per una serie di segnalazioni valutate frettolosamente da un quality rater.

Ad esempio ho avuto un sito bannato (con tanto di mail di avviso) per dei link "nascosti" in un menu a tendina dhtml, ovviamente il quality rater si era sbagliato (forse confuso dalle tante segnalazioni degli invidiosi)...l'errore è dimostrato anche dal fatto che sono stato reincluso dopo 4 giorni invece che i canonici 30.

@fdaguanno said:

Più che altro, bisognerebbe capire se le pagine limitate da robots, meta o nofollow vengano comunque acquisite dal crawler.
Le pagine escluse via robots.txt non vengono acquisite dai crawler; quelle con meta robots "noindex" sì (ovviamente).

fdaguanno

@Everfluxx said:

Le pagine escluse via robots.txt non vengono acquisite dai crawler.
A volte penso che indicare ai crawler i contenuti da non indicizzare, e quindi da tenere nascosti (robots.txt), equivale rendere pubblici agli spider tali contenuti. Una directory non linkata da nessuna parte è sicuramente più nascosta (dipendentemente dal livello di sicurezza del webserver) di una segnalata come nascosta.
Ci sono test a riguardo ? Con i file di log non dovrebbe essere difficile capire se gli spider entrano lo stesso...

mister.jinx

@fdaguanno said:

A volte penso che indicare ai crawler i contenuti da non indicizzare, e quindi da tenere nascosti (robots.txt), equivale rendere pubblici agli spider tali contenuti. Una directory non linkata da nessuna parte è sicuramente più nascosta (dipendentemente dal livello di sicurezza del webserver) di una segnalata come nascosta.
Ci sono test a riguardo ? Con i file di log non dovrebbe essere difficile capire se gli spider entrano lo stesso...

Se non ricordo male ne parlo' Enrico Madrigrano al SEO Extreme di Roma aveva portato una case history leggermente diversa ma non proprio OT da questo 3d.
In pratica BigG continuava a spiderizzare un sito spam bannato dall'indice per continuare a individuare altre pagine spam.

fdaguanno

@mister.jinx said:

ne parlo' Enrico Madrigrano al SEO Extreme
C'ero anch'io... Effettivamente ora che mi ci fai pensare...
Però è diverso: nella situazione proposta da Enrico, Google trae vantaggio dall'analisi di tali siti, mentre nel mio non so...
Mi dirai: allora perché hai proposto questo quesito ?

Non lo so neanche io, ma credo che un AgoAgo della situazione riuscirebbe a sfruttarlo col cappello nero in testa ...

AgoAgo, ci sei ?

agoago

Fdaguanno scrive:

"Tutti sappiamo che l'uso di link nascosti non è conforme alle linee guida di qualsiasi motore di ricerca."

Credo sia importante, come sempre, essere molto precisi e "completi" perche' viceversa a volte si rischia di fare confusione e di non sfruttare tutte le possibili potenzialita'.

Quando dici che i link nascosti non sono conformi etc etc... dici una cosa verissima, ma verissima purtroppo-per fortuna solo in alcuni casi.

Per esempio Google ci dice:

"Hidden links are links that are intended to be crawled by Googlebot, but are unreadable to humans..."

Google e' molto preciso (non sarebbe G viceversa) infatti non generalizza condannando i link nascosti, ma condannando i link nascosti agli utenti ma non al suo spider.

Abbiamo 4 situazioni:

Nascosto agli utenti e visibile al motore.
Nascosto al motore e visibile agli utenti.
Nascosto al motore e nascosto agli utenti.
Visibile agli utenti e visibile al motore.

Solo il primo caso e' penalizzato.
Il caso posto da te in questione invece rientra nel terzo caso, e pertanto nessun problema.

Da notare come molti seo amino utilizzare a volte ancora il primo caso, pur sapendolo rischioso in quanto potrebbe portare dei vantaggi.

Personalmente ritengo che il primo caso non abbia piu' ragion d'essere, soprattutto in considerazione che il secondo caso e' altrettanto potente (lato seo) e soprattutto moralmente accettato dai motori.

Nascondere i link ai motori (e non agli utenti) puo' avvantaggiare nei pr interni del sito, nascondere del testo inutile premia le key che si desidera spingere nelle proprie pagine, etc etc.

Il primo caso e' il passato da dimenticare, il secondo il futuro da sfruttare per i seo, il terzo una libera scelta del wm (utile o no... mah), il quarto il naturale modo di lavorare.

In una parola il concetto e' molto semplice.
Prima si mostrava ai motori qualsiasi cosa potesse avvantaggiarci, oggi si nasconde ai motori qualsiasi cosa possa svantaggiarci.

fdaguanno

@agoago said:

Il primo caso e' il passato da dimenticare, il secondo il futuro da sfruttare per i seo, il terzo una libera scelta del wm (utile o no... mah), il quarto il naturale modo di lavorare.
Dalle risposte ricevute fin qui, ho pensato di aver sollevato un problema inutile: la tua risposta mi rincuora.
Sinceramente non riesco ancora a capire come sfruttare questo tipo di cloacking inverso (se di cloacking si può parlare), ma non voglio chiederlo a te...
Continuo con i miei studi, chissà che non arrivi ad una conclusione interessante...
Grazie.

agoago

Fdaguanno scrive:

"Sinceramente non riesco ancora a capire come sfruttare questo tipo di cloacking inverso..."

Ma no... perche' pensare a cose strane e poco chiare.
Per esempio basta mettere il testo che non serve dentro un file js (magari non spiderizzabile via robots) e poi richiamarlo dalla e nella pagina dove serve.
Cosa importa ad un motore di ricerca un testo tipo:

Benvenuti nel nostro sito!!

Ma agli utenti potrebbe fare piacere e pertanto perche' non accontentare entrambi?

fdaguanno

@agoago said:

Ma agli utenti potrebbe fare piacere e pertanto perche' non accontentare entrambi?
Ah, ok.
Però ho il dubbio che l'entità del vantaggio ottenuto dall'uso di una tale tecnica non sia poi così elevata.

Credo che la presenza di una frase tipo quella indicata da te, non abbia il minimo risvolto negativo nell'ottica motori di ricerca; o forse sono io che non riesco a cogliere la sottigliezza della tua affermazione.

Grazie agoago.

agoago

Fdaguanno e' per questo motivo che questa tecnica non viene praticata dai seo, proprio perche' non si coglie-capisce "l'entità del vantaggio ottenuto".

Vantaggio che invece puo' essere definito esattamente con un solo aggettivo: micidiale.

Pensa solo per un momento ad una qualsiasi tua pagina.
Prensenta link pubblicitari-esterni?

Bene quei link disperdono il tuo pr, se li nascondi ai motori invece quel pr rimarra' tutto per te.

Pensa a tutto quel testo che ripeti in-per ogni tua pagina... i dati della societa', l'email, il link alla home, i testi di rito, il codice che carica il logo del sito, le frasi di servizio etc etc.

Prendiamo il caso piu' eclatante, quello dei link.

Ipotizziamo che io linchi in modo naturale uno sponsor.
Il classico a href url dello sponsor.
In questo modo gli passo valore e mi correlo a quel sito.

Ipotizziamo che invece non mi vada che i motori capiscano chi linco, che lo linco, e pertanto preferisca mettere nel mio sito un link di questo genere:

miosito.xyz/cgi-bin/vai.cgi?1234

dove 1234 corrisponde alla url del sito dello sponsor.

Bene, ora G non capira' chi linco, ma capira' sempre che c'e' un link nella mia pagina, (per di piu' verso una mia pagina dal contenuto inesitente) con tutto quello che ne consegue.

Meglio evitare. (che poi di fatto miosito.xyz/cgi-bin/vai.cgi?1234 produce un code 302 a tempo 0 verso lo sponsor e pertanto considerato 301, peggio che mai, ma non complichiamo il tutto).

Concludendo immagina 2 situazioni.

La prima ti impone che tutto quello che vedono gli utenti debba essere visto dai motori.

La seconda che ti permette di scegliere cosa-quanto del testo o delle immagini o dei link visualizzati dagli utenti sia-venga visto anche dai motori.

Un seo accordo darebbe il dito mignolo per avere questa seconda micidiale opportunita'.

Prendi l'url-pagina di questa discussione, sai quante volte linca forum/newreply.php?...

Credo una cinquantina di volte.

Certo c'e' il nofollow, ma bisogna mettersi bene in testa che il nofollow dice a G di non seguire un link, ma non dice a G che quel link non esiste.

Non bisogna confondersi.

Un conto e' mostrare un link e dire a G di non considerarne i benefici potenzialmente apportabili al lincato.
Un conto e' non mostrarlo.

Nel primo caso dico: Tu G disperdi pure il mio pr ma non avvantaggiare chi linco.

Nel secondo caso dico: Tu G non sottrarmi potenziale pr perche' (in base-grazie ai tuoi limiti e dictat) io non sto lincando nessuno.

Fdaguanno ti chiedevi quale fosse la sottigliezza di tale tecnica.

Bene, se hai inteso quanto sopra (un esempio fra molti) avrai capito per esempio che G consiglia ai wm l'uso del nofollow, tag che di fatto non apporta alcun vantaggio a chi lo usa se non quello di essere considerato come un link inutile a chi lo subisce.

Matt dice: "...nofollow would only be for untrusted links..."

Lo sai quante volte e' scritta-riportata la parola messaggi nel sorgente dell'url-pagina che contiene questi nostri post?

Penso almeno una cinquantina di volte.
E cosi' per per tutte le pagine di questo forum, variando piu' o meno a seconda del numero dei post presenti per ogni url del forum stesso.

Dopo che G abbia spiderizzato qualche decina di migliaia di pagine del forum ed abbia riscontrato in esso qualche centinaio di migliaia di volte la key "messaggi" non e' piu' che sufficiente?

Ad oggi credo che non ci sia sito che non sia potabile, in toto od in parte.

Ho volutamente usato il termine potabile in quanto omonimo della sua definizione di cio' che si puo' assumere senza danno, sia della definizione di cio' che puo' essere liberato dalle sue parti unitili.

Rendere "un sito potabile" significa renderlo non dannoso (immediatamente bevibile e digeribile) ai motori, evitando che gli stessi debbano pesare e sortare testo-codice-link inutili.

Rendere "un sito potabile" significa tagliare per i motori tutto quel testo-codice-link rindondante che come capita nelle piante assorbe energia senza produrre-garantire il miglior sviluppo delle stesse.

E poi parliamoci chiaro.

Decidere quali siano le migliori key da enfatizzare in una pagina-sito non e' facile, bisogna andarci con i piedi di piombo.... ci vuole molta esperienza, molta.

Ma capire quali parti del testo siano totalmente inutili al fine di migliorarsi-posizionarsi nelle serp lo puo' capire anche un principiante, perche' basta un minimo di intelligenza.

Perche' allora tutti i seo si applicano-dedicano al primo caso ed ignorano-evitano-snobbano il secondo?

Il perche' ce lo rammenda quell'artista geniale che risponde al nome di Roberto (freak) Antoni:

"Non c'è gusto in Italia ad essere intelligenti"

fdaguanno

Credo che questo link possa interessare a tutti coloro che stanno seguendo questa discussione: http://www.mattcutts.com/blog/google-noindex-behavior/