Consigli SEO per corretta indicizzazione

webmaster70

Prego Matteo, dunque tu avevi la pagina

www .vecchiosito.com/tr/pippo.htm

che hai rediretto su

www .nuovosito.com/tr/pippo.htm

che restituisce errore 404.

Ma google non si è nemmeno accorto dell'errore, e nemmeno del trasferimento,
perché leggendo "www .vecchiosito.com/robots.txt" ha avuto tue istruzioni di non indicizzare tutte le pagine della directory "tr",
non potendola indicizzare non ha potuto seguire il redirect.

Però conosce la URL, e comunque la mette nella SERP (senza titolo e descrizione) perché ha abbastanza link juice (il page rank accumulato dalla vecchia home page ecc. che non ha ancora aggiornato perché è lento a redistribuirlo).

Infatti robots.txt dice a Google "tu non passare di qua a indicizzarmi il contenuto", e non "non mostrarmi la URL nelle SERP".

matteodini

Grazie della delucidazione, sei stato gentilissimo !

Concludo con una domanda molto semplice

Google legge correttamente l'attributo rel="noindex, follow", vero ?

L'ho messo nelle pagine delle Tag e degli Archivi ..

Se faccio site: n omedominio.com/tag alcuni giorni i valori sembrano abbassarsi, poi nei giorni successivi tornano nuovamente alti (?) ... E questo dura già da circa un mese.

Dici che mi convenga inserire un disallow: /tag/ direttamente nel robots ?

E' lo stesso discorso della link juice ?

Grazie veramente tanto !!

mister.jinx

Ciao matteodini,

si ti consiglio l'esclusione dal robots.txt.

webmaster70

Certo che lo legge,
se dopo il site, fai un "copia cache" vedi che nell'html indicizzato non c'è ancora il noindex, è questione di tempo.

Io uso abbastanza il

"noindex, follow"

e prossimamente pure il

link rel canonical

mentre limito più che posso

rel="nofollow" nei backlink interni
disallow nel robots.txt

Il vantaggio dei primi rispetto ai secondi, è che il PagerRank accumulato non finisce in un buco nero ma viene redistribuito per circa l'85% del valore alle pagine collegate.

Comunque ognuna di quelle direttive ha un suo significato da rispettare, ma non è sempre tutto bianco o nero, quindi nelle situazioni grigie mi attengo a quanto sopra.

Riguardo a non indicizzare tutte le pagine tags mi pare una soluzione estrema, io ne limiterei semplicemente l'uso, pochi per articolo,
ben distinti e riutilizzabili.
Se i tags sono utili agli utenti dovrebbero esserlo pure a Google,
anche se mi pare lunatico:
un tempo li amava, ora li odia se producono tante pagine.

webmaster70

@mister.jinx said:

Ciao matteodini,

si ti consiglio l'esclusione dal robots.txt.

Ciao mister.jinx, solo per capire ... perché?

matteodini

Il problema è che ho tantissimi tag ... Dovrei mettermi lì a selezionarli uno per uno per cercare di non andar a creare contenuti duplicati.
Se faccio indicizzare adesso le pagine dei tag, verrebbero fuori un sacco di duplicati (già verificato).
Comunque non hai tutti i torti, anche se nell'archivio ho circa 1400 articoli, mi sa che devo incominciare a selezionare qualche tag e renderli di conseguenza indicizzabili ...

Attualmente ho predisposto l'indicizzazione per gli articoli, categorie, pagine statiche e pagine autori, limitando l'accesso ad archivi e tag. Con questo ho la certezza di non creare contenuti duplicati, ma i tag effettivamente sono una mancanza ...

Comunque vadano le cose, ancora tante grazie !

matteodini

Ciao Mister.Jinx,

a prescindere dal blocco dei tag nel robots, pensi che sia opportuno limitare totalmente l'indicizzazione di questo contenuto ?

Grazie per il tuo intervento !

mister.jinx

@Webmaster70
Perché mi piace poco cosa è stato accennato sull'uso del noindex, nofollow sulle pagine al SES di José. Tuttavia non ho ancora testato personalmente.

@matteodini
Il consiglio è di non far indicizzare in blocco i tag di un blog, soprattutto se sono molti, proprio per evitare problemi di tag eccess.

webmaster70

@mister.jinx said:

@Webmaster70
Perché mi piace poco cosa è stato accennato sull'uso del noindex, nofollow sulle pagine al SES di José.

In quell'articolo l'unica frase contro il noindex che ho trovato è:

it also seems that the blog source code includes a ?no follow/no index?. One reason is because developers will put a no index / no follow on their dev version and then launch it without reviewing the code and taking this out. Don?t make that mistake

ovviamente un noindex messo per sbaglio in tutte le pagine è dannoso.

Hai un altro riferimento, o sai dirmi il perché?
Grazie in ogni caso.

Io ho ritrovato questa interessante intervista:
www .stonetemple.com/articles/interview-matt-cutts.shtml

@Matt Cutts said:

maybe you have a login page, and everybody ends up linking to that login page. That provides very little content value, so you could NoIndex that page, but then the outgoing links would still have PageRank.

mister.jinx

Webmaster70 considera che quell'articolo è del 2007.
Diverse cose possono essere cambiate in 2 anni nella SEO.

matteodini

Vi ringrazio per i consigli !!! Buon lunedì.