Consigli SEO per corretta indicizzazione

matteodini

Ciao Fabry,

grazie per avermi risposto

Si, è vero, non ho fatto una domanda inerente a qualcosa di specifico.
Volevo semplicemente conoscere da qualche "esperto" un resoconto generale, se magari venivano rilevati gravi difetti da eliminare immediatamente etc. etc.

Grazie ancora.

Ciao !

webmaster70

Ciao, per risponderti è utile sapere pure il nome del vecchio dominio.
Fa niente, l'ho trovato da solo:
m a t t e o d i n i . c o m

Cercando su Google
site:vecchiodominio.com
e cliccando su "ripetere la ricerca includendo i risultati omessi"
puoi anche tu verificare che il redirect non funziona correttamente per molte pagine interne,
infatti molti risultati rimandano a pagine di tecnopassion con "Errore 404: Pagina Non Trovata"

Ho verificato solo il redirect, per il resto fai domande specifiche.

matteodini

Ciao Webmaster70 e grazie anche a te per avermi risposto.

Si, il dominio vecchio era m a t t e o d i n i .com.

Le pagine interne che visualizzi, quelle con errore 404, non devono infatti esistere perchè se ci fai caso facevano parte di uno script per la traduzione automatica dei testi; gli indirizzi iniziano appunto con la sigla della nazione.

E nel dominio nuovo, questi suffissi, sono tutti bloccati nel robots.txt e nella sitemap ovviamente non esistono.

Poi ci sono in aggiunta altre pagine minori, anch'esse ad ogni modo bloccate nel robots.

Quello che mi interessa è di aver mantenuto correttamente i permalink degli articoli, pagine, categorie, tag (e contenuto) dal vecchio al nuovo dominio.
Tra l'altro ho visto che Google ultimamente mi ha aggiornato anche i vecchi backlink nei siti dove non mi era possibile far modificare fisicamente l'indirizzo.

Ti chiedo una cosa...

Come mai facendo site:vecchiodominio.com si visualizzano ancora gli URL su m a t t e o d i n i.com nonostante abbia già eseguito da maggio il redirect 301 ? Anche all'interno di Google Webmaster ho indicato la migrazione dal vecchio al nuovo URL...

Grazie

webmaster70

Prego Matteo, dunque tu avevi la pagina

www .vecchiosito.com/tr/pippo.htm

che hai rediretto su

www .nuovosito.com/tr/pippo.htm

che restituisce errore 404.

Ma google non si è nemmeno accorto dell'errore, e nemmeno del trasferimento,
perché leggendo "www .vecchiosito.com/robots.txt" ha avuto tue istruzioni di non indicizzare tutte le pagine della directory "tr",
non potendola indicizzare non ha potuto seguire il redirect.

Però conosce la URL, e comunque la mette nella SERP (senza titolo e descrizione) perché ha abbastanza link juice (il page rank accumulato dalla vecchia home page ecc. che non ha ancora aggiornato perché è lento a redistribuirlo).

Infatti robots.txt dice a Google "tu non passare di qua a indicizzarmi il contenuto", e non "non mostrarmi la URL nelle SERP".

matteodini

Grazie della delucidazione, sei stato gentilissimo !

Concludo con una domanda molto semplice

Google legge correttamente l'attributo rel="noindex, follow", vero ?

L'ho messo nelle pagine delle Tag e degli Archivi ..

Se faccio site: n omedominio.com/tag alcuni giorni i valori sembrano abbassarsi, poi nei giorni successivi tornano nuovamente alti (?) ... E questo dura già da circa un mese.

Dici che mi convenga inserire un disallow: /tag/ direttamente nel robots ?

E' lo stesso discorso della link juice ?

Grazie veramente tanto !!

mister.jinx

Ciao matteodini,

si ti consiglio l'esclusione dal robots.txt.

webmaster70

Certo che lo legge,
se dopo il site, fai un "copia cache" vedi che nell'html indicizzato non c'è ancora il noindex, è questione di tempo.

Io uso abbastanza il

"noindex, follow"

e prossimamente pure il

link rel canonical

mentre limito più che posso

rel="nofollow" nei backlink interni
disallow nel robots.txt

Il vantaggio dei primi rispetto ai secondi, è che il PagerRank accumulato non finisce in un buco nero ma viene redistribuito per circa l'85% del valore alle pagine collegate.

Comunque ognuna di quelle direttive ha un suo significato da rispettare, ma non è sempre tutto bianco o nero, quindi nelle situazioni grigie mi attengo a quanto sopra.

Riguardo a non indicizzare tutte le pagine tags mi pare una soluzione estrema, io ne limiterei semplicemente l'uso, pochi per articolo,
ben distinti e riutilizzabili.
Se i tags sono utili agli utenti dovrebbero esserlo pure a Google,
anche se mi pare lunatico:
un tempo li amava, ora li odia se producono tante pagine.

webmaster70

@mister.jinx said:

Ciao matteodini,

si ti consiglio l'esclusione dal robots.txt.

Ciao mister.jinx, solo per capire ... perché?

matteodini

Il problema è che ho tantissimi tag ... Dovrei mettermi lì a selezionarli uno per uno per cercare di non andar a creare contenuti duplicati.
Se faccio indicizzare adesso le pagine dei tag, verrebbero fuori un sacco di duplicati (già verificato).
Comunque non hai tutti i torti, anche se nell'archivio ho circa 1400 articoli, mi sa che devo incominciare a selezionare qualche tag e renderli di conseguenza indicizzabili ...

Attualmente ho predisposto l'indicizzazione per gli articoli, categorie, pagine statiche e pagine autori, limitando l'accesso ad archivi e tag. Con questo ho la certezza di non creare contenuti duplicati, ma i tag effettivamente sono una mancanza ...

Comunque vadano le cose, ancora tante grazie !

matteodini

Ciao Mister.Jinx,

a prescindere dal blocco dei tag nel robots, pensi che sia opportuno limitare totalmente l'indicizzazione di questo contenuto ?

Grazie per il tuo intervento !

mister.jinx

@Webmaster70
Perché mi piace poco cosa è stato accennato sull'uso del noindex, nofollow sulle pagine al SES di José. Tuttavia non ho ancora testato personalmente.

@matteodini
Il consiglio è di non far indicizzare in blocco i tag di un blog, soprattutto se sono molti, proprio per evitare problemi di tag eccess.

webmaster70

@mister.jinx said:

@Webmaster70
Perché mi piace poco cosa è stato accennato sull'uso del noindex, nofollow sulle pagine al SES di José.

In quell'articolo l'unica frase contro il noindex che ho trovato è:

it also seems that the blog source code includes a ?no follow/no index?. One reason is because developers will put a no index / no follow on their dev version and then launch it without reviewing the code and taking this out. Don?t make that mistake

ovviamente un noindex messo per sbaglio in tutte le pagine è dannoso.

Hai un altro riferimento, o sai dirmi il perché?
Grazie in ogni caso.

Io ho ritrovato questa interessante intervista:
www .stonetemple.com/articles/interview-matt-cutts.shtml

@Matt Cutts said:

maybe you have a login page, and everybody ends up linking to that login page. That provides very little content value, so you could NoIndex that page, but then the outgoing links would still have PageRank.

mister.jinx

Webmaster70 considera che quell'articolo è del 2007.
Diverse cose possono essere cambiate in 2 anni nella SEO.

matteodini

Vi ringrazio per i consigli !!! Buon lunedì.