Cambio struttura sito e indicizzazione

juanin

Come specificato prima, la struttura cambierà totalmente. Quindi vorrei trovarmi in una condizione in cui 'riparto da zero' senza preoccuparmi di reindirizzare le vecchie pagine alle rispetive nuove. Vorrei ottenere una situazione in cui le vecchie vengono rimosse e le nuove correttamente indicizzate, senza che le vecchie possano crear problemi. Mi andrebbe bene un redirect generale (se possibile) in modo che tutte le vecchie url puntino alla home della nuova piattaforma.

Meglio in ogni caso un redirect 1 a 1 e non tutto alla home.

Puoi essere più specifico? Significa che la pagina viene scansionata ma non indicizzata? Se si, possibile evitare entrambe le cose?

Ti ho spiegato come funzionano le cose quindi se ci ragioni un po' puoi prendere la decisione giusta.

Nel robots.txt, l'opzione Disallow /nomefileodirectory, non serve ad impedire l'accesso allo spider e di conseguenza l'indicizzazione? Come mi consigli di escludere le pagine da non indicizzare?

Se le pagine non sono linkate da nessuna parte allora puoi usare il robots.txt altrimenti usa il noindex. Stesso discorso di sopra comunque.

Mi riferisco ai file di inclusione, ad esempio include/testoContatti.php che viene incluso in index.php?pag=contatti e che contiene il testo della pagina. Se voglio impedire l'indicizzazione della pagina contatti, mi basta escludere solo index.php?pag=contatti oppure devo escludere anche il relativo file incluso, ovvero include/testoContatti.php? Quello che vorrei capire, se un file non viene linkato (come in questo caso in cui il file viene incluso) viene comunque visto dagli spider?

In teoria i frammenti inclusi andrebbero messi in cartelle con "deny from all" quindi non ha senso usare il robots.

Riporto lo stesso esempio del punto 6. Il file include/testoContatti.php viene incluso nella pagina index.php?pag=contatti contiene il testo. Attualmente impedisco l'accesso diretto al file di inclusione (ovvero l'accesso a wwnomesitocom/include/testoContatti.php) con una regola nell'htaccess. Mi chiedevo se questa è una pratica corretta.

Si vedi sopra.

Intendevo dire se conviene avere tutti i file della piattaforma al livello root del dominio, e quindi wwnomesitocom/index.php oppure avere il tutto in una directory, e quindi wwnomesitocom/catalogo/index.php . Per alcuni motivi tecnici, ho la necessità di avere i file della piattaforma in una directory. Mi chiedevo se questa prassi comporta penalizzazioni a livello di indicizzazione.

Personalmente credo sia meglio tenere le URL mappate direttamente dalla root senza redirect inutili a sottocartelle.

In giro ho letto che occorre far puntare il dominio alla stessa index, indipendentemente da come viene scritto (quindi con vvv. oppure senza). Ciò è possibile con una regola nell'htaccess?

Si.

Per quanto riguarda l'url rewrite, utilizzo un sistema diciamo 'base' con una riscrittura del tipo wwnomesitocom/pro-1/nome-prodotto.html per quanto riguarda i prodotti, wwnomesitocom/cat-1/nome-categoria.html per quanto riguarda le categorie e wwnomesitocom/prov-1/nome-prodotto-con-varianti.html per quanto riguarda i prodotti con varianti. Ovviamente il numero nella url fa riferimento all'id del prodotto, categoria o prodotto con variante (a seconda del prefisso pro-, cat, e prov-). Sono consapevole del fatto che si può fare molto di più in ambito url rewrite. Quello che vorrei sapere: quanto è più penalizzante una riscrittura come la mia rispetto ad una del tipo wwnomesitocom/nomecategoria/nomeprodotto.html (quindi senza id e con un ordine gerarchico definito) ?

Cambia poco. È più per leggibilità dell'utente.

unders

Ciao e grazie per la tua ulteriore risposta.

Lo vedo un attimino laborioso il percorso del redirect ad 1 ad 1. Quello che mi chiedo, se imposto una pagina di errore 404, tutte le vecchie url punteranno a quella giusto? E magari nella 404 si specifica che il contenuto del sito è cambiato e si invita l'utente a fare una ricerca, insomma una 404 ad hoc.
Riguardo il robots.txt, non ho le idee chiarissime. Il robots.txt permette di bloccare l'accesso degli spider a determinate pagine. Quindi indipendentemente dall'utilizzo del metatag robots, tali pagine non dovrebbero essere indicizzate. Non essendo possibile l'accesso a tali pagine, non vengono seguiti nemmeno i link interni. Invece se non imposto una pagina nel robots.txt, la pagina resta accessibile e a quel punto ho la possibilità di scegliere (con il metatag robots) se farla indicizzare o meno, e scegliere se i link debbano essere seguiti oppure no. Ho capito bene?
Purtroppo per forza di cose devo avere i file in una directory. Posso chiederti quali sono i vantaggi da te riscontrati nell'avere il tutto sotto root? Nel mio caso (quindi con directory) è corretto far reindirizzare alla directory con un file index inserito nella root del dominio e contenente un semplice header in php ?

Per gli altri punti tutto ok, grazie. Un ultima quesito che avevo posto all'inizio: è corretto far indicizzare solo le pagine importanti? Inoltre è corretto applicare l'url rewrite solo alle pagine dei prodotti, per le quali è necessaria una buona indicizzazione?

Grazie.

juanin

@unders said:

Lo vedo un attimino laborioso il percorso del redirect ad 1 ad 1. Quello che mi chiedo, se imposto una pagina di errore 404, tutte le vecchie url punteranno a quella giusto? E magari nella 404 si specifica che il contenuto del sito è cambiato e si invita l'utente a fare una ricerca, insomma una 404 ad hoc.

Assolutamente da non fare. Se mandi in 404 perdi tutto il juice che le tue vecchie URL avevano.

@unders said:

Riguardo il robots.txt, non ho le idee chiarissime. Il robots.txt permette di bloccare l'accesso degli spider a determinate pagine. Quindi indipendentemente dall'utilizzo del metatag robots, tali pagine non dovrebbero essere indicizzate. Non essendo possibile l'accesso a tali pagine, non vengono seguiti nemmeno i link interni. Invece se non imposto una pagina nel robots.txt, la pagina resta accessibile e a quel punto ho la possibilità di scegliere (con il metatag robots) se farla indicizzare o meno, e scegliere se i link debbano essere seguiti oppure no. Ho capito bene?

Il robots.txt previene il crawling. L'indicizzazione segue tutto un altro processo. Esempio il tuo sito nonostante il robots.txt può essere indicizzato in quanto vengono reperiti dei link al sito dall'esterno.
Per darti l'idea questo sito http://www.lasettimanadellaformazione.com/ è stato sempre con

User-agent: GooglebotDisallow: /
```eppure puoi vedere tu stesso che Google lo ha indicizzato.

@unders said:
> 9. Purtroppo per forza di cose devo avere i file in una directory. Posso chiederti quali sono i vantaggi da te riscontrati nell'avere il tutto sotto root? Nel mio caso (quindi con directory) è corretto far reindirizzare alla directory con un file index inserito nella root del dominio e contenente un semplice header in php ?

Puoi fare il redirect se non hai alternative tecniche, ma è inutile sia per il motore che per gli utenti. Un redirect in più che si possono risparmiare.

@unders said:
> Per gli altri punti tutto ok, grazie. Un ultima quesito che avevo posto all'inizio: è corretto far indicizzare solo le pagine importanti? Inoltre è corretto applicare l'url rewrite solo alle pagine dei prodotti, per le quali è necessaria una buona indicizzazione?

È corretto far inidicizzare tutto ciò che è utile all'utente.
Se non è utile puoi direttamente rimuoverle dal sito.

Non ha senso applicare URL rewirte solo ad alcune URL. Se la comodità è di non fare URL rewrite evitalo del tutto. Avere soluzioni ibride non è mai il massimo e rende più complessa la gestione del progetto.

unders

Riguardo il 404, se rimuovo le pagine senza alcun redirect non vanno automaticamente in 404 e di conseguenza dopo un pò vengono rimosse dall'indice? Come spiegavo all'inizio, il progetto per alcune pecche tecniche non ha mai generato un buon traffico naturale derivante dall'indicizzazione. Non mi interessa recuperare eventuali posizioni delle vecchie url. Mi interessa poter cambiare tutta la struttura file senza arrecare danni ad indicizzazioni future.

Riguardo all'indicizzazione, sono arrivato alla conclusione di utilizzare sia il robots.txt che il meta robots per le pagine che voglio escludere.

Per l'url rewrite, farò in modo di farlo valere per tutte le url.

Grazie.

juanin

Non ha senso usare sia il robots.txt che il meta robots.

Se metti un disallow nel robots.txt il crawler non potrà mai leggere il contenuto dei meta.

Se non vuoi passare juice fai pur tornare 404.

unders

Quindi praticamente se voglio escludere una determinata pagina dall'indicizzazione, ed avere maggiori probabilità a riguardo, occorre specificare solo il metatag robots? In questo caso non ho il robots.txt che blocca l'accesso, e di conseguenza lo spider potendo accedere e vedere il metatag robots impostato per la non indicizzazione, non dovrebbe indicizzarne il contenuto. Cosa diversa, se inserisco un file nel robots.txt, ne impedisco l'accesso al crawler, però rischio che la url venga indicizzata se linkata da qualche parte, perchè il crawler non ha la possibilità di scansionarla e di vedere un eventuale metatag robots. Scusa se ci sto mettendo un pò..spero di essere giunto alla conclusione giusta

Riguardo problematiche nello specifico del file .htaccess, mi conviene aprire un altro topic?

Grazie mille!

juanin

Compreso!

Per il .htaccess se vuoi apri nella sezione apposita.

unders

Ti ringrazio per il supporto. Provvedo ad aprire una nuova discussione per l'htaccess nell'apposita sezione.

Volevo chiederti un'ultima cosa riguardo un dubbio che mi è sorto: ma la pagina personalizzata per gli errori 404, posso non indicizzarla?

Grazie.

juanin

Le pagine 404 proprio perché sono 404 non vengono indicizzate.

unders

Grazie di tutto