- Home
- Categorie
- Digital Marketing
- Posizionamento Nei Motori di Ricerca
- Cambio struttura sito e indicizzazione
-
Cambio struttura sito e indicizzazione
Salve a tutti. Sto ultimando lo sviluppo di un ecommerce (creato ad hoc). La nuova piattaforma andrà a sostituire totalmente un sito già esistente (sempre ecommerce, basato su zencart).
Ho alcuni dubbi circa l?indicizzazione e la gestione dei file, in particolare:
-
La vecchia piattaforma non è ottimizzata a livello seo, per cui non mi interessa recuperare eventuali posizionamenti, piuttosto mi interessa che vada tutto ok con la nuova piattaforma. Quindi quello che mi chiedo, posso tranquillamente eliminare i vecchi file ed inserire i nuovi? I vecchi verranno automaticamente rimossi da google? Ed i nuovi verranno correttamente indicizzati?
È corretto bloccare l?indicizzazione di pagine poco importanti, lasciando indiczzare solo pagine di primaria importanza come la pag prodotti, categorie? -
È corretto bloccare l?indicizzazione dell?intera parte admin di un sito?
-
Conviene impedire l?indicizzazione con il robots.txt, con metatag robots o con entrambi?
-
Il metatag robots, correttamente settato, va inserito anche nelle pagine da indicizzare, oppure può essere tralasciato?
-
Nelle pagine da non indicizzare, si può evitare l?inserimento dei metatag? (title, description, keywords)
-
Occorre non indicizzare i file di inclusione nel robots.txt?
-
Nel robots.txt possono essere inserite pagine con estensione .php e pagine con parametri, esempio index.php?pag=contatti ?
-
E? corretto bloccare l?accesso diretto a file (ad esempio gli include) con htaccess?
-
Conviene inserire la piattaforma nella root del dominio, oppure in una directory (ad es. wwnomesito.com/catalogo ? Nel caso venga inserita in una directory, è corretto far puntare il dominio alla index con un header php?
Oppure occorre farlo con htaccess? -
Come reindirizzare sempre a wwnomesito.com/catalogo/index.php, indipendentemente da come viene scritto il dominio? (http-wwnomesito.com, wwnomesito.com, nomesito.com, nomesito.com/catalogo).
-
Gestisco tutte le pagine tramite index.php. Quindi, ad esempio, la pagina contatti sarà index.php?pag=contatti e la pagina chi siamo sarà index.php?pag=chiSiamo. Ogni pagina ha i propri metatag. Google vedrà automaticamente le pagine come differenti?
Scusate per le troppe domande e grazie in anticipo.
-
-
@unders said:
- La vecchia piattaforma non è ottimizzata a livello seo, per cui non mi interessa recuperare eventuali posizionamenti, piuttosto mi interessa che vada tutto ok con la nuova piattaforma. Quindi quello che mi chiedo, posso tranquillamente eliminare i vecchi file ed inserire i nuovi? I vecchi verranno automaticamente rimossi da google? Ed i nuovi verranno correttamente indicizzati?
È corretto bloccare l’indicizzazione di pagine poco importanti, lasciando indiczzare solo pagine di primaria importanza come la pag prodotti, categorie?
Le pagine che andrai a rimuovere andranno redirette alle rispettive nuove.
- È corretto bloccare l’indicizzazione dell’intera parte admin di un sito?
Si, ma bloccare l'indicizzazione non significa necessariamente bloccare il crawling.
- Conviene impedire l’indicizzazione con il robots.txt, con metatag robots o con entrambi?
Con il robots.txt non impedisci l'indicizzazione mentre con i meta sì. Usandoli entrambi ovviamente il robots.txt esclude i meta in quanto il crawler non potrebbe accedere alle pagine. È come inviare una busta chiusa con una lettera e chiedere di leggerne il contenuto senza poterla aprire.
- Il metatag robots, correttamente settato, va inserito anche nelle pagine da indicizzare, oppure può essere tralasciato?
Può essere tralasciato. Il comportamento di default è index, follow quindi non è necessario specificarlo.
- Nelle pagine da non indicizzare, si può evitare l’inserimento dei metatag? (title, description, keywords)
Certo. Sempre che non sia utile averli per l'utente che avrebbe visione nei tab del browser (solo title).
- Occorre non indicizzare i file di inclusione nel robots.txt?
Non ho capito a che file ti riferisci.
- Nel robots.txt possono essere inserite pagine con estensione .php e pagine con parametri, esempio index.php?pag=contatti ?
Si
- E’ corretto bloccare l’accesso diretto a file (ad esempio gli include) con htaccess?
Non capisco.
- Conviene inserire la piattaforma nella root del dominio, oppure in una directory (ad es. wwnomesito.com/catalogo ? Nel caso venga inserita in una directory, è corretto far puntare il dominio alla index con un header php?
Oppure occorre farlo con htaccess?
Non capisco cosa vuoi fare, ma credo che puoi fare quello che vuoi.
- Come reindirizzare sempre a wwnomesito.com/catalogo/index.php, indipendentemente da come viene scritto il dominio? (http-wwnomesito.com, wwnomesito.com, nomesito.com, nomesito.com/catalogo).
Io ti consiglio di far stare tutto nella root e di non fare redirect inutili.
- Gestisco tutte le pagine tramite index.php. Quindi, ad esempio, la pagina contatti sarà index.php?pag=contatti e la pagina chi siamo sarà index.php?pag=chiSiamo. Ogni pagina ha i propri metatag. Google vedrà automaticamente le pagine come differenti?
Certo. Ogni URL per Google è una pagina differente.
Quindi attenzione ai duplicati.
- La vecchia piattaforma non è ottimizzata a livello seo, per cui non mi interessa recuperare eventuali posizionamenti, piuttosto mi interessa che vada tutto ok con la nuova piattaforma. Quindi quello che mi chiedo, posso tranquillamente eliminare i vecchi file ed inserire i nuovi? I vecchi verranno automaticamente rimossi da google? Ed i nuovi verranno correttamente indicizzati?
-
Grazie per il tuo intervento. Cerco di esprimermi meglio per alcuni punti poco chiari.
-
Come specificato prima, la struttura cambierà totalmente. Quindi vorrei trovarmi in una condizione in cui 'riparto da zero' senza preoccuparmi di reindirizzare le vecchie pagine alle rispetive nuove. Vorrei ottenere una situazione in cui le vecchie vengono rimosse e le nuove correttamente indicizzate, senza che le vecchie possano crear problemi. Mi andrebbe bene un redirect generale (se possibile) in modo che tutte le vecchie url puntino alla home della nuova piattaforma.
-
Puoi essere più specifico? Significa che la pagina viene scansionata ma non indicizzata? Se si, possibile evitare entrambe le cose?
-
Nel robots.txt, l'opzione Disallow /nomefileodirectory, non serve ad impedire l'accesso allo spider e di conseguenza l'indicizzazione? Come mi consigli di escludere le pagine da non indicizzare?
-
ok
-
ok
-
Mi riferisco ai file di inclusione, ad esempio include/testoContatti.php che viene incluso in index.php?pag=contatti e che contiene il testo della pagina. Se voglio impedire l'indicizzazione della pagina contatti, mi basta escludere solo index.php?pag=contatti oppure devo escludere anche il relativo file incluso, ovvero include/testoContatti.php? Quello che vorrei capire, se un file non viene linkato (come in questo caso in cui il file viene incluso) viene comunque visto dagli spider?
-
ok
-
Riporto lo stesso esempio del punto 6. Il file include/testoContatti.php viene incluso nella pagina index.php?pag=contatti contiene il testo. Attualmente impedisco l'accesso diretto al file di inclusione (ovvero l'accesso a wwnomesitocom/include/testoContatti.php) con una regola nell'htaccess. Mi chiedevo se questa è una pratica corretta.
-
Intendevo dire se conviene avere tutti i file della piattaforma al livello root del dominio, e quindi wwnomesitocom/index.php oppure avere il tutto in una directory, e quindi wwnomesitocom/catalogo/index.php . Per alcuni motivi tecnici, ho la necessità di avere i file della piattaforma in una directory. Mi chiedevo se questa prassi comporta penalizzazioni a livello di indicizzazione.
-
In giro ho letto che occorre far puntare il dominio alla stessa index, indipendentemente da come viene scritto (quindi con vvv. oppure senza). Ciò è possibile con una regola nell'htaccess?
-
ok
Aggiungo altri 2 punti:
-
Per quanto riguarda l'url rewrite, utilizzo un sistema diciamo 'base' con una riscrittura del tipo wwnomesitocom/pro-1/nome-prodotto.html per quanto riguarda i prodotti, wwnomesitocom/cat-1/nome-categoria.html per quanto riguarda le categorie e wwnomesitocom/prov-1/nome-prodotto-con-varianti.html per quanto riguarda i prodotti con varianti. Ovviamente il numero nella url fa riferimento all'id del prodotto, categoria o prodotto con variante (a seconda del prefisso pro-, cat, e prov-). Sono consapevole del fatto che si può fare molto di più in ambito url rewrite. Quello che vorrei sapere: quanto è più penalizzante una riscrittura come la mia rispetto ad una del tipo wwnomesitocom/nomecategoria/nomeprodotto.html (quindi senza id e con un ordine gerarchico definito) ?
-
Qualche riferimento ad articolo o guida per la gestione degli errori 404 ecc..?
Grazie mille!
-
-
@unders said:
- Come specificato prima, la struttura cambierà totalmente. Quindi vorrei trovarmi in una condizione in cui 'riparto da zero' senza preoccuparmi di reindirizzare le vecchie pagine alle rispetive nuove. Vorrei ottenere una situazione in cui le vecchie vengono rimosse e le nuove correttamente indicizzate, senza che le vecchie possano crear problemi. Mi andrebbe bene un redirect generale (se possibile) in modo che tutte le vecchie url puntino alla home della nuova piattaforma.
Meglio in ogni caso un redirect 1 a 1 e non tutto alla home.
- Puoi essere più specifico? Significa che la pagina viene scansionata ma non indicizzata? Se si, possibile evitare entrambe le cose?
Ti ho spiegato come funzionano le cose quindi se ci ragioni un po' puoi prendere la decisione giusta.
- Nel robots.txt, l'opzione Disallow /nomefileodirectory, non serve ad impedire l'accesso allo spider e di conseguenza l'indicizzazione? Come mi consigli di escludere le pagine da non indicizzare?
Se le pagine non sono linkate da nessuna parte allora puoi usare il robots.txt altrimenti usa il noindex. Stesso discorso di sopra comunque.
- Mi riferisco ai file di inclusione, ad esempio include/testoContatti.php che viene incluso in index.php?pag=contatti e che contiene il testo della pagina. Se voglio impedire l'indicizzazione della pagina contatti, mi basta escludere solo index.php?pag=contatti oppure devo escludere anche il relativo file incluso, ovvero include/testoContatti.php? Quello che vorrei capire, se un file non viene linkato (come in questo caso in cui il file viene incluso) viene comunque visto dagli spider?
In teoria i frammenti inclusi andrebbero messi in cartelle con "deny from all" quindi non ha senso usare il robots.
- Riporto lo stesso esempio del punto 6. Il file include/testoContatti.php viene incluso nella pagina index.php?pag=contatti contiene il testo. Attualmente impedisco l'accesso diretto al file di inclusione (ovvero l'accesso a wwnomesitocom/include/testoContatti.php) con una regola nell'htaccess. Mi chiedevo se questa è una pratica corretta.
Si vedi sopra.
- Intendevo dire se conviene avere tutti i file della piattaforma al livello root del dominio, e quindi wwnomesitocom/index.php oppure avere il tutto in una directory, e quindi wwnomesitocom/catalogo/index.php . Per alcuni motivi tecnici, ho la necessità di avere i file della piattaforma in una directory. Mi chiedevo se questa prassi comporta penalizzazioni a livello di indicizzazione.
Personalmente credo sia meglio tenere le URL mappate direttamente dalla root senza redirect inutili a sottocartelle.
- In giro ho letto che occorre far puntare il dominio alla stessa index, indipendentemente da come viene scritto (quindi con vvv. oppure senza). Ciò è possibile con una regola nell'htaccess?
Si.
- Per quanto riguarda l'url rewrite, utilizzo un sistema diciamo 'base' con una riscrittura del tipo wwnomesitocom/pro-1/nome-prodotto.html per quanto riguarda i prodotti, wwnomesitocom/cat-1/nome-categoria.html per quanto riguarda le categorie e wwnomesitocom/prov-1/nome-prodotto-con-varianti.html per quanto riguarda i prodotti con varianti. Ovviamente il numero nella url fa riferimento all'id del prodotto, categoria o prodotto con variante (a seconda del prefisso pro-, cat, e prov-). Sono consapevole del fatto che si può fare molto di più in ambito url rewrite. Quello che vorrei sapere: quanto è più penalizzante una riscrittura come la mia rispetto ad una del tipo wwnomesitocom/nomecategoria/nomeprodotto.html (quindi senza id e con un ordine gerarchico definito) ?
Cambia poco. È più per leggibilità dell'utente.
-
Ciao e grazie per la tua ulteriore risposta.
-
Lo vedo un attimino laborioso il percorso del redirect ad 1 ad 1. Quello che mi chiedo, se imposto una pagina di errore 404, tutte le vecchie url punteranno a quella giusto? E magari nella 404 si specifica che il contenuto del sito è cambiato e si invita l'utente a fare una ricerca, insomma una 404 ad hoc.
-
Riguardo il robots.txt, non ho le idee chiarissime. Il robots.txt permette di bloccare l'accesso degli spider a determinate pagine. Quindi indipendentemente dall'utilizzo del metatag robots, tali pagine non dovrebbero essere indicizzate. Non essendo possibile l'accesso a tali pagine, non vengono seguiti nemmeno i link interni. Invece se non imposto una pagina nel robots.txt, la pagina resta accessibile e a quel punto ho la possibilità di scegliere (con il metatag robots) se farla indicizzare o meno, e scegliere se i link debbano essere seguiti oppure no. Ho capito bene?
-
Purtroppo per forza di cose devo avere i file in una directory. Posso chiederti quali sono i vantaggi da te riscontrati nell'avere il tutto sotto root? Nel mio caso (quindi con directory) è corretto far reindirizzare alla directory con un file index inserito nella root del dominio e contenente un semplice header in php ?
Per gli altri punti tutto ok, grazie. Un ultima quesito che avevo posto all'inizio: è corretto far indicizzare solo le pagine importanti? Inoltre è corretto applicare l'url rewrite solo alle pagine dei prodotti, per le quali è necessaria una buona indicizzazione?
Grazie.
-
-
@unders said:
- Lo vedo un attimino laborioso il percorso del redirect ad 1 ad 1. Quello che mi chiedo, se imposto una pagina di errore 404, tutte le vecchie url punteranno a quella giusto? E magari nella 404 si specifica che il contenuto del sito è cambiato e si invita l'utente a fare una ricerca, insomma una 404 ad hoc.
Assolutamente da non fare. Se mandi in 404 perdi tutto il juice che le tue vecchie URL avevano.
@unders said:
- Riguardo il robots.txt, non ho le idee chiarissime. Il robots.txt permette di bloccare l'accesso degli spider a determinate pagine. Quindi indipendentemente dall'utilizzo del metatag robots, tali pagine non dovrebbero essere indicizzate. Non essendo possibile l'accesso a tali pagine, non vengono seguiti nemmeno i link interni. Invece se non imposto una pagina nel robots.txt, la pagina resta accessibile e a quel punto ho la possibilità di scegliere (con il metatag robots) se farla indicizzare o meno, e scegliere se i link debbano essere seguiti oppure no. Ho capito bene?
Il robots.txt previene il crawling. L'indicizzazione segue tutto un altro processo. Esempio il tuo sito nonostante il robots.txt può essere indicizzato in quanto vengono reperiti dei link al sito dall'esterno.
Per darti l'idea questo sito http://www.lasettimanadellaformazione.com/ è stato sempre conUser-agent: GooglebotDisallow: / ```eppure puoi vedere tu stesso che Google lo ha indicizzato. @unders said: > 9. Purtroppo per forza di cose devo avere i file in una directory. Posso chiederti quali sono i vantaggi da te riscontrati nell'avere il tutto sotto root? Nel mio caso (quindi con directory) è corretto far reindirizzare alla directory con un file index inserito nella root del dominio e contenente un semplice header in php ? Puoi fare il redirect se non hai alternative tecniche, ma è inutile sia per il motore che per gli utenti. Un redirect in più che si possono risparmiare. @unders said: > Per gli altri punti tutto ok, grazie. Un ultima quesito che avevo posto all'inizio: è corretto far indicizzare solo le pagine importanti? Inoltre è corretto applicare l'url rewrite solo alle pagine dei prodotti, per le quali è necessaria una buona indicizzazione? È corretto far inidicizzare tutto ciò che è utile all'utente. Se non è utile puoi direttamente rimuoverle dal sito. Non ha senso applicare URL rewirte solo ad alcune URL. Se la comodità è di non fare URL rewrite evitalo del tutto. Avere soluzioni ibride non è mai il massimo e rende più complessa la gestione del progetto.
-
Riguardo il 404, se rimuovo le pagine senza alcun redirect non vanno automaticamente in 404 e di conseguenza dopo un pò vengono rimosse dall'indice? Come spiegavo all'inizio, il progetto per alcune pecche tecniche non ha mai generato un buon traffico naturale derivante dall'indicizzazione. Non mi interessa recuperare eventuali posizioni delle vecchie url. Mi interessa poter cambiare tutta la struttura file senza arrecare danni ad indicizzazioni future.
Riguardo all'indicizzazione, sono arrivato alla conclusione di utilizzare sia il robots.txt che il meta robots per le pagine che voglio escludere.
Per l'url rewrite, farò in modo di farlo valere per tutte le url.
Grazie.
-
Non ha senso usare sia il robots.txt che il meta robots.
Se metti un disallow nel robots.txt il crawler non potrà mai leggere il contenuto dei meta.
Se non vuoi passare juice fai pur tornare 404.
-
Quindi praticamente se voglio escludere una determinata pagina dall'indicizzazione, ed avere maggiori probabilità a riguardo, occorre specificare solo il metatag robots? In questo caso non ho il robots.txt che blocca l'accesso, e di conseguenza lo spider potendo accedere e vedere il metatag robots impostato per la non indicizzazione, non dovrebbe indicizzarne il contenuto. Cosa diversa, se inserisco un file nel robots.txt, ne impedisco l'accesso al crawler, però rischio che la url venga indicizzata se linkata da qualche parte, perchè il crawler non ha la possibilità di scansionarla e di vedere un eventuale metatag robots. Scusa se ci sto mettendo un pò..spero di essere giunto alla conclusione giusta
Riguardo problematiche nello specifico del file .htaccess, mi conviene aprire un altro topic?
Grazie mille!
-
Compreso!
Per il .htaccess se vuoi apri nella sezione apposita.
-
Ti ringrazio per il supporto. Provvedo ad aprire una nuova discussione per l'htaccess nell'apposita sezione.
Volevo chiederti un'ultima cosa riguardo un dubbio che mi è sorto: ma la pagina personalizzata per gli errori 404, posso non indicizzarla?
Grazie.
-
Le pagine 404 proprio perché sono 404 non vengono indicizzate.
-
Grazie di tutto