- Home
- Categorie
- Coding e Sistemistica
- Hosting, Server e Domini
- Errori LOG non previsti
-
Errori LOG non previsti
Salve ragazzi!
Spero di poter avere da voi un aiuto o un chiarimento.
Dall'analisi dei log sul mio server mi sono accorto che googlebot ed altri bot tentano di seguire e di indicizzare cartelle inesistenti attraverso i percorsi assolti.
Mi spiego meglio. Ecco un tipico errore:[error] [client 66.249.73.175] File does not exist: /home/userid/public_html/**nome-cartella
**
In pratica Googlebot cerca di indicizzare una cartella che non esiste e che in realtà ho creato con la riscrittura dei link con htaccess
Un link tipico del/dei miei siti è questo: w w w . nomesito . com/nome-cartella/nome-pagina.html
In relta nome-cartella non esiste ma Googlebot cerca di indicizzarla ugualmente
Vorrei eliminare questo tipo di errore perchè credo che sia negativo per l'indicizzazione del sito.
Ho un server apache con Cpanel.Qualcuno mi potrebbe dare una mano? Grazie.
-
Ho un dubbio su questa frase "In pratica Googlebot cerca di indicizzare una cartella che non esiste e che in realtà ho creato con la riscrittura dei link con htaccess".
Se c'è il rewrite, allora la directory dovrebbe essere accessibile. Ho capito male?
Per impedirgli di indicizzare quelle cose lì, potresti usare il robots.txt ( il disallow ). Però se google le cerca, vuol dire che da qualche parte ha visto dei link a quegli url. La domanda è: "dove?"
-
No, non esiste perché il rewrite è fatto in questo modo
RewriteRule ^nome-cartella/(.*)-([0-9]+).html pagina.php?action=var&label=$1&id=$2 [L,QSA,NC]
Per cui la cartella in realtà non esiste...
Non credo che Google abbia visto i link diretti alla cartella ma come dicevo in precedenza esistono solo link alla pagina finale del tipo:
-
A questo punto potresti usare il robots.txt, oppure aggiungere un'altra regola che rimandi gli accessi alle tabelle verso un 404.
Soprattutto nel secondo caso, i bot dovrebbero smetterla dopo un pò di cercare di accedere a quelle directory.
-
Ma se aggiungo una regola nel file robots bloccando la cartella, non vado a bloccare anche tutti i link che dipendono da essa (anche se in modo virtuale)?
-
Aspè, ma se sono cartelle inesistenti perchè ci sono dei file dentro?
-
Non è che ci son file dentro... MI riferivo alla pagina che dipende dalla cartella...
nomesito.com/nome-cartella/pagina.html
In ratica pagina.html è cose se si trovasse al suo interno anche se non è veramente li perchè nome-cartella l'ho creata solo per posizionare il sito...
Quindi se blocco come cartella in teoria dovrei bloccare anche l'accesso a pagina.html
-
In questo caso l'unica possibilità è fornire o un index.html ( tramite rewrite ovviamente ) oppure una pagina 404 che fa capire al motore che l'index non c'è.