- Home
- Categorie
- Digital Marketing
- Posizionamento Nei Motori di Ricerca
- Indicizzazione di pagine /wp-content/ su Wordpress
-
Indicizzazione di pagine /wp-content/ su Wordpress
Buongiorno,
Testando il mio sito da site:www ho trovato una lunga serie di pagine indicizzate di questo tipo:https://www.dominio.it/wp-content/uploads/2017/01/
https://www.dominio.it/wp-content/uploads/2017/02/
...Si tratta di pagine in HTML che contengono ciascuna una lista delle immagini contenute in queste cartelle (/uploads/2017/01/, /uploads/2017/02/ ... )
Di solito non trovo queste URL indicizzate, come mai in questo caso lo sono e quale soluzione potrei optare?
Non credo che aggiungere un Disallow su /wp-content/uploads/ da robots sia consigliabile in quanto queste cartelle contengono appunto le immagini del mio sito che voglio rimangano indicizzate... ma forse queste pagine andrebbero escluse dall'indice di Google, sarebbe giusto? qualcuno mi sa consigliare se sia preferibile lasciarle così, o piuttosto reindirizzarle?Grazie
1 Risposta -
@isotopia volendo puoi lavorare di disallow + allow per bloccare solo le pagine e non il path.
Il tema però è:- come fa a trovare quelle pagine?
- perché vengono create (permessi listing del folder o sono proprio pagine generate)?
Mal che vada se non risolvi i punti di cui sopra puoi mettere un noindex via x-robots-tag direttamente da .htaccess.
-
Grazie per l'aiuto,
in effetti anch'io non capisco perchè vengano indicizzate.
Credo si tratti di vere pagine a tutti gli effetti che contengono ciascuna lunghe liste di risorse .jpg.Potrei mettere il noindex da htaccess o da file robots, tuttavia come farei ad escludere il blocco sui singoli path, considerando che numericamente le immagini sono moltissime?
2 Risposte -
@isotopia da robots.txt il noindex non si può più fare, anche se Google diceva non esistesse.
Io andrei a capire "chi" crea quelle pagine e lo bloccherei.
Se non mandi URL dura capire però.
-
Normalmente quelle cartelle hanno un 403 Forbidden che dovrebbe impedirne l'indicizzazione.
Se vengono indicizzate, vuol dire che restituiscono 200 OK.
E se hanno un 200 OK vuol dire che sono stati scazzati in qualche modo i permessi delle cartelle. O direttamente sul server o in qualche modo all'interno del file .htaccess o a causa di qualche plugin.
Non ci sono molte altre alternative.
Consiglio standard: controlla che i permessi delle cartelle siano tutti 755, controlla che nel file htaccess non ci siano istruzioni strane oltre allo standard e disattiva tutti i plugin e riattivali uno per uno per capire quale è quello che combina guai.
Una volta che hai capito e risolto il problema e le cartelle tornano a restituire un 403 Forbidden puoi anche dimenticarti della cosa: Google le rimuoverà dall'indice coi suoi tempi.
-
@isotopia ha detto in Indicizzazione di pagine /wp-content/ su Wordpress:
Potrei mettere il noindex da htaccess o da file robots, tuttavia come farei ad escludere il blocco sui singoli path, considerando che numericamente le immagini sono moltissime
Non va bene il noindex, perchè costringi comunque il crawler a scansionare quelle pagine. Vanno messe in disallow, se non riesci a eliminarle.
1 Risposta -
@filippo-jatta ha detto in Indicizzazione di pagine /wp-content/ su Wordpress:
perchè costringi comunque il crawler a scansionare quelle pagine
Mi pare un po' un volo pindarico questa affermazione.
Qui il problema è:- perché ci sono quelle pagine
- come le ha scoperte il crawler (link, sitemap, ...)
Il noindex oltre a forzare la rimozione di una pagina dalle SERP porta lo scheduler a ridurre nel tempo la scansione. Non solo: porta anche - se persistente per lunga durata (=tante scansioni) a portare i suoi link in uno stato di "virtuale" nofollow.
1 Risposta -
@merlinox sul come le ha scoperte è presto detto: Googlebot è noto che provi a scansionare le sottocartelle "per vedere che cosa trova".
Sì aspettano un 403 e di solito non indicizzano.
Ma se per errore hai settato un 200...
-
Grazie a tutti.
Ecco un esempio di queste pagine:https://www.resmedia.it/wp-content/uploads/2018/06/
C'è una lunga serie di pagine indicizzate di questo tipo.
Il sito è costruito su Wordpress. Ora, mi chiedo quale sia la soluzione percorribile e migliore tra:- Applicare un Disallow su robots.txt per la cartella /wp-content/uploads/. . A questo punto la mia domanda è: Così facendo però vado a de-indicizzare anche tutte le risorse .jpg elencate in queste pagine, dunque in sostanza le immagini del mio sito? Se così fosse, non è attuabile
- Un NO-Index da htaccess valido per l'intera sottocartella, ma ho lo stesso dubbio di cui sopra.
- Reindirizzare tutte queste pagine può creare dei malfunzionamenti al sito?
- Impostare come suggerite uno status code 403 Forbidden (attualmente sono 200, indicizzabili) per tutta la sottocartella /wp-content/uploads/ ?
2 Risposte -
@isotopia ha detto in Indicizzazione di pagine /wp-content/ su Wordpress:
Impostare come suggerite uno status code 403 Forbidden (attualmente sono 200, indicizzabili) per tutta la sottocartella /wp-content/uploads/ ?
Assolutamente questo.
403 forbidden sulle cartelle è il default di Wordpress e questa cosa non dovrebbe succedere.
-
@isotopia NON sono pagine, sono listing di server. Devi togliere il permesso da web server.
-
Ok d'accordo, faccio impostare un 403. Grazie a tutti.