- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- Tanti url soggetto a restrizioni da robots.txt
-
Ciao Amaca, il robots.txt contiene errori formali, una riga vuota infatti significa fine del blocco precedente (che invece inizia con User-Agent), probabilmente Google lo corregge in automatico, in ogni caso li eliminerei.
Poi ci sono alcune righe superflue, perché ribadiscono inutilmente quando già detto in altre righe.
Riguardo al forum, non fa uso di tecniche di URL rewriting, vero?
Cioè hai delle URL parametriche di questo tipo:
/forum/thread.php?id=1234Se la risposta è SI, il problema probabilmente sta nelle righe:
Disallow: /?
Disallow: /*?Sotto ti riporto il codice commentato, io eliminerei tutte le righe dove trovi i miei commenti, e poi lo controllerei tramite l'apposito tool negli strumenti per webmaster di Google.
Sitemap: /sitemap.xml
Sitemap: /forum/xmlsitemap.phpUser-agent: BoardTracker
Disallow: /User-agent: Gigabot
Disallow: /User-agent: Twiceler
Disallow: /User-agent: Slurp
Crawl-delay: 2User-agent: msnbot
Crawl-delay: 2User-agent: *
<- ERRORE: RIGA VUOTA
Disallow: /wp-
Disallow: /wp-admin/ <- SUPERFLUO
Disallow: /wp-includes/ <- SUPERFLUO
Disallow: /wp-content/ <- SUPERFLUO
Disallow: /cgi-bin/
<- ERRORE: RIGA VUOTA
Allow: /wp-content/uploads/
<- ERRORE: RIGA VUOTA
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/
<- ERRORE: RIGA VUOTA
Disallow: /? <- SUPERFLUO, inoltre vedi sotto
Disallow: /? <- FORSE E' QUESTA RIGA CHE IMPEDISCE L'INDICIZZAZIONE DEL FORUM
<- ERRORE: RIGA VUOTA
Disallow: /tag/
Disallow: /category/
<- ERRORE: RIGA VUOTA
Disallow: /editpost.php
Disallow: /gamercard.php
Disallow: /inlinemod.php
Disallow: /member.php
Disallow: /memberlist.php
Disallow: /newreply.php
Disallow: /newthread.php
Disallow: /payments.php
Disallow: /printthread.php
Disallow: /private.php
Disallow: /profile.php
Disallow: /report.php
Disallow: /search.php
Disallow: /sendmessage.php
Disallow: /showpost.php
Disallow: /usercp.php
Disallow: /usernote.phpUser-agent: Mediapartners-Google
Allow: /member.php <- SUPERFLUO
Allow: /private.php <- SUPERFLUO
Allow: /usercp.php <- SUPERFLUO
<- ERRORE: RIGA VUOTA
Allow: /
-
Intanto Webmaster ti ringrazio tanto per la risposta super dettagliata.
Sono alle prime armi con i robots e sicuramente avrò fatto tanti errori.
esatto per gli url parametrici, non uso url rewrite. quindi potrebbe essere proprio quello il problema! provo immediatamente a settarlo come mi hai consigliato, ti faccio sapere se ho delle novità.
Per quanto riguarda la sitemap del forum, invece? secondo te come mai mi da la X rossa sullo stato? dici che puo dipendere dal file robots?
-
Accanto alla X dovrebbe esserci un link con il nome della sitemap, cliccalo e nella pagina di dettaglio dovresti leggere di che errore si tratta (forse è la presenza di tante URL escluse dal robots.txt).
-
Ah ecco!! non mi ero accorto che si poteva controllare nel dettaglio!
E' esattamente come dici:
"URL limitato da robots.txt
Abbiamo rilevato un errore durante l'accesso alla tua Sitemap. Accertati che la tua Sitemap rispetti le nostre linee guida e che sia possibile accedervi utilizzando il percorso da te fornito, quindi reinviala."e sotto i vari url bloccati.
Ho modificato il robots.txt, ho modo di segnalarlo subito al sistema o devo attendere per forza che i crawler controllino da soli?
-
Bene!
Pazienta un po', entro 24 ore circa si accorgerà dei cambiamenti al robots.txt, e potrai verificarlo sempre li negli strumenti per webmaster.
Dopo invia di nuovo la sitemap.
Anche se una prova puoi farla già adesso, non si sa mai.
-
Perfetto, attendo che il robots sia aggiornato! incrocio le dita!;)
Intanto grazie in anticipo per l'aiuto!!!
-
Buone nuove, ma non del tutto!
nella home del webmaster tool prima mi diceva che c'erano errori indicandomelo con una scritta in rosso, e una volta entrato nel sito specifico, ritrovavo lo stesso errore su una banda rossa che evidenziava il problema. Ora quegli errori non ci sono piu, quindi sembra che sia apposto, anche perche l'errore della sitemap che avevo prima, ora non c'è piu, è settata correttamente e la bella V in verde lo conferma.
Unico problema: negli errori di scansione trovo tutto esattamente come prima, con i 1600 e rotti url bloccati da robots, nonostante siano stati scannerizzati il 5 novembre, quindi teoricamente era gia tutto apposto, poichè gia da un paio di giorni è tutto corretto.
E' normale? devo aspettare un po di tempo o ancora c'è qualche problema di configurazione?
-
Puoi fare il copia e incolla di alcune di quelle righe?
Togli però http:// e il nome del tuo dominio, così non diventano link attivi e mantieni la privacy.
-
questi sono quelli nella colonna "soggetto a limitazioni da robots", e ne ho altri 1600. ho visto che la prima pagina di link sono stati visionati dal crawler il 5 novembre, ma gli altri piu vecchi non sono stati ricontrollati...ma rimane il fatto che ne sono usciti di nuovi il giorno che avevo settato tutto bene.
/forum/showthread.php?301-One-piece-pop-silvers-rayleigh&p=1266
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?194-P.O.P.-quot-Sailing-Again-quot-Chopper
URL limitato da robots.txt 05/nov/2011
/forum/tags.php?tag=catherine
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=446&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=450&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/tags.php?tag=site
URL limitato da robots.txt 05/nov/2011
/forum/tags.php?tag=guida
URL limitato da robots.txt 05/nov/2011
/forum/external.php?type=RSS2&forumids=67
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=112&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=456&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?298-Ciao-a-tutti!
URL limitato da robots.txt 05/nov/2011questi invece sono nella colonna "nella sitemap", e listati ce ne sono sui 124
/forum/showthread.php?349-vendo-Thousand-Sunny-
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/showthread.php?15-DX08-Batman(1989)-1-6th-scale-Joker
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/forumdisplay.php?26-Varie
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/forumdisplay.php?52-Cinema-e-TV
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/showthread.php?336-Mikuru-Asahina-1-8-(Figure)
URL limitato da robots.txt
non disponibile
05/nov/2011
-
Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono? Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:
/category/americane/recensioni-americane
/category/video
/wp-admin/admin-ajax.phpi file in questione sono riferiti a wordpress.
-
@Amaca said:
Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono?
Si.
Quello è come un normale file di log (o registro) eventi (di solito errori), e quindi funziona in questo modo.
Quando si verifica un errore viene aggiunta una riga, la quale poi non viene eliminata quando l'errore viene corretto, bensì quando passa tot tempo dalla sua registrazione e/o il registro raggiunge una certa capienza.
Quindi è normale che adesso si "sgonfi" lentamente.
@Amaca said:
Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:
/category/americane/recensioni-americane
/category/video
/wp-admin/admin-ajax.phpi file in questione sono riferiti a wordpress.
Sta semplicemente facendo quello che gli hai ordinato tu tramite robots.txt:
@Amaca said:Disallow: /wp-
Disallow: /category/
-
Infatti sta continuando a scendere pian piano giornalmente!!!! ah, quindi ho bloccato stupidamente le catogorie! Errori da principiante
Non so come ringraziarti Webmaster! sei un grande!!! non sarei mai riuscito a risolvere la questione senza di te e sta mitica community, sempre i numeri uno!!!
un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.
c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?
-
@Amaca said:
un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.
c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?
Ok ho risolto quel discorso li! Era una cavolata
Per le categorie in realtà mi sono ricordato il motivo per cui le bloccavo...avevo letto in giro che avendo molte categorie, c era il rischio di creare contenuti duplicati, poichè le categorie andavano a pescare articoli a volte uguali...potrebbe essere saggio continuare a bloccarle oppure no?
-
Si Amaca, categorie e tags possono creare problemi di contenuti duplicati.
Metterle in disallow nel robots.txt è una soluzione, ma per me non è quella ottimale. Io farei così.
-
Usa o le categorie o i tags, non entrambi.
-
Se usi i tags, non assegnarne più di 4-5 per ogni articolo, cercando di riutilizzare gli stessi.
-
Nelle pagine tags o categorie non mostrare tutto l'articolo, ma solo titolo + abstract, oppure solo titolo.
-
Togli le righe relative a tags e categorie nel robots.txt.
Quanto detto sopra è un mio convinto parere, e non una assodata prescrizione sulle quali tutti concordano, vedi tu.
-
-
Secondo me è un'ottima soluzione, l'alternativa oltre al disallow è il nofollow sulle categorie e sui tags.
-
Non ho usato dei tags, ma ho creato delle tassonomie personalizzate con la possibilità di aggiungere figli...a conti fatti li utilizzo come se fossero tag, ma con la possibilità di categorizzarli in tassonomie padre. Sono lo stesso considerate categorie? spero di essere stato chiaro, altrimenti chiedetemi!
Vale lo stesso discorso di non associare piu di 4 o 5 tassonomie a post?
Per ora visualizzo titolo e la parte iniziale dell'articolo nella pagine relative alle tassonomie e categorie, che viene tagliato in automatico. sarebbe piu oppurtuno usare i "riassunti"?
comunque anche l idea del nofollow non è sbagliata.
-
Il discorso è uguale, non assegnare troppe categorie, tag o tassonomie per articolo.
I riassunti sono meglio degli articoli troncati, però se li devi a mano fare esclusivamente per questo, non ne vale la pena, perché bastano le altre precauzioni.
Riguardo al nofollow ... idem al disallow, previene contenuti duplicati (grave problema) ma comporta perdita di link juice (piccolo problema), per me.