accesslog server

flavioweb

accesslog server

Buongiorno.
Volevo gentilmente richiedere un parere perché io non riesco a capire bene.

Guardando l'access log del sito, ho notato che ci sono moltissime url in 301 (che in realtà non lo sono).

Googlebot scansiona la pagina come vedete di seguito

66.249.66.55 - - [18/Dec/2019:03:30:08 +0100] "GET /2010/11/firenze-blabla.html HTTP/1.1" 301 - "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Posi scansiona la versione AMP e da 200

66.249.66.55 - - [18/Dec/2019:03:30:08 +0100] "GET /2010/11/firenze-blabla.html/amp HTTP/1.1" 200 69816 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Secondo voi è normale? Potrebbe essere una cattiva implementazione dell'https?

Grazie anticipatamente.

flaviors200

Ciao,

dipende da come hai implementato il file .htaccess e quale versione canonica del dominio hai scelto.

Non è detto che sia presente un 301 specifico per la pagina /2010/11/firenze-blabla.html, è sufficiente che sia presente una regola che reindirizzi ciascuna risorsa da http ad https, oppure da www a non www o viceversa.

Puoi rendertene conto dalla console del browser. Se usi Chrome premi Ctrl+Maiusc+C, spostati nella tab Network, quindi apri la pagina /2010/11/firenze-blabla.html e dalla console verifica lo status code di quella risorsa.

Se è uguale a 200, prova le varianti con o senza www, uno di questi dovrebbe ritornarti lo status 301.

Dunque può anche darsi che lo spider visiti il dominio come dominio.tld e nell'.htaccess sia presente un 301 che reindirizza a www.dominio.tld.

flavioweb

Grazie Flavio.

Allora dal test con lo strumento di Chrome risulta che:
Versione senza www: 301
Versione con www. 200

Sotto l'immagine

Quindi devo supporre che googlebot strisci la versione senza www e trova il reindirizzamento.

**Ma perché? È normale questa cosa? Non sarebbe meglio se strisciasse direttamente la versione canonica?
**
in htaccess ho soltanto le regole per la cache e la compressione gzip, nonché dei redirect fissi (che implementai perché erano indicizzate le pagine "mobile" di blogspot, sistema con cui era realizzato il sito prima del passaggio a wordpress) e una regoletta implementata dal plugin really simple ssl.

Lo posto per completezza

#redirect pagine mobile generate in passato da blogger a pagine canoniche
RewriteEngine On
RewriteCond %{QUERY_STRING} ^m=0$
RewriteRule (.) /$0? [R=301,L]
RewriteEngine On
RewriteCond %{QUERY_STRING} ^m=1$
RewriteRule (.) /$1? [R=301,L]

BEGIN Really_Simple_SSL_SECURITY_HEADERS

<IfModule mod_headers.c>
Header always set Strict-Transport-Security: "max-age=31536000" env=HTTPS
</IfModule>

Ti sarei grato se mi schiarisci le idee.

Grazie

flaviors200

Non saprei dirti, bisognerebbe approfondire. Anche su un mio sito vedo dei 301 da parte di Google e la versione canonica è senza www. Però solo su alcune pagine, su altre no.

sermatica

Ciao
hai rivendicato la propiretà dominio della GSC? Se si verifica se hai Sitemap solo per la versione finale del sito. Rivendica anche la versione in http con e senza www e vedi se hai traffico anche su quelle.