• Community Manager

    I cambiamenti del Robots.txt

    Io ho la memoria corta. Non so se l'ho già condiviso, ma circa 2 anni fa (ahahhahaha) sono cambiare le cose nel Robots.txt

    Comunque un ripasso non fa mai male. Trovate l'aggiornamento del 1 luglio 2019 qui.

    Ecco cosa è cambiato:

    • Rimozione della sezione "Requisiti relativi alla lingua" in questo documento in quanto la lingua è specifica della bozza Internet.
    • Robots.txt ora accetta tutti i protocolli basati su URI.
    • Google segue almeno cinque hop di reindirizzamento. Poiché non sono ancora state recuperate regole, i reindirizzamenti vengono seguiti per almeno cinque hop e, se non viene trovato alcun file robots.txt, Google lo considera come un errore 404. La gestione dei reindirizzamenti logici per il file robots.txt basata su contenuti HTML che restituiscono un codice risultato di tipo 2xx (frame, JavaScript o reindirizzamenti di aggiornamento dei metadati) è sconsigliata e i contenuti della prima pagina vengono utilizzati per trovare le regole applicabili.
    • Per gli errori di tipo 5xx, se il file robots.txt non è raggiungibile per più di 30 giorni, viene utilizzata la sua ultima copia memorizzata nella cache oppure, se non è disponibile, Google presuppone che non vi siano restrizioni di scansione.
    • Google considera le richieste non riuscite o i dati incompleti come un errore del server.
    • I "record" vengono ora chiamati "righe" o "regole", a seconda dei casi.
    • Google non supporta la gestione di elementi <field> con errori semplici o di battitura (ad esempio, "useragent" anziché "user agent").
    • Google impone al momento un limite di dimensioni pari a 500 kibibyte (KiB) e ignora i contenuti dopo tale limite.
    • Sintassi formale aggiornata per essere un Augmented Backus-Naur Form (ABNF) valido per RFC5234 e coprire i caratteri UTF-8 nel file robots.txt.
    • Definizione di "gruppi" aggiornata per renderla più breve e più precisa. Aggiunto un esempio per un gruppo vuoto.
    • Rimossi i riferimenti allo schema Ajax Crawling obsoleto.

    :ciauz: