Navigazione

    Privacy - Termini e condizioni
    © 2020 Search On Media Group S.r.l.
    • Registrati
    • Accedi
    • CATEGORIES
    • Discussioni
    • Non letti
    • Recenti
    • Hashtags
    • Popolare
    • Utenti
    • Stream
    • Interest
    • Categories
    1. Home
    2. Categorie
    3. La Community Connect.gt
    4. News Ufficiali da Connect.gt
    5. Pagina indicizzata nonostante Disallow in robots.txt
    Questa discussione è stata cancellata. Solo gli utenti con diritti di gestione possono vederla.
    • N
      nicola User Attivo • ultima modifica di

      Pagina indicizzata nonostante Disallow in robots.txt

      Piccola premessa:
      tempo fa mi sono accorto che la pagina di login del mio blog (wp-login.php di wordpress) nonostante non ricevesse nessun link esterno (solo uno dalla home) e oltre al form di autenticazione non ha contenuti, aveva il PR più alto.

      Una decina di giorni fa ho messo online un altro sito su wordpress e non volendomi trovare dinuovo nella stessa situazione (più che altro per il fastidio che mi provoca il non capirne il motivo 😄 ) la prima cosa che ho fatto, appena uplodato, è stata metterci un robots.txt così:

      User-agent: *
      Disallow: /wp-login.php

      Il giorno dopo la home era già indicizzata da google, tutto ok.
      Ricontrollo ora e mi ritrovo indicizzati la home e wp-login.php .
      Perchè se ne frega del robots.txt e l'ha indicizzata comunque :mmm:

      0 Miglior Risposta Ringrazia Cita Rispondi

        1 Risposta Ultima Risposta
      • A
        Alessandro Sportelli Super User • ultima modifica di

        chiedo scusa per l'intervento forse fuori luogo non essendo tecnico....

        ....ma il comando che fa al caso tuo non dovrebbe essere "noindex"?

        0 Miglior Risposta Ringrazia Cita Rispondi

          1 Risposta Ultima Risposta
        • S
          stuart Super User • ultima modifica di

          @alex2k said:

          ...ma il comando che fa al caso tuo non dovrebbe essere "noindex"?
          Noindex è il comando che inserisci all'interno del META ROBOTS; il robots.txt così com'è stato compilato da **Nicola **è corretto.

          Il fatto che Google abbia ignorato l'interdizione agli spider fatta dal robots.txt francamente non me lo spiego. Probabilmente l'indicizzazione era scheduled già prima che lo inserissi. Verificherei se tra qualche tempo wp-login.php sparisce naturalmente dall'indice.

          Altrimenti rimuovila personalmente da Google con l'apposito form.

          Cordialmente,
          Stuart

          0 Miglior Risposta Ringrazia Cita Rispondi

            1 Risposta Ultima Risposta
          • N
            nicola User Attivo • ultima modifica di

            Che l'indicizzazione della pagina fosse già schedulata mi pare strano dato che il robots.txt è stato uplodato praticamente insieme al resto del sito, solo qualche minuto dopo.
            Comunque continuo a tenerla d'occhio giornalmente per verificare, eventualmente, dopo quanto tempo viene rimossa dall'indice.

            :ciauz:

            0 Miglior Risposta Ringrazia Cita Rispondi

              1 Risposta Ultima Risposta
            • S
              stuart Super User • ultima modifica di

              @Nicola said:

              Che l'indicizzazione della pagina fosse già schedulata mi pare strano dato che il robots.txt è stato uplodato praticamente insieme al resto del sito, solo qualche minuto dopo
              Era un'ipotesi 🙂

              Cordialmente,
              Stuart

              0 Miglior Risposta Ringrazia Cita Rispondi

                1 Risposta Ultima Risposta
              • P
                petro User Attivo • ultima modifica di

                è successo anche a me!!

                il mio robots.txt:

                User-agent: *
                Disallow: /files/

                http://www.geek-notes.com/robots.txt

                [url=http://www.google.it/search?hs=ubo&hl=it&safe=off&c2coff=1&client=firefox-a&rls=org.mozilla%3Ait%3Aofficial&q=www.geek-notes.com%2Ffiles%2Fwp_plugin_posts_in_category.htm&btnG=Cerca&meta=lr%3Dlang_en%7Clang_it]in realtà è presente nell'indice

                Sbaglio io o Google?

                Devo usare il nofollow?

                Tengo a precisare che il robots era così ed era presente da prima che creassi la cartella /files/ (e che linkassi quel file)

                0 Miglior Risposta Ringrazia Cita Rispondi

                  1 Risposta Ultima Risposta
                • S
                  stuart Super User • ultima modifica di

                  @petro said:

                  è successo anche a me!!
                  Opinion. May I?

                  Google non ha indicizzato quella pagina. Ne ha memorizzato l'esistenza in quanto URL linkato.
                  Ma non ha scaricato la pagina (non indicizzata, non archiviata).

                  Infatti richiamandola da Google è presente solo l'URL, non la versione cache.
                  Prova del nove, utilizzando il comando [url=http://66.249.93.104/search?hl=it&safe=off&c2coff=1&client=firefox-a&rls=org.mozilla%3Ait%3Aofficial&q=cache%3Awww.geek-notes.com%2Ffiles%2Fwp_plugin_posts_in_category.htm&btnG=Cerca&lr=lang_en%7Clang_it]CACHE:

                  Non spunta fuori proprio nulla....

                  Cordialmente,
                  Stuart

                  0 Miglior Risposta Ringrazia Cita Rispondi

                    1 Risposta Ultima Risposta
                  • P
                    petro User Attivo • ultima modifica di

                    Stuart, effettivamente hai ragione 🙂

                    Allora si può dire che la differenza tra una esclusione da robots e rel=nofollow sta nel fatto che il primo impedisce soltanto l'indicizzazione, mentre il secondo "impedisce" proprio al motore di considerare un link/pagina?

                    0 Miglior Risposta Ringrazia Cita Rispondi

                      1 Risposta Ultima Risposta
                    • S
                      stuart Super User • ultima modifica di

                      Uhm.
                      Il REL=NOFOLLOW indica appunto di non seguire il link presente su una pagina. Ciò però non toglie che a quella pagina lo spider possa arrivare per vie traverse.

                      Se proprio non si vuole che la propria pagina compaia nell'indice di Google (ma neanche come URL), si può usare il Meta Googlebot

                      In questo modo:

                      <meta name="Googlebot" content="text" />
                      

                      dove text è sostituito dalle indicazioni specifiche che vuoi impartire allo spider di Google (noindex, nofollow ecc ecc..)

                      Per la lista completa dei comandi inseribili in Meta Googlebot puoi consultare questa pagina:
                      http://www.html-reference.com/META_name_googlebot.htm

                      Cordialmente,
                      Stuart

                      0 Miglior Risposta Ringrazia Cita Rispondi

                        1 Risposta Ultima Risposta
                      • giorgiotave
                        giorgiotave Community Manager • ultima modifica di

                        Nicola di quale sito parli?

                        il primo in firma no.... visto che non ha la cache

                        Qual'è il sito? Vorrei controllare 😄

                        0 Miglior Risposta Ringrazia Cita Rispondi

                          1 Risposta Ultima Risposta
                        • N
                          nicola User Attivo • ultima modifica di

                          @Giorgiotave said:

                          Qual'è il sito? Vorrei controllare 😄

                          Il mio blog (di cui conosci l'url), quello da cui è iniziato tutto.. :neutral:

                          0 Miglior Risposta Ringrazia Cita Rispondi

                            1 Risposta Ultima Risposta
                          • C
                            cibino Bannato Super User • ultima modifica di

                            mi pare ci fosse anche un'altra discussione in cui, a questo punto, si metteva in dubbio l'effettiva efficacia del file robots.txt...:)

                            0 Miglior Risposta Ringrazia Cita Rispondi

                              1 Risposta Ultima Risposta
                            • giorgiotave
                              giorgiotave Community Manager • ultima modifica di

                              @Nicola said:

                              Il mio blog (di cui conosci l'url), quello da cui è iniziato tutto.. :neutral:

                              😮

                              Una che non c'entra....potresti mettere questa come prima riga di tutto?
                              Per test 😄

                              User-agent: *
                              Disallow: /blog/wp-admin/
                              Disallow: /blog/wp-login.php

                              Ovviamente il robots.txt è scritto bene

                              Che strano, la cache è anche aggiornata: al 26 Agosto.

                              Dobbiamo scoprire il motivo però 🙂

                              0 Miglior Risposta Ringrazia Cita Rispondi

                                1 Risposta Ultima Risposta
                              • N
                                nicola User Attivo • ultima modifica di

                                @Giorgiotave said:

                                😮

                                Una che non c'entra....potresti mettere questa come prima riga di tutto?
                                Per test 😄

                                Cioè intendi mettere quelle righe, che ora stanno alla fine del file, all'inizio? Ok.. proviamo

                                0 Miglior Risposta Ringrazia Cita Rispondi

                                  1 Risposta Ultima Risposta
                                • giorgiotave
                                  giorgiotave Community Manager • ultima modifica di

                                  @Nicola said:

                                  Cioè intendi mettere quelle righe, che ora stanno alla fine del file, all'inizio? Ok.. proviamo

                                  Si proviamo, anche se non credo sia quello 😄

                                  E' possibile che incontri qualcosa di strano e si blocchi nella lettura?

                                  0 Miglior Risposta Ringrazia Cita Rispondi

                                    1 Risposta Ultima Risposta
                                  Caricamento altri post
                                  Rispondi
                                  • Topic risposta
                                  Effettua l'accesso per rispondere
                                  • Da Vecchi a Nuovi
                                  • Da Nuovi a Vecchi
                                  • Più Voti