• Bannato Super User

    Da un breve sguardo, causa il poco tempo, ho iniziato a trovare queste pagine che corrispondono ai criteri che stiamo cercando:

    http://dmoz.org/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/robots.txt/

    è la corrispondenza in tedesco di quella postata da Low, sulla dir di Google non esite con questo indirizzo ma con questo:

    http://www.google.com/Top/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/Roboter/

    poi

    http://dmoz.org/Computers/Internet/Searching/Directories/

    con tutte le sottocategorie ( sono diverse )

    e poi

    http://dmoz.org/Computers/Internet/Searching/Search_Engines/Robots/

    e questa è ancora con il termine robots, stavolta senza l'estensione.

    Proviamo a ragionarci un po' su intanto che ne cerchiamo altre, per ora ne ho trovate solo relative al tema motori di ricerca, ne servirebbero altre per temi diversi.

    Ancora io non sono riuscito ad elaborare un criterio per cercare questo tipo di pagine, ma se ne trovassimo uno potremmo procedere più speditamente.

    Scusate se non ho messo bene in ordine Gli URL ma oggi vado proprio di fretta 😞 . Mi riservo di farlo non appena avrò due minuti 😉 .


  • User Attivo

    Dubbio mio:

    non è che è un bug del bot ?
    Tipo che non riesce a prendere il nome giusto della pagina e gli restituisce un 404, si sa mai... 🙂


  • User Attivo

    http://dmoz.org/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/index.html

    mi da pr 4, pertanto in teoria non e' bannata, ma solo esclusa dalla serp.

    http://www.google.com/search?sourceid=navclient&ie=UTF-8&rls=GGLG,GGLG:2005-36,GGLG:en&q=Analyzes+a+robots.txt+file+searching+for+syntax+and+"logical"+errors%2C+and+shows+a+summary+of+what+effect+it+will+have

    da come primo risultato:

    Google Directory - Computers > Internet > Web Design and ...
    directory.google.com/Top/Computers/Internet/ Web_Design_and_Development/Authoring/Online_Tools/robots.txt/

    la copia della pagina di dmoz, forse per non mettere 2 pagine identiche nelle serp ha lavorato di filtro antiduplicazione, o qualcosa del genere...


  • Super User

    dubito che sia un problema del filtro antiduplicazione..perchè le pagine non sono identiche e personalmente google mi ha indicizzato pagine ben più simili tra di loro 🙂

    comunque il dilemma è interessante..ci penserò anch'io


  • Community Manager

    Penso che dei test e delle ricerche su DMOZ per individuare pagine simili possano permettere di individuare una regola applicata dal motore di ricerca.

    Abbiamo latre cose simili su altri siti?

    Potrebbe essere davvero un test quello su DMOZ


  • Super User

    Io voglio scrivere un'analisi abbastanza profonda, lo farò nel fine settimana.

    Per ora mi limito a dire che gli URL che avete indicato non soffrono tutti dello stesso problema. Ovvero, non si tratta sempre dello stesso fenomeno che segnalavo.


  • User Attivo

    Low aspettando desideroso la tua analisi, vado ot mettendo pesce al fuoco su una grigliata di carne.

    Fermiamoci un attimo e pensiamo alla realta' (2005) del web.

    I maggiori "distributori" di introiti ai wm (per esempio, overture, adesense) sono basati sui motori.

    I maggiori "distributori" di accessi ai wm sono i motori.

    Perfetto, questa e' l'attuale realta', piaccia o meno. Giusta o sbagliata. Non entro nel merito, ne prendo solo atto e la riporto cosi' per come mi appare.


    Bene, partendo da questo dato di fatto ci si chiede: se i motori fanno parte della base del web, oggi ne sono i protagonisti, danno da vivere a moltissime persone, possono decidere successo ed insuccesso di tantissimi di noi che fanno il mestiere di seo e/o wm, possono condizionare il mercato, i gusti, le abitudini, le scelte degli utenti... ed il tutto in modo legale e corretto, cosa c'e' da sempre sul web che tuttavia potrebbe incidere-limitare-danneggiare un motore?

    Il robots.txt


    Mi piace la fanstascienza, magari piace anche voi, allora proseguite.

    Io wm ho un sito meraviglioso ed un giorno decido via robots.txt di non far accedere Google e Yahoo ma solo msn al mio sito, cosa succede??

    Riguardo l'argomento trattato dal mio sito G e Y (a parita' di algoritmi) daranno risultati nelle loro serp inferiori a quelle di msn, lui solo ora puo' offrire anche un sito come il mio, gli altri motori li ho esclusi.

    Ora ipotizziamo che questa mia particolare scelta non sia isolata, ma che come me facciano centinaia di migliaia di wm.

    100.000 wm decidono di escludere i bot di G e Y dai loro siti, solo msn puo' accedervi e spiderizzarli.

    Perche' dovrebbero farlo?

    Per esempio perche' msn potrebbe premiare pesantemente nelle sue serp tutti i siti che accettano questa particolare condizione, per esempio msn potrebbe decidere di pagare un wm per escludere via robots.txt la concorrenza, per esempio msn (o un altro motore ovviamente, msn e' un motore preso a caso, di esempio) potrebbe convincerci che cosi' facendo si aiuterebbe il web a bloccare-limitare potenziali-pericolosi monopoli o cose simili... insomma ci possono essere tante situazioni possibili.


    I motori sono succobi del robots. Loro comandano il mondo del web ma i robots comandano loro (teoricamente).

    Pertanto, coscienti di cio', i motori tutti, odiano-delegittimano il robots.

    Meno se ne parla meglio e'.
    Meno se ne capisce meglio e'.
    Meno informazioni a riguardo ci sono sul web meglio e'.
    Meno li si usa meglio e'.
    Meno se ne aggiorna-migliora-potenzia lo standard meglio e' (mai aggiornato ufficialmente dal consorzio).

    Meno, meno ed ancora meno...


    Ma sono i wm alla base del web, non i motori.
    Se un domani, per partito preso, per pazzia, tutti i wm italiani decidessero di bloccare G con i loro robots, G.it non avrebbe piu' senso di esistere. Morto e defunto. Tempo 24-48 ore. E G, Y, M lo sanno.

    Teniamolo sempre a mente, chissa' che un lontano domani possa servire.


    Peccato che il buon Alfonso Brescia sia mancato, oggi avrebbe avuto un nuovo spunto per il suo Guerra dei robot(s).
    Ma probabilmente non avrebbe considerato quanto sopra, quello era un film di fantascienza, non un reportage.


  • Super User

    @agoago said:

    potrebbe convincerci che cosi' facendo si aiuterebbe il web a bloccare-limitare potenziali-pericolosi monopoli o cose simili... insomma ci possono essere tante situazioni possibili.

    Msn che ci convince che i monopoli sono pericolosi? bill gates dev'essere impazzito! ahhah 🙂 a parte gli scherzi, agoago ha ragione..alla fine è il wm alla base del web..siamo sempre noi a decidere e da quando google è entrato in borsa siamo pure molto molto pericolosi..se gli crolla google.it, perde molti soldini. :fumato:


  • Super User

    @emmebar said:

    Da un breve sguardo, causa il poco tempo, ho iniziato a trovare queste pagine che corrispondono ai criteri che stiamo cercando:

    http://dmoz.org/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/robots.txt/

    è la corrispondenza in tedesco di quella postata da Low, sulla dir di Google non esite con questo indirizzo ma con questo:

    http://www.google.com/Top/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/Roboter/

    poi

    http://dmoz.org/Computers/Internet/Searching/Directories/

    con tutte le sottocategorie ( sono diverse )

    e poi

    http://dmoz.org/Computers/Internet/Searching/Search_Engines/Robots/

    Il primo URL che hai indicato presenta le stesse caratteristiche di quello indicato da me nel primo post.

    Il secondo, la versione della stessa pagina nella directory di Google è invece correttamente indicizzata dal motore di ricerca. Ma senza cache.

    Le sottodirectory di http://dmoz.org/Computers/Internet/Searching/Directories/ non vengono indicizzate da Google, ma la ragione pare diversa.

    Facendo infatti una ricerca dell'URL di una sottodirectory, Google mostra il classico messaggio "If the URL is valid, try visiting that web page [...]", cosa che invece non avviene per l'URL segnalato nel primo post.

    Riassumendo, le uniche pagine che Google non ha indicizzato e delle quali non mostra nemmeno l'invito alla visita sono quelle che corrispondono ad una directory chiamata robots.txt.

    Facendo una ricerca su Google, si nota che il motore non possiede in archivio nessun documento il cui URL termina con una directory di nome robots.txt.

    Inoltre, la mancanza dell'invito alla visita non equivale ad una penalizzazione ma a volte è indice che l'accesso al documento è inibito da un comando Disallow nel robots.txt.

    Ritengo pertanto che l'ipotesi da fare sia quella che esiste una motivazione tecnica per la quale Google non può o non vuole indicizzare i documenti i cui URL terminano con una directory chiamata robots.txt

    Questa teoria può essere provata o confutata facendo un test specifico.

    Le sottodirectory di
    http://dmoz.org/Computers/Internet/Searching/Directories/ sono invece un animale del tutto differente e andrebbero studiate a parte.


  • Bannato Super User

    @LowLevel said:

    Il primo URL che hai indicato presenta le stesse caratteristiche di quello indicato da me nel primo post.

    Il secondo, la versione della stessa pagina nella directory di Google è invece correttamente indicizzata dal motore di ricerca. Ma senza cache.

    Le sottodirectory di http://dmoz.org/Computers/Internet/Searching/Directories/ non vengono indicizzate da Google, ma la ragione pare diversa.

    Facendo infatti una ricerca dell'URL di una sottodirectory, Google mostra il classico messaggio "If the URL is valid, try visiting that web page [...]", cosa che invece non avviene per l'URL segnalato nel primo post.

    Riassumendo, le uniche pagine che Google non ha indicizzato e delle quali non mostra nemmeno l'invito alla visita sono quelle che corrispondono ad una directory chiamata robots.txt.

    Facendo una ricerca su Google, si nota che il motore non possiede in archivio nessun documento il cui URL termina con una directory di nome robots.txt.

    Inoltre, la mancanza dell'invito alla visita non equivale ad una penalizzazione ma a volte è indice che l'accesso al documento è inibito da un comando Disallow nel robots.txt.

    Ritengo pertanto che l'ipotesi da fare sia quella che esiste una motivazione tecnica per la quale Google non può o non vuole indicizzare i documenti i cui URL terminano con una directory chiamata robots.txt

    Questa teoria può essere provata o confutata facendo un test specifico.

    Intanto un grazie per come hai analizzato gli URL e per come hai esposto le tue considerazioni, personalmente sto imparando molto seguendo i tuoi ragionamenti, stavolta ho imparato che si deve andare più a fondo nelle cose e non fermarsi alle prime, sommarie, apparenze.

    Volevo poi chiederti come potremmo sviluppare un test per verificare la tua teoria.

    @LowLevel said:

    Le sottodirectory di
    http://dmoz.org/Computers/Internet/Searching/Directories/ sono invece un animale del tutto differente e andrebbero studiate a parte.

    Hai qualche già qualche idea in proposito ?


  • Super User

    @LowLevel said:

    Esistono caratteristiche di una pagina che inducono i motori di ricerca a bannarle.

    [url=http://dmoz.org/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/]Questa pagina di DMOZ non è mai stata indicizzata da Google. Si noti che le altre pagine dello stesso livello sono invece presenti nel database.

    E Google si rifiuta persino di indicizzare [url=http://directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/]la propria pagina nella sua directory, corrispondente a quella di DMOZ.

    Domanda: perché?

    Penso che dei test e delle ricerche su DMOZ per individuare pagine simili possano permettere di individuare una regola applicata dal motore di ricerca.

    Aggiunto: io ho un paio di idee, la prima basata sui contenuti dell'URL e la seconda sui contenuti della pagina. Ma prima vorrei sentire il parere degli altri.

    ipotesi: e se fosse che google trovando un robots.txt consideri immediatamente la dir la docroot di un altro sito? sarebbe cioe' l'inizio del filtro antiduplicazione: se intanto trovo un robots, e' sicuramente di un altro sito, quindi questo e' un duplicato.

    plausibile?