- Home
- Categorie
- Digital Marketing
- Consigli su Penalizzazioni e Test SEO
- Google banna una propria pagina. Perché?
-
@LowLevel said:
Penso che dei test e delle ricerche su DMOZ per individuare pagine simili possano permettere di individuare una regola applicata dal motore di ricerca.
Credo anche io che possa essere una buona occasione per capire ed imparare, sono d'accordo sullo svolgere delle ricerche ed anche sulla realizzazione di un test in proposito.
La cosa che mi pare potrebbe avere a che fare con il "BAN" della pagina forse è l'eccessiva ripetizione della key "robots.txt" nel testo dei links, ma mi sembra troppo semplice e superficiale, andrebbero viste ed analizzate anche altre pagine che subiscono questo tipo di trattamento e poi vedere quali possano essere i fattori comuni a tutte.
Però non ho l'esperienza e la capacità di posizionatore per dire se sia veramente questo il motivo, la mia è solo un'ipotesi basata sulla mia scarsa esperienza.
Tu LowLevel che idea ti sei fatto?
e come proporresti di muoverci per il test ?
-
e se fosse un brutale filtro su "robots.txt" nell'url? :bho:
-
@must said:
e se fosse un brutale filtro su "robots.txt" nell'url? :bho:
Quoto in quanto questa pagina è veramente molto particolare...chi è che ha una directory chiamata robots.txt?
-
@emmebar said:
La cosa che mi pare potrebbe avere a che fare con il "BAN" della pagina forse è l'eccessiva ripetizione della key "robots.txt" nel testo dei links
Era la prima ipotesi.
e se fosse un brutale filtro su "robots.txt" nell'url?
Era la seconda. Ma solo quando si tratta di una directory, non di un file di nome robots.txt (che Google indicizza senza problemi, basta che sia linkato da qualche parte).
andrebbero viste ed analizzate anche altre pagine che subiscono questo tipo di trattamento e poi vedere quali possano essere i fattori comuni a tutte.
Concordo.
e come proporresti di muoverci per il test ?
I test servirebbero solo in una seconda fase, quando avremo fatto analisi più profonde. Prima è il caso di individuare su DMOZ pagine con le stesse caratteristiche per vedere se Google rifiuta di indicizzarle, poi si fanno dei test creando pagine con quelle caratteristiche per vedere se Google le indicizza.
-
una curiosita':
cercate directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/ su google.
vi restituisceSpiacenti. Non ci sono informazioni sull'URL directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/
* Se l'URL è valido, provare a visualizzare la pagina facendo clic sul seguente collegamento: directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/ * Trova pagine che contengano il termine "directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/"
cliccando sul link per trovare le pagine contenenti quella stringa, viene fuori quella pagina! :bho:
-
@must said:
cliccando sul link per trovare le pagine contenenti quella stringa, viene fuori quella pagina!
Visto che non indicizza la pagina, gli unici contenuti che ha a disposizione sono l'URL, che contiene quella stringa, ed il titolo, che viene costruito con tutta probabilità durante l'importazione dell'RDF di DMOZ (i titoli vengono messi in un indice esterno, in Google e in diversi altri motori di ricerca).
Il termine "contenenti" è in questo caso fuorviante perché in realtà Google cerca, in mancanza di meglio, anche tra gli elementi esterni al testo della pagina.
-
@LowLevel said:
I test servirebbero solo in una seconda fase, quando avremo fatto analisi più profonde. Prima è il caso di individuare su DMOZ pagine con le stesse caratteristiche per vedere se Google rifiuta di indicizzarle, poi si fanno dei test creando pagine con quelle caratteristiche per vedere se Google le indicizza.
Era quello che pensavo anche io, che ne dite di iniziare a cercarle e poi fare ognuno una lista ?
Io comincio subito, appena trovo qualcosa di questo tipo lo riporto quà e poi vediamo se possiamo proseguire con l'analisi ed i test.
-
Da un breve sguardo, causa il poco tempo, ho iniziato a trovare queste pagine che corrispondono ai criteri che stiamo cercando:
http://dmoz.org/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/robots.txt/
è la corrispondenza in tedesco di quella postata da Low, sulla dir di Google non esite con questo indirizzo ma con questo:
http://www.google.com/Top/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/Roboter/
poi
http://dmoz.org/Computers/Internet/Searching/Directories/
con tutte le sottocategorie ( sono diverse )
e poi
http://dmoz.org/Computers/Internet/Searching/Search_Engines/Robots/
e questa è ancora con il termine robots, stavolta senza l'estensione.
Proviamo a ragionarci un po' su intanto che ne cerchiamo altre, per ora ne ho trovate solo relative al tema motori di ricerca, ne servirebbero altre per temi diversi.
Ancora io non sono riuscito ad elaborare un criterio per cercare questo tipo di pagine, ma se ne trovassimo uno potremmo procedere più speditamente.
Scusate se non ho messo bene in ordine Gli URL ma oggi vado proprio di fretta . Mi riservo di farlo non appena avrò due minuti .
-
Dubbio mio:
non è che è un bug del bot ?
Tipo che non riesce a prendere il nome giusto della pagina e gli restituisce un 404, si sa mai...
-
mi da pr 4, pertanto in teoria non e' bannata, ma solo esclusa dalla serp.
da come primo risultato:
Google Directory - Computers > Internet > Web Design and ...
directory.google.com/Top/Computers/Internet/ Web_Design_and_Development/Authoring/Online_Tools/robots.txt/la copia della pagina di dmoz, forse per non mettere 2 pagine identiche nelle serp ha lavorato di filtro antiduplicazione, o qualcosa del genere...
-
dubito che sia un problema del filtro antiduplicazione..perchè le pagine non sono identiche e personalmente google mi ha indicizzato pagine ben più simili tra di loro
comunque il dilemma è interessante..ci penserò anch'io
-
Penso che dei test e delle ricerche su DMOZ per individuare pagine simili possano permettere di individuare una regola applicata dal motore di ricerca.
Abbiamo latre cose simili su altri siti?
Potrebbe essere davvero un test quello su DMOZ
-
Io voglio scrivere un'analisi abbastanza profonda, lo farò nel fine settimana.
Per ora mi limito a dire che gli URL che avete indicato non soffrono tutti dello stesso problema. Ovvero, non si tratta sempre dello stesso fenomeno che segnalavo.
-
Low aspettando desideroso la tua analisi, vado ot mettendo pesce al fuoco su una grigliata di carne.
Fermiamoci un attimo e pensiamo alla realta' (2005) del web.
I maggiori "distributori" di introiti ai wm (per esempio, overture, adesense) sono basati sui motori.
I maggiori "distributori" di accessi ai wm sono i motori.
Perfetto, questa e' l'attuale realta', piaccia o meno. Giusta o sbagliata. Non entro nel merito, ne prendo solo atto e la riporto cosi' per come mi appare.
Bene, partendo da questo dato di fatto ci si chiede: se i motori fanno parte della base del web, oggi ne sono i protagonisti, danno da vivere a moltissime persone, possono decidere successo ed insuccesso di tantissimi di noi che fanno il mestiere di seo e/o wm, possono condizionare il mercato, i gusti, le abitudini, le scelte degli utenti... ed il tutto in modo legale e corretto, cosa c'e' da sempre sul web che tuttavia potrebbe incidere-limitare-danneggiare un motore?
Il robots.txt
Mi piace la fanstascienza, magari piace anche voi, allora proseguite.
Io wm ho un sito meraviglioso ed un giorno decido via robots.txt di non far accedere Google e Yahoo ma solo msn al mio sito, cosa succede??
Riguardo l'argomento trattato dal mio sito G e Y (a parita' di algoritmi) daranno risultati nelle loro serp inferiori a quelle di msn, lui solo ora puo' offrire anche un sito come il mio, gli altri motori li ho esclusi.
Ora ipotizziamo che questa mia particolare scelta non sia isolata, ma che come me facciano centinaia di migliaia di wm.
100.000 wm decidono di escludere i bot di G e Y dai loro siti, solo msn puo' accedervi e spiderizzarli.
Perche' dovrebbero farlo?
Per esempio perche' msn potrebbe premiare pesantemente nelle sue serp tutti i siti che accettano questa particolare condizione, per esempio msn potrebbe decidere di pagare un wm per escludere via robots.txt la concorrenza, per esempio msn (o un altro motore ovviamente, msn e' un motore preso a caso, di esempio) potrebbe convincerci che cosi' facendo si aiuterebbe il web a bloccare-limitare potenziali-pericolosi monopoli o cose simili... insomma ci possono essere tante situazioni possibili.
I motori sono succobi del robots. Loro comandano il mondo del web ma i robots comandano loro (teoricamente).
Pertanto, coscienti di cio', i motori tutti, odiano-delegittimano il robots.
Meno se ne parla meglio e'.
Meno se ne capisce meglio e'.
Meno informazioni a riguardo ci sono sul web meglio e'.
Meno li si usa meglio e'.
Meno se ne aggiorna-migliora-potenzia lo standard meglio e' (mai aggiornato ufficialmente dal consorzio).Meno, meno ed ancora meno...
Ma sono i wm alla base del web, non i motori.
Se un domani, per partito preso, per pazzia, tutti i wm italiani decidessero di bloccare G con i loro robots, G.it non avrebbe piu' senso di esistere. Morto e defunto. Tempo 24-48 ore. E G, Y, M lo sanno.Teniamolo sempre a mente, chissa' che un lontano domani possa servire.
Peccato che il buon Alfonso Brescia sia mancato, oggi avrebbe avuto un nuovo spunto per il suo Guerra dei robot(s).
Ma probabilmente non avrebbe considerato quanto sopra, quello era un film di fantascienza, non un reportage.
-
@agoago said:
potrebbe convincerci che cosi' facendo si aiuterebbe il web a bloccare-limitare potenziali-pericolosi monopoli o cose simili... insomma ci possono essere tante situazioni possibili.
Msn che ci convince che i monopoli sono pericolosi? bill gates dev'essere impazzito! ahhah a parte gli scherzi, agoago ha ragione..alla fine è il wm alla base del web..siamo sempre noi a decidere e da quando google è entrato in borsa siamo pure molto molto pericolosi..se gli crolla google.it, perde molti soldini.
-
@emmebar said:
Da un breve sguardo, causa il poco tempo, ho iniziato a trovare queste pagine che corrispondono ai criteri che stiamo cercando:
http://dmoz.org/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/robots.txt/
è la corrispondenza in tedesco di quella postata da Low, sulla dir di Google non esite con questo indirizzo ma con questo:
http://www.google.com/Top/World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/Roboter/
poi
http://dmoz.org/Computers/Internet/Searching/Directories/
con tutte le sottocategorie ( sono diverse )
e poi
http://dmoz.org/Computers/Internet/Searching/Search_Engines/Robots/
Il primo URL che hai indicato presenta le stesse caratteristiche di quello indicato da me nel primo post.
Il secondo, la versione della stessa pagina nella directory di Google è invece correttamente indicizzata dal motore di ricerca. Ma senza cache.
Le sottodirectory di http://dmoz.org/Computers/Internet/Searching/Directories/ non vengono indicizzate da Google, ma la ragione pare diversa.
Facendo infatti una ricerca dell'URL di una sottodirectory, Google mostra il classico messaggio "If the URL is valid, try visiting that web page [...]", cosa che invece non avviene per l'URL segnalato nel primo post.
Riassumendo, le uniche pagine che Google non ha indicizzato e delle quali non mostra nemmeno l'invito alla visita sono quelle che corrispondono ad una directory chiamata robots.txt.
Facendo una ricerca su Google, si nota che il motore non possiede in archivio nessun documento il cui URL termina con una directory di nome robots.txt.
Inoltre, la mancanza dell'invito alla visita non equivale ad una penalizzazione ma a volte è indice che l'accesso al documento è inibito da un comando Disallow nel robots.txt.
Ritengo pertanto che l'ipotesi da fare sia quella che esiste una motivazione tecnica per la quale Google non può o non vuole indicizzare i documenti i cui URL terminano con una directory chiamata robots.txt
Questa teoria può essere provata o confutata facendo un test specifico.
Le sottodirectory di
http://dmoz.org/Computers/Internet/Searching/Directories/ sono invece un animale del tutto differente e andrebbero studiate a parte.
-
@LowLevel said:
Il primo URL che hai indicato presenta le stesse caratteristiche di quello indicato da me nel primo post.
Il secondo, la versione della stessa pagina nella directory di Google è invece correttamente indicizzata dal motore di ricerca. Ma senza cache.
Le sottodirectory di http://dmoz.org/Computers/Internet/Searching/Directories/ non vengono indicizzate da Google, ma la ragione pare diversa.
Facendo infatti una ricerca dell'URL di una sottodirectory, Google mostra il classico messaggio "If the URL is valid, try visiting that web page [...]", cosa che invece non avviene per l'URL segnalato nel primo post.
Riassumendo, le uniche pagine che Google non ha indicizzato e delle quali non mostra nemmeno l'invito alla visita sono quelle che corrispondono ad una directory chiamata robots.txt.
Facendo una ricerca su Google, si nota che il motore non possiede in archivio nessun documento il cui URL termina con una directory di nome robots.txt.
Inoltre, la mancanza dell'invito alla visita non equivale ad una penalizzazione ma a volte è indice che l'accesso al documento è inibito da un comando Disallow nel robots.txt.
Ritengo pertanto che l'ipotesi da fare sia quella che esiste una motivazione tecnica per la quale Google non può o non vuole indicizzare i documenti i cui URL terminano con una directory chiamata robots.txt
Questa teoria può essere provata o confutata facendo un test specifico.
Intanto un grazie per come hai analizzato gli URL e per come hai esposto le tue considerazioni, personalmente sto imparando molto seguendo i tuoi ragionamenti, stavolta ho imparato che si deve andare più a fondo nelle cose e non fermarsi alle prime, sommarie, apparenze.
Volevo poi chiederti come potremmo sviluppare un test per verificare la tua teoria.
@LowLevel said:
Le sottodirectory di
http://dmoz.org/Computers/Internet/Searching/Directories/ sono invece un animale del tutto differente e andrebbero studiate a parte.Hai qualche già qualche idea in proposito ?
-
@LowLevel said:
Esistono caratteristiche di una pagina che inducono i motori di ricerca a bannarle.
[url=http://dmoz.org/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/]Questa pagina di DMOZ non è mai stata indicizzata da Google. Si noti che le altre pagine dello stesso livello sono invece presenti nel database.
E Google si rifiuta persino di indicizzare [url=http://directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/]la propria pagina nella sua directory, corrispondente a quella di DMOZ.
Domanda: perché?
Penso che dei test e delle ricerche su DMOZ per individuare pagine simili possano permettere di individuare una regola applicata dal motore di ricerca.
Aggiunto: io ho un paio di idee, la prima basata sui contenuti dell'URL e la seconda sui contenuti della pagina. Ma prima vorrei sentire il parere degli altri.
ipotesi: e se fosse che google trovando un robots.txt consideri immediatamente la dir la docroot di un altro sito? sarebbe cioe' l'inizio del filtro antiduplicazione: se intanto trovo un robots, e' sicuramente di un altro sito, quindi questo e' un duplicato.
plausibile?