- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- Siti penalizzati in google, strana scoperta
-
Siti penalizzati in google, strana scoperta
Due directory di un mio sito web sono state estromesse dalla cache di google alla fine di aprile di quest'anno.
Ora ho fatto una scoperta davvero strana.
Con il comando "site:" succede questo:-
site:www.miosito.it/directory_sparita ---> nessuna pagina in cache
-
site:www.miosito.it%c0/directory_sparita ---> tutte le pagine tornano
Aggiungo che le altre directory del mio sito si comportano normalmente, sono nella cache di google e con il normale comando site: google mostra tutte le pagine in esse presenti.
Consiglio a chi è nella mia stessa condizione (sito con soltanto alcune directory senza PR e non in cache) di provare ad utilizzare il comando site come mostrato nel caso 2, non si sa mai...
C'è qualcuno che conosce la causa di questa strana anomalia?
Dipende da Google o per caso dal server dove si trova il mio sito che con qualche stratagemma riesce ad inpedire a Googlebot di vedere correttamente solo certe cartelle (lo sò è un sospetto strano, ma ho delle buone ragioni per considerarlo).Franco
-
-
come prima cosa ti do il benvenuto!
purtroppo non ho mai visto quel comando...da dove l'hai tirato fuori?
-
Ciao **frapolid **benvenuto nel forum
Puoi postare i veri link alle serp di google a cui fai riferimento?
-
@claudioweb said:
Ciao **frapolid **benvenuto nel forum
Puoi postare i veri link alle serp di google a cui fai riferimento?
Per postare i veri link attendevo solo il permesso del moderatore, quindi eccoli:
-
come dovrebbe essere: clic qui --> Pagine in cache zero
equivalente alla ricerca su google.it site:www.romanoonline.it/web -
e invece così:: clic qui --> Le pagine in cache tornano con %c0
equivalente alla ricerca su google.it site:www.romanoonline.it%c0/web
Vi prego datemi una mano a scoprire questo problema, sono 4 mesi che sto impazzendo sul perché tali pagine sono sparite da google.
Aggiungo che gli altri motori di ricerca indicizzano regolarmente le 2 directory escluse da google.
Grazie a tutti, Franco
-
-
questo %c0 per me è proprio un mistero! provo a fare qualche ricerca...
-
è la prima volta che vedo una cosa simile...
Il bello che i link in serp sono esatti, mentre gli url visualizzati no in quanto aggiungono quel carattere... :():
Non so che dirti, se non che potrebbe trattarsi di un bug di Google e che potresti provare a segnalare...
Aspettiamo l'opinione di qualche altro....
-
...incredibile. Magari Frapolid ha usato qualche metodo particolare per la creazione del sito.
-
Anche se il sito è in asp, non è dinamico nel senso che le singole pagine esistono realmente e non si formano al momento della richiesta.
Personalmente non ho inoltre utilizzato alcun tipo di mod_rewrite, fra l'altro il server è win 2003 e non credo sia possibile farlo.
Ho un'altra decina di siti costruiti alla stessa identica maniera e non ho mai incontrato questo o altri problemi con google.
Naturalmente mesi fa ho anche creato la sitemap nella speranza che google si accorgesse di quelle pagine, ma nulla da fare.
Fra l'altro nel report della sitemap di romanoonline ho una serie di "Unreachable URLs" che si riferiscono però a pagine del sito che google ha regolarmente in cache (negli altri siti dove ho la sitemap non vengono rilevati errori di questo tipo e non so se questo può essere un indizio).
Le pagine in oggetto esistono da diversi anni e non hanno mai dato problemi nei motori di ricerca prima di quel fatidico giorno di aprile in cui sono improvvisamente scomparse dalla cache di google (gli altri motori continuano a vederle regolarmente).
Una domanda per esperti, se io fossi l'hosting che ospita un sito (con server win 2003) potrei attuare un trucchetto del tipo in questione per evitare che lo spider di google (solo lui) indicizzi solo certe sezioni di quel sito?
Grazie e scusatemi per la lunghezza del post ma sto proprio uscendo pazzo, a google ho scritto più volte e continuo a farlo ma finora solo risposte del tipo che hanno tanto da fare e non possono far fronte alle singole richieste.Franco
-
@frapolid said:
Una domanda per esperti, se io fossi l'hosting che ospita un sito (con server win 2003) potrei attuare un trucchetto del tipo in questione per evitare che lo spider di google (solo lui) indicizzi solo certe sezioni di quel sito?
Non sono esperto ma provo a risponderti ugualmente (magari faccio una figuraccia )
Questa funzione è possibile usando il file robots.txt, sul forum troverai molti post in merito
-
@Morgoth said:
Non sono esperto ma provo a risponderti ugualmente (amgari faccio una figuraccia )
Questa funzione è possibile usando il file robots.txt, sul forum troverai molti post in merito
Grazie davvero Morgoth, ma il robots.txt lo gestisco io e non l'hosting.
A questo proposito, per farvi capire a quale stato di disperazione sono arrivato, pensate che circa 15 giorni fa mi sono deciso ad escludere al solo spider di google circa 3.000 delle 3.200 pagine di cui è composto il sito.
Questo nel dubbio che google ritenesse troppo grande romanoonline ed avesse escluso le due sezioni per questo motivo.
Naturalmente nelle 200 pagine ora accessibili alo spider sono comprese anche quelle delle due directory scomparse.
-
@frapolid said:
Naturalmente mesi fa ho anche creato la sitemap nella speranza che google si accorgesse di quelle pagine, ma nulla da fare.
Sicuro che l'errore non sia prorpio negli url inseriti nella sitemap? Magari qualche carattere strano di troppo aggiunto senza accorgersi...
-
@claudioweb said:
Sicuro che l'errore non sia prorpio negli url inseriti nella sitemap? Magari qualche carattere strano di troppo aggiunto senza accorgersi...
Assolutamente sicuro, eccola!
Qualche lettore ha amici qualificati per rispondere alla mia precedente domanda:
Se io fossi l'hosting che ospita un sito (con server win 2003) potrei attuare un trucchetto del tipo in questione per evitare che lo spider di google (solo lui) indicizzi solo certe sezioni di quel sito?Magari però sono per l'ennesima volta fuori strada per cui chi ha altre idee diverse posti per favore. :doppio:
-
@frapolid said:
Se io fossi l'hosting che ospita un sito (con server win 2003) potrei attuare un trucchetto del tipo in questione per evitare che lo spider di google (solo lui) indicizzi solo certe sezioni di quel sito?
senza che tu te ne possa accorgere? non mi viene in mente nulla...
tornando a quel %c0... boh, ho trovato che in HEX equivale a "é" in francese... ma dubito questo possa aiutare
-
http://en.wikipedia.org/wiki/C0_and_C1_control_codes (posto e basta, io non ci capisco una minghia :D)
-
@must said:
http://en.wikipedia.org/wiki/C0_and_C1_control_codes (posto e basta, io non ci capisco una minghia :D)
Neanche io granché, tuttavia per sicurezza ho controllato l'encoding delle pagine sparite ed è lo stesso di quelle "sane".
Il file global.asa del mio sito invece è piuttosto complesso (il sito ha un forum e soprattutto una chat il cui inserimento ha richiesto molto codice in quel file), può essere lì la causa?
Va tenuto conto però che gli altri motori non hanno problemi e che lo stesso google sembra veder bene la maggior parte del sito.
-
boh, io comunque proverei direttamente a scrivere a loro.
-
@frapolid said:
Una domanda per esperti, se io fossi l'hosting che ospita un sito (con server win 2003) potrei attuare un trucchetto del tipo in questione per evitare che lo spider di google (solo lui) indicizzi solo certe sezioni di quel sito?
ciao
non so su win2k3 / IIS
ma su apache direttamente nell'httpd.conf puoi specificare parametri particolari per le directory
per esempio, condizionalmente all'user agent, puoi fare un redirect verso la home in modo che la directory non esista per google
-
Ok a fare tutte le ipotesi ma io insisto sul bug di Google...
Esempio pagina:
http://www.google.it/search?hl=it&q=www.romanoonline.it%25c0%2Fweb%2Fmusica%2F883.asp+&btnG=Cerca&meta=L'url visualizzato è:
www.romanoonline.it%c0/web/musica/883.asp
Il link effettivo è invece punta all'indirizzo esatto
www.romanoonline.it/web/musica/883.aspLa copia cache linkata è questa non funzionante:
http://64.233.183.104/search?q=cache:lcdD7d6sfC8J:www.romanoonline.it%25c0/web/musica/883.asp+www.romanoonline.it%25c0/web/musica/883.asp&hl=it&gl=it&ct=clnk&cd=1
MA se si leva quel carattere di troppo ci accorgiamo che ce ne un'altra funzionante:
http://64.233.183.104/search?hl=it&q=cache%3AlcdD7d6sfC8J%3Awww.romanoonline.it%2Fweb%2Fmusica%2F883.asp+www.romanoonline.it%25c0%2Fweb%2Fmusica%2F883.asp&btnG=Cerca&lr=Insomma penso proprio che tutto sto casino non sia colpa tua :bho:
Sicuramente ci sarà qualcosa che l'avrà scatenato, ma credo che comunque sia un difetto di Google.
-
tendo anche io a considerare il tutto un problema di google. ma anche se non lo fosse, segnalare a loro il problema potrebbe agevolare la soluzione.
a chi dei due spetta risolverlo
-
Rispondo agli ultimi interventi:
-
ho provato a scrivere a google una decina di volte utilizzando sia il modulo accessibile dalla sitemap , sia gli indirizzi mail [EMAIL="[email protected]"][email protected][/EMAIL] che [EMAIL="[email protected]"][email protected][/EMAIL].
Ho inoltre postato nei gruppi di google.
Fra l'altro ricordo proprio fra le mie domande quella che accennava must: "è un mio problema o un vostro problema?".
Le poche volte che hanno risposto ecco il testo più o meno: "Vai a dare un'occhiata alle nostre linee guida che magari la risposta la trovi lì anche se non abbiamo letto la tua domanda perché siamo troppo occupati in questo periodo".
Chi è in grado di consigliarmi indirizzi mail o strade alternative per farsi ascoltare è ben accetto. -
Chi ritiene che il file global.asa possa determinare un tale casino può riceverlo via mail se desidera studiarlo
Grazie davvero a questo forum che si sta dimostrando il più sensibile nei miei confronti, continuate così per favore è un vero mistero ed è assurdo dover rinunciare a capirci qualcosa.
-