• Super User

    Sito scomparso, ma non so il perché

    Ciao all, ho messo online un sito web di un cliente, ma pur avendo applicate la base del seo (campo title, campo description, url parlanti per tutte le nuove pagine web) e cose del genere il sito sembra aver subito una penalizzazione di qualche tipo. Ma non so' il perché. E' sparito da google.

    Da webmastertools ho notato che google mi segnala una marea di errori pagine non trovate, ma tantissimi +7500, pero' non è vero, perché se io clicco sui siti che google mi dice che non trova la pagina viene vista correttamente. E' come se fosse successo qualche cosa che non capisco ed il sito è stato penalizzato o bannato. Non tutti sono attivi, ma sui primi 1000 errori, 900 erano pagine esistenti.

    Ho inviato la sitemap da webmaster tools e google l'ha presa in carico, ma non l'ha ancora indicizzata. In media quanto tempo ci vuole ? Gli ho detto di testarla e mi ha risposto che non ci sono problemi sulla sitemap.

    Come faccio a creare un po' di link per far si che google lo riprenda in considerazione ?

    Chi mi aiuta ?

    M.

    Dominio:
    industriale.it
    Motori:
    Google
    Prima indicizzazione o attività:
    non l'ho fatta io
    Cambiamenti effettuati:
    Passato da Joomla a Drupal con cambio delle pagine.
    Eventi legati ai link:
    Cambio di url, ma quelli vecchi ancora attivi
    Sito realizzato con:
    Drupal 7
    Come ho aumentato la popolarità:
    nessun modo
    Chiavi:
    macchine utensili, vendita macchine utensili
    Sitemaps:
    Si


  • User Attivo

    Ciao ziobudda, ma quindi tu non hai gestito per nulla il passaggio delle Url da Joomla a Drupal ? redirect 301 etc ?

    Il sito è indicizzato, site mi segnala 45500 pagine, ma effettivamente cercando il dominio non esce e quindi un problema pare esserci.

    Una cosa strana che ho visto è che Google vede pagine come queste:
    industriale.it/index.php?option=com_content&task=category&sectionid=1&id=1&Itemid=19&limit=5&limitstart=0&lang=en
    industriale.it/index.php?option=com_content&task=category&sectionid=1&id=1&Itemid=19&limit=10&limitstart=0&lang=en

    che se non sbaglio sono le vecchie url di Joomla e che però rispondono 200 (invece di 404) richiamando probabilmente l'index di default di drupal

    Se ci sono stati molti 404 tutti in una volta e molte url vecchie che continuano a rispondere (creando quindi duplicati) probabilmente il problema sta qui.


  • Super User

    Ciao, intanto grazie per aver risposto.

    Quel link (index.php?option=...) me li sono persi perché non conosco joomla, , ma non sono così tanti.
    Il vecchio programmatore aveva creato tutti url parlanti del tipo:

    w w w. industriale. it/en/MacchineUtensili
    NuoveUsate/Pantografi-nuove-usate-usati.html

    che per google è segnato come errore, ma che in verità funziona correttamente. In questo caso :

    Checked link: w w w .industriale. it/en/MacchineUtensili
    NuoveUsate/Pantografi-nuove-usate-usati.html

    Type of redirect: 301 Moved Permanently
    Redirected to: w w w .industriale. it/en/cerca?field_mach
    _status_tid=All&cat=300

    E secondo me è corretto fatto così.

    Quelli da sistemare (w w w.industriale. it/en/MacchineUtensiliNuoveUsate/164553/I-nostri-inserzionisti/FERRARI-CARENA-S.n.c.html) li ho settati con un 307 su un pagina di arrivo così da non avere un 404:

    Checked link: w w w industriale it/en/MacchineUtensiliNuoveUsate/164553/I-nostri-inserzionisti/FERRARI-C
    ARENA-S.n.c.html

    Type of redirect: 307
    Redirected to: w w w industriale it/en/vecchio-url-non-pi%C3%B9-usabile

    Poi ci sono le vecchie pagine che comunque continuano ad esistere (stesso url, ma contenuto molto ridotto) ma con un testo che dice che non sono più valide:

    w w w industriale it/MacchineUtensiliNuoveUsate/172618/Aspi/Svolgitore.html

    Eppure tutti e tre questi casi Google me li segna come NOT FOUND.

    Si è mosso anche qualche a livello di sitemap:

    4,735 URLs submitted
    4 URLs indexed

    Ieri gli indicizzati erano 0.

    M.


  • User Attivo

    @ziobudda said:

    Poi ci sono le vecchie pagine che comunque continuano ad esistere (stesso url, ma contenuto molto ridotto) ma con un testo che dice che non sono più valide:

    Correggimi se sbaglio ma queste sono pagine orfane (non più linkate). In questo caso secondo me ti conveniva gestirle diversamente e redirezionarle con 301

    Se, oltre ad essere orfane, sono tante con poco contenuto possono essere un problema (vedi panda)

    Una curiosità:
    Google con site: restituisce 45000 pagine indicizzate su questo sito (lasciamo stare che è comunque un dato approssimativo)
    Da un test veloce una sessione di spidering ne restituisce 21000 circa
    Nella sitemap ne metti 4700

    Come si spiegano queste discrepanze numeriche ?


  • Admin

    Di sicuro inizierei a togliere il crawl delay dal robots.txt

    Poi ho notato che hai tantissime pagine linkate dal corpo centrale che restituiscono delle ricerche dove hai usato un canonical alla pagina search.
    Cosa rappresentano quelle URL? Ma soprattutto cosa rappresentavano prima del passaggio?

    Hai impostato un filtro che ti segnali eventuali 404 da Analytics?
    Hai cambiato anche macchina?

    Hai lanciato una simulazione di spidering del nuovo sito per trovare eventuali errori?
    Hai controllato quali delle vecchie URL ricevevano buoni backlink?

    Oppure ti sei limitato a fare il passaggio e impostare solo i 301 che sei riuscito a fare così ad occhio?


  • Super User

    Ciao, si, queste sono pagina non più linkate, ma perché dovevo gestirle con un 301 ?
    Il contenuto è rimasto uguale (è stato tolto un tag table contenente un form per il contatto).

    Non saprei perché ne rilevi 21000 circa, non ci sono 21000 contenuti linkati sul sito. Mi dici come hai fatto a trovare questo numero ?

    Al massimo ce ne sarebbero 9400 se si considerano le due lingue del sito, ma gli url sono diversi (hanno un en/ davanti) e le label interne al sito sono anche essere diverse.
    Ad esempio:
    IT: w w w .industriale. it/macchine/affilatrici/sharpening-machines-dussnang-fluck-uws-1
    EN: w w w .industriale. it/en/macchine/affilatrici/sharpening-machines-dussnang-fluck-uws-1

    IT ed EN hanno label differente, ma il testo associato alle label è (ovviamente) lo stesso per quei campi come marca, modello, descrizione, prezzo, venditore.

    M.


  • Super User

    @Juanin said:

    Di sicuro inizierei a togliere il crawl delay dal robots.txt

    Fatto.

    @Juanin said:

    Poi ho notato che hai tantissime pagine linkate dal corpo centrale che restituiscono delle ricerche dove hai usato un canonical alla pagina search.
    Cosa rappresentano quelle URL? Ma soprattutto cosa rappresentavano prima del passaggio?

    Non ho capito la domanda. Se intendi il "cerca?cat=262&field_mach_status_tid=All" sono le pagine delle categorie.
    Devo togliere il canonical per quelle pagina vero ? Molti siti indicizzati che vedo hanno le categorie con le informazioni tramite parametri dell'url quindi non dovrebbe essere così importante l'avere un url parlante per forza.

    @Juanin said:

    Hai impostato un filtro che ti segnali eventuali 404 da Analytics?

    Ops. no

    @Juanin said:

    Hai cambiato anche macchina?

    Si, ed anche IP

    @Juanin said:

    Hai lanciato una simulazione di spidering del nuovo sito per trovare eventuali errori?

    No, non ho trovato dove è

    @Juanin said:

    Hai controllato quali delle vecchie URL ricevevano buoni backlink?

    Erano e sono annunci di vendita. Tutti e nessuno ricevono dei buoni backlink.

    @Juanin said:

    Oppure ti sei limitato a fare il passaggio e impostare solo i 301 che sei riuscito a fare così ad occhio?

    No l'ho fatto ad occhio. Gli url degli annunci sono rimasti così da non perderli, pero' sono stati tolti dalla sitemap perchè non più validi.
    Gli ulr delle categorie sono stati trasferiti con un 301 alla nuova pagina.

    [/quote]

    Grazie.

    M.


  • Super User

    Scusate, ma come faccio a creare un filtro per i 404 ?
    Ho cercato su internet perché mi ricordavo di un "_gaq.push(['_trackPageview']);", ma io nel mio codice di Google Analytics ho

    ga('create', 'UA-XXXXXXX-X', 'industriale.it');
    ga('send', 'pageview');

    Come lo creo questo filtro ?

    M.


  • Super User

    Aggiungo anche che se devo impostare un 301 per i vecchi url o devo farli inserire nella sitemap, non ho problema a farlo.
    Basta che il sito torni in serp perché proprio non capisco cosa sia successo. E' come se avesse preso un NOINDEX per qualche strano motivo. Pero' se avesse preso un NOINDEX avrebbe tolto tutto il sito, mentre alcune url ancora ci sono.
    Bo'.

    M.


  • Admin

    Il pezzo di codice analytics per tracciare i 404 lo fai con un evento.

    _gaq.push(['_trackEvent','Error','404','page: '+document.location.pathname+document.location.search+' ref: '+document.referrer]);
    

    Per convertirlo al codice Universal Analytics basta seguire la documentazione qui:
    https://developers.google.com/analytics/devguides/collection/analyticsjs/field-reference#eventCategory

    Per quanto riguarda il problema di **canonizzazione **devi controllare attentamente come era prima ed agire di conseguenza. Per come hai fatto tu rischi di perdere la fetta più grossa di contenuto che hai e questo potrebbe essere uno dei possibili problemi tra i tanti che ci sono già.

    La fase di migrazione è davvero una cosa delicata e va fatta con tutta l'attenzione possibile.

    Ti consiglio di far fare un giro sul tuo sito a Screaming Frog, Xenu oppure Visual SEO Studio e simile di cui trovi gli eventuali link qui http://liste.giorgiotave.it/tools-seo-sem/.


  • Super User

    Ciao, prima non era stato fatto nessuna cosa a livello seo se non quella di inserire url parlanti e tag keywords, description.

    Ad esempio:

    <title>Saldatrici TRE CI PAC 4 - macchine utensili nuove e usate, usato (d?occasione)</title>
    <meta name="description" content="Saldatrici TRE CI PAC 4 - banca dati con oltre 5000 macchine utensili nuove e usate, usato (d?occasione)" />
    <meta name="keywords" content="Industriale, macchine utensili usate, macchine utensili nuove, macchine utensili d'occasione, EAMTM Italia, fresatrici, torni, presse, rettificatrici, trapani, pantografi, seghetti, cesoie, saldatrici, forni, levigatrici, piallatrisci, smussatrici, curvatrici, smerigliatrici, macchine utensili usate, fresatrici usate, torni usate, presse usate, rettificatrici usate, trapani usate, pantografi usate, seghetti usate, cesoie, usate saldatrici usate, forni usate, levigatrici usate, piallatrisci usate, smussatrici usate, curvatrici usate, smerigliatrici usate, centri di lavoro, centri di lavoro usati" />

    <meta name="robots" content="index, follow" />

    La mia versione (di una macchina) è invece:

    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <link rel="shortlink" href="w w w.industriale it/node/34647" />
    <link rel="shortcut icon" href="w w w.industriale it/misc/favicon.ico" type="image/vnd.microsoft.icon" />
    <link rel="canonical" href="w w w.industriale it/macchine/affilatrici/sharpening-machines-10" />
    <meta name="description" content="Per punte, frese anche elicoidali" />
    <meta content="Affilatrici dussnang-fluck uws-1" about="/macchine/affilatrici/sharpening-machines-10" property="dc:title" />
    <meta about="/macchine/affilatrici/sharpening-machines-10" property="sioc:num_replies" content="0" datatype="xsd:integer" />
    <meta name="generator" content="Drupal 7 (drupal. org)" />
    <title>Sharpening machines dussnang-fluck uws-1 | industriale it</title>

    Ma non capisco perché avrei sbagliato (se ho sbagliato) questa migrazione.

    Qualche programma per mac osx non c'è ?

    M.


  • Super User

    Oh, saro' scemo, ma io non riesco a capire come fare a registrare gli errori 404 usando le Universal Analytics. Mi daresti una mano ? Ho letto quel link, ho cercato su internet, ma non trovo nulla che mi possa indicare come definire l'errore 404.

    M.


  • Super User

    Aggiornamento odierno: il sito è tornato nelle serp, ma ho ancora problemi con la sitemap indicizzata da google, nel senso che non mi sta indicizzando i nuovi url. Non ci sono errori nella sitemap (test su google webmaster tools), ma al momento mi dice che ne ha indicizzati 6 su 4739, e sotto la colonna issue non c'è nulla (solo un trattino). La sitemap l'ha presa oggi 19 Maggio 2013.

    Chi mi aiuta anche in questo ?

    Per riuscire a rientrare in serp (nel caso fossero state le mie operazioni a far si che Google ci ripensasse e non un suo aggiornamento interno che aveva sballato il tutto producendo anche quegli errori non veritieri):
    spedita sitemap (GWT)
    corretto 1000+ errori (non veri, vedi sopra) (GWT)
    inserite alcune pagine (tra cui la home) in Health > Fetch as Google (di GWT)
    Inserito il sito nel mio portfolio con link.
    Inserito il sito su due community di g+

    M.


  • Admin

    Scusa il ritardo, ma sono stato incasinato.

    Per quanto riguarda il 404 è molto semplice. Basta confrontare il vecchio codice al nuovo ed applicare le cose di conseguenza.

    Quello che segue è un possibile modo di tracciare i 404.

    _gaq.push(['_trackEvent','Error','404','page: '+document.location.pathname+document.location.search+' ref: '+document.referrer]);
    

    Quello che segue è come funziona il nuovo modo di tracciare gli eventi:

    
    ga('send', {
      'hitType': 'event',          // Required.
      'eventCategory': 'button',   // Required.
      'eventAction': 'click',      // Required.
      'eventLabel': 'nav buttons',
      'eventValue': 4
    });
    
    

    Quello che segue è il vecchio modo di tracciare gli eventi:

    
    _trackEvent(category, action, opt_label, opt_value, opt_noninteraction)
    
    

    Ora comparando ad uno ad uno i valori credo tu possa capire meglio come funziona.

    Cambiando capitolo invece non ho ancora capito se hai perso posizionamenti oppure semplicemente il tuo problema è di indicizzazione.


  • Super User

    Ciao, il mio problema è (o meglio era perché ora è tornato in serp) l'indicizzazione. Al momento il posizionamento non è stato considerato come lavoro e non lo era neppure prima. L'importante è che il cliente, in questo momento, sia "trovabile" su google. Ovviamente il posizionamento è importantissimo ed infatti settimana prossima andro' a parlare con il cliente per decidere le prossime mosse.

    Per il tracciamento, saro' tordo oggi (e dire che di programmazione ne capisco) ma devo fare una cosa di questo tipo:
    ga('send'), {
    'hitType': 'event', // Required.
    'eventCategory': 'Error', // Required.
    'eventAction': '404', // Required.
    'eventLabel': 'Not found',
    'eventValue': 'page: '+document.location.pathname+document.location.search+' ref: '+document.referrer
    });

    Te lo chiedo perché non capisco come dirgli che voglio loggare l'evento 404.
    Nell'esempio che tu hai postato tu stai loggando tutti i click sui bottoni di invio form.
    E' corretto ? Non capisco pero' il 4 per l'eventValue.

    Ho anche un'altra domanda: secondo voi perché la sitemap non mi viene indicizzata tutta ?
    Ad oggi ci sono 100 url indicizzati su +4700. Sembra che indicizzi solo i nuovi e non tutti.

    Grazie di tutto.

    M.


  • Admin

    Il mio era solo un estratto della documentazione.

    Non guardare i valori all'interno è solo per farti capire il significato di ogni elemento.

    Se fai un site: le url ci sono?