• User Newbie

    Fenomeno tag excess, cosa fare in questi casi?

    Ciao a Tutti,

    Sto gestendo un portale verticale, partito da più di un anno, che offre la possibilità a freelance informatici di inserire una scheda descrittiva di presentazione, competenze, portfolio e servizi offerti.

    Ogni freelance pubblica un annuncio composto essenzialmente di Titolo + Descrizione

    Il portale è molto ben fatto sia fa un punto di vista grafico che di codice in ottia SEO:

    1. URL rewring
    2. Title e descriprion personalizzata (es. title )
    3. Tag H1 etc..
    4. table less
      ..

    I motori hanno indicizzato decine di migliaia id pagine ma il traffico di provenienza da google è scarso perchè il posizionamento delle pagine è scarso. Credo sia dovuto alla pensalizzazione tag Excess.

    Ogni prefessionista seleziona uno o più ambiti di specializzazione (es. programmatore PHP, programmatore .NET, grafico web, sistemista windows, sistemista linux, flash developer, sistemista MAC etc..) poi seleziona i comuni dove offre il proprio servizio (in genere vengono selezionati 5 comuni, molti programmatori freelance invce sono soliti selezionare tutti i comuni)

    Quando un utente consulta il sito può filtrare i freelance a livello geografico e di competenze.

    Facendo in modo che un freelance quando inserisce il proprio annuncio nel sito può scegliere più località (es. puoi selezionare tutti i comuni delle province di Genova e di La Spezia) e anche più competenze (es. si può qualificare contemporaneamente sia come programmatore java che come programmaotore php) si generano moltissime pagine di elenco che hanno lo stesso contenuto.

    Anche per ricerche non competitive (es. programmatore java lerici), dove ho una apposita pagina di listing che mi elenca titti i programmatori java del comune di Lerici, le pagine non compaiono nelle prime tre pagine dei motori.

    Questo credo sia dovuto al fatto che gli stessi 3 profili compaiono anche nei comuni d: Sarzana, Lerici, Arcola, Ortonovo, Santo Stefano di Magra) e quindi abbiamo più pagine che sono praticamente uguali come contenuti, nonostate il vari Tag Title siano stati ottimizzati in modo differente (programmatore java lerici, programmatore java sarzana, programmatore arcola, etc..)
    Questo fenomeno

    Il problema quindi credo sia dovuto a pagine con contenuto duplicato, non fatte con lo scopo di avere più pagine indicizzate nei motori, ma proprio per una esigenza di offrire un servizio utile agli utenti che possono in questo modo "taggare" il loro annunci con più province e comuni e con più qualifiche (programmaore java, .php, javascript, etc..)

    Devo dare la possibilità agli utenti del sito di navigare filtrando a loro piacere i contenuti sia ai freelance di inserire il loro profilo associandolo a più località geografiche e associandolo a più competenze.
    Questo fa si che avrò necessariamente molte pagine duplicate.

    Avete mai riscontrato queste problematiche e cosa suggerite di fare per migliorare il posizionamento?

    Grazie,

    Mauro


  • Moderatore

    Ciao mauro848 e benvenuto sul forum!

    Hai spiegato il problema con grande dettaglio.
    Se veramente sei stato colpito da "tag excess", allora devi lavorare sulla diminuzione delle pagine di questa tiplogia o sulla loro differenziazione. Ovviamente questo deve poter convivere con l'usabilità.

    Il consiglio che mi sento di darti è di modificare l'architettura del sito: ha veramente senso creare un elenco dei programmatori Java di Lerici? Un programmatore .php residente a Santo Stefano Magra rifiuterà un lavoro freelance ad Ortonovo?

    In un campo come le consulenze informatiche credo che questo livello di precisione sia sostanzialmente inutile sia per chi cerca lavoro che per chi lo propone: la divisione in province è sufficiente. Per come immagino il problema è proprio questo dettaglio ad essere percepito dai tuoi utenti come eccessivo e a generare di conseguenza pagine uguali per tutti i comuni della provincia di La Spezia.

    Credo che un conseguente taglio dei contenuti duplicati sia sufficiente a ridimensionare il problema. L'implementazione dettagliata delle modifiche da effettuare è ovviamente un'operazione personalizzata sul tuo dominio sulla quale è difficile pronunciarsi a priori: valuta comunque se ti convenga (a livello di usabilità) eliminare queste pagine identiche o bloccarne soltanto la memorizzazione da parte dei motori di ricerca.

    Spero che il mio contributo ti sia in qualche modo utile e che le mie conoscenze (sia geografiche che sul freelance informatico) abbiano portato a conclusioni chiare, anche se ovviamente criticabili.

    Resto a disposizione della discussione e, per il momento, ti auguro buon lavoro.


  • User Attivo

    Ma se bloccassi l'indicizzazione dei tag?


  • User Newbie

    @LaBussola said:

    Ciao mauro848 e benvenuto sul forum!
    Credo che un conseguente taglio dei contenuti duplicati sia sufficiente a ridimensionare il problema. L'implementazione dettagliata delle modifiche da effettuare è ovviamente un'operazione personalizzata sul tuo dominio sulla quale è difficile pronunciarsi a priori: valuta comunque se ti convenga (a livello di usabilità) eliminare queste pagine identiche o bloccarne soltanto la memorizzazione da parte dei motori di ricerca.

    Grazie per i tuoi suggerimenti!

    In merito a questi ti chiedo. Ipotizzando che opti per i contenuti duplicati in quanto il sito risulta più utile agli utenti, ed ipotizzando che tutti i contenuti duplicati siano contenuti all'interno di determinate cartelle, es.:

    programmatore-php/
    grafico/
    sistemista/
    etc..

    Consigli si mettere all'interno di tutti i file contenuti nelle suddette cartelle l'attributo noindex oppure suggerisci di inserire direttamente all'interno del file robots.txt l'istruzione Disallow: /programmatore-php, etc..

    Una volta effettuata questa modifica quanto tempo occorre affinchè google si accorga del cambiamento, esca dalla penalizzazione, e premi il sito migliorando il posizionamento naturale delle pagine indicizzate?

    Mauro


  • Moderatore

    Dipende un po' dalla struttura.

    Bloccare da robots.txt migliora i percorsi di crawling (miglior indicizzazione, visite alle pagine più frequenti) ma crea dei "buchi" nel passaggio del PageRank.
    Il noindex evita i "buchi" ma fa girare il bot di Google quasi a vuoto (di quelle pagine verranno considerati solo i link in uscita).

    Se sei già soddisfatto del numero di pagine presenti nell'indice di Google, potrei provare a consigliarti il noindex.

    I cambiamenti avvengono con velocità differenti: attraverso robots.txt le pagine verranno eliminate più velocemente, con l'altra opzione dovrai attendere che la singola pagina venga acceduta (in un caso tipico potrebbero volerci 3 settimane per vedere il processo in fase finale).
    Entrambe le procedure di rimozione possono essere molto velocizzate attraverso gli Strumenti per Webmaster di Google ( Configurazione sito -> Accesso crawler -> Rimuovi URL -> Nuova richiesta di rimozione).


  • User Attivo

    Io risolverei in un altro modo per eliminare qualsiasi duplicazione:

    1. crei pagine generiche specifiche per ogni tipo di attività nelle quali puoi inserire un filtro per la ricerca. Per esempio una pagina in cui si parla dello sviluppo web in php, una in cui si parla di quello asp, una in cui parli di quello javascript, una in cui parli di grafica, una sistemista unix, ecc
    2. metti il noindex in tutte le pagine risultanti dalle ricerche
    3. la scheda di un professionista la rendi raggiungibile da un'unica url, da qualunque parte del sito venga richiamata

    In questo caso ti trovi ad indicizzare solo le pagine generiche delle varie attività e le pagine descrittive di ogni singolo professionista. Le pagine con i contenuti duplicati vengono proprio eliminate dagli indici, un po' come fai su WP con allinoneseopack quando rendi noindex le pagine di categoria.


  • User Newbie

    @LaBussola said:

    Bloccare da robots.txt migliora i percorsi di crawling (miglior indicizzazione, visite alle pagine più frequenti) ma crea dei "buchi" nel passaggio del PageRank.

    Il noindex evita i "buchi" ma fa girare il bot di Google quasi a vuoto (di quelle pagine verranno considerati solo i link in uscita).

    Ciao La Bussola ancora 3 domandine per fare più chiarezza sull'argomento:

    Cosa intendi con il fatto che il disallow crea buchi nel passaggio del pagerank?

    Se io aggiungo il Disallow ad una pagina che ha già pagerank, questa continua a passare page rank ai link contenuti?

    Inoltre se questa pagina ha dei link esterni che la puntano, continua a ricevere page rank e a passarlo oppure non riceve page rank in quanto c'è il disallow che evita allo spider di entrare?

    Mauro


  • User Newbie

    @LaBussola said:

    Ciao mauro848 e benvenuto sul forum!
    Il consiglio che mi sento di darti è di modificare l'architettura del sito: ha veramente senso creare un elenco dei programmatori Java di Lerici? Un programmatore .php residente a Santo Stefano Magra rifiuterà un lavoro freelance ad Ortonovo?

    La Bussola,
    in riferimento al quanto suggerito da te e da tecnology dico purtroppo la struttura del sito ed il modello di servizio offerto è stato concepito in un certo modo e non può essere stravolto.

    Immagino che di portali che abbiamo la stessa struttura di navigazione ce ne siano moltissimi.
    Magari anche in settori dove la navigazione per comune è di fondamentale importanza.

    Da una parte le pagine con gerarchia geografica (regioni, province, comuni) e dall'altra le qualifiche (programmatore php, programmatore java, grafico, sistemista linux, sistemista cisco, etc..)

    L'obiettivo del posizionamento sono stringhe come:
    sistemista linux rimini
    sistemista cisco piemonte
    programmatore java melzo

    Come ben saprete più la ricerca è dettagliata a livello geografico (per comuni) più il traffico che entra è di qualità.

    Se metto un disallow sui comuni vado a penalizzare potenziali ricerche di qualità, inoltro lo stesso problema rimarrebbe comunque per le provincie.

    A rendere ancora più critica la cosa è appunto l'aspetto dei freelance che sono disposti a lavorare a distanza (soprattutto programmatori) questi naturalmente quando inseriscono il loro profilo selezionano tutta Italia e quindi il loro link compare in migliaia di pagine: es. un programmatore java apparirà nelle pagine di elenco di tutte le regioni, di tutte le province e di tutti i comuni circa 8.000)

    La scheda del profilo di questi professionisti ha un URL univoco, quindi non ci sono problemi di duplicazione.

    Il problema è dato dalle pagine di elenco.
    Voi che fareste ipotizzando che la struttura del sito debba rimanere questa?

    Mauro


  • Super User

    Quoto La Bussola, non ha senso una divisione per comuni, nessuno cerca "sistemista freelance canicattì".
    Prova a fare una ricerca del genere su Google e vedi se nei primi 10 risultati c'è un solo risultato pertinente.

    @mauro848 said:

    Voi che fareste ipotizzando che la struttura del sito debba rimanere questa?

    Se DEVE rimanere così, nulla.
    E' inutile sprecare il tempo in quisquilie quando non ci si può occupare delle questioni fondamentali.


  • Moderatore

    Prima rispondo alle 3 domande:

    Cosa intendi con il fatto che il disallow crea buchi nel passaggio del pagerank?

    1. Il disallow crea "buchi" nel passaggio del PageRank perché questo valore fluisce tra le pagine attraverso i link: A linka B, quindi il valore del PR di A contribuisce, sommato a tutti gli altri link in ingresso, al calcolo del PR di B. Se Google non può accedere alla pagina A, non può sapere quali pagine essa linki; di conseguenza non sa dove far passare il valore che viene perso. Da qui il termine "buco" per indicare una url nella quale il PageRank entra ma non esce.

    Se io aggiungo il Disallow ad una pagina che ha già pagerank, questa continua a passare page rank ai link contenuti?2. No, se blocchi a Google l'accesso ad una pagina, il motore di ricerca non la considera più: non fa calcoli basandosi su quello che conosceva prima del disallow.

    Inoltre se questa pagina ha dei link esterni che la puntano, continua a ricevere page rank e a passarlo oppure non riceve page rank in quanto c'è il disallow che evita allo spider di entrare?3. Continua a ricevere PageRank. Ma, come già detto, non lo passa a nessuno.

    Ci tengo a precisare che in tutta la discussione ho parlato solo di PR, ma in realtà la stessa cosa vale per tutte le valutazioni fatte da Google partendo dai link in ingresso (analisi dell'anchor text, calcoli sull'autorità della pagina, ecc).

    Per quanto riguarda un'ipotesi di struttura, credo che il compromesso ideale possa essere fermare il grado di profondità alle provincie.
    Dalle provincie, eventualmente, si potrà accedere alla divisioni per comuni, su pagine bloccate da robots.txt.

    In questa maniera un'eventuale ricerca "programmatore java melzo" potrebbe restituire la pagina sui programmatori java della provincia di Milano, nella quale si può trovare anche un link alla scheda del comune bloccata via robots.txt.

    Se comunque trovi altri portali che secondo te hanno esigenze simili, possiamo partire da un'analisi di questi e vedere come adattarla al tuo caso.

    Purtroppo Google ha a che fare con risorse limitate e deve selezionare le pagine migliori da tutta Internet: è un vincolo con il quale anche i webmaster si devono scontrare per non veder degenerare lo spam.

    Spero che la discussione continui sui binari della sincerità e del rispetto reciproco, visto che questo tema può interessare tanti proprietari di portali di medie dimensioni. Ogni proposta che rispetti questi canoni è benvenuta!