• User Attivo

    Inserimento delle key nell'url

    Solitamente si dice che è di fondamentale importanza usare le key nell'url al fine di un migliore posizionamento nei mdr.
    Alla luce di vecchie discussioni e da ricerche che ho effettuato per controllare i risultati, le key devono essere inserite i modi particolari altrimenti il loro uso per il fine prefissato risulta pressoché vano.

    www.key1key2.it NON serve né per spingere la key1 né per spingere la key2

    Per affermare il contrario bisognerebbe trovare una pagina con la ricerca key1 key2 che non contenga tali termini nella pagina se non nell'url e che non sia nemmeno linkata con tali termini.

    Una key per essere considerata tale nell'url deve essere UNICA tra il www e l'estensione o separata da trattino, o da un punto, da un altra parola.
    Nel resto dell'indirizzo deve essere altresì compresa tra due // o ancora separata da un trattino o da un punto dalle altre parole.

    Le affermazioni di sopra sono vere se google applica alla ricerca generica le stesse condizioni degli operatori inurl ed allinurl.

    L'evidenziazione in grassetto delle key, come sosteneva Low qualche 3d fa, non avrebbe nulla a che fare con l'indizzazione.

    Cosa ne pensate?


  • User Attivo

    Al trattino aggiungo + = &
    Tuttavia non posso che notare una cosa.

    Perché google evidenzierebbe in grassetto una parola che è all'interno di un'altra parola nell'url e non nel testo?
    Sicuramente per aiutare l'utente... ma google non darebbe proprio alcun valore a key interne a parole nell'url?


  • Super User

    @Calogero Dimino said:

    Solitamente si dice che è di fondamentale importanza usare le key nell'url al fine di un migliore posizionamento nei mdr.

    Personalmente ho sempre ritenuto che quel "fondamentale" fosse poco appropriato. E' vero che in diversi motori aiuta un minimo, ma è altrettanto vero che si tratta di uno di quegli elementi che nel corso del tempo ha avuto sempre meno influenza, e la parabola discendente è evidente.

    Tra l'altro ho notato che le analisi su questo elemento fatte da molti SEO si fondano sul'assunto che il motore premi ciò che evidenzia agli utenti, il che non è necessariamente vero.

    Alla luce di vecchie discussioni e da ricerche che ho effettuato per controllare i risultati, le key devono essere inserite i modi particolari altrimenti il loro uso per il fine prefissato risulta pressoché vano.

    Se posso aggiungere una cosa: bisogna distinguere tra ciò che il motore indicizza e ciò che il motore valuta.

    Un termine indicizzato permette alla pagina di essere richiamata dal motore in seguito alla ricerca del termine. Quindi l'indicizzazione influisce direttamente sul recall.

    La valutazione, invece, può essere fatta anche su elementi che non influiscono sul recall. Ad esempio un motore può rifiutarsi di restituire una pagina se il termine cercato è contenuto solo nel meta tag description, tuttavia una volta che la pagina viene inclusa (grazie ad altri fattori) tra quelle da riportare, i termini nel meta tag description possono influire nel calcolo della posizione della pagina. Questo influisce sulla precisione della ricerca.

    Da tutto ciò si può desumere che è errato creare l'assunto "se la pagina non appare tra i risultati allora il motore non valuta la presenza del termine nell'elemento in cui esso appare".

    Le affermazioni di sopra sono vere se google applica alla ricerca generica le stesse condizioni degli operatori inurl ed allinurl.

    Giustissima e necessaria precisazione. 🙂

    Perché google evidenzierebbe in grassetto una parola che è all'interno di un'altra parola nell'url e non nel testo?

    In passato non era così, poi però l'algoritmo che si occupa di evidenziare i termini è cambiato durante un restyling della GUI delle SERP.

    Io ritengo che quelli di Google abbiano semplicemente notato che negli URL esiste una tendenza ad unire i termini più di quanto si faccia nel testo delle pagine. Diciamo che negli URL ha un senso unire mentre nel testo le parole devono rimanere ben distaccate.

    Pertanto gli ingegneri di Google avranno pensato che evidenziare le parole anche quando sono contenute in altre più lunghe ha comunque un senso, perché è possibile che ci si trovi di fronte all'abitudine di un webmaster di unire i termini.

    ma google non darebbe proprio alcun valore a key interne a parole nell'url?

    Il punto è che qualunque cosa faccia, non lo si può desumere da ciò che viene evidenziato. "indicizzato", "valutato" ed "evidenziato" sono tre operazioni del tutto differenti.


  • User Attivo

    Bella la puntualizzazione e la tripartizione, complimenti Low 🙂
    Su Googlerank.com ho trovato la seguente affermazione:" Testo estratto dalle pagine inglesi di Google: <<Google ora utilizza la tecnologia stemming . Pertanto, quando ritenuto appropriato, Google cercherà non solo gli esatti termini della tua ricerca, ma anche termini simili. Se cerchi "pet lemur dietary needs", Google ti fornirà risultati delle ricerche anche per "pet lemur diet needs", e altre relative variazioni dei termini. Ogni variante suggerita da Google sarà evidenziata nel testo della pagina inserita nella cache e restituita tra i risultati.>>
    www.google.com/help/basics.html
    Questo fu il cambiamento più significativo del 2004 (almeno tra i cambiamenti dichiarati). Le pagine web sono realmente analizzate non più come sequenza di PAROLE ma come sequenza di LETTERE. Cercare ad esempio la parola "ash" potrà portare tra i risultati anche "crash" "ashes" "splash" eccetera..." http://www.googlerank.com/ita/guida-posizionamento/url.html]

    Se oggi vado su www.google.com/help/basics.html effettivamente, come tradotto sopra, leggo:

    Word variations (stemming)

    Google now uses stemming technology. Thus, when appropriate, it will search not only for your search terms, but also for words that are similar to some or all of those terms. If you search for pet lemur dietary needs, Google will also search for pet lemur diet needs, and other related variations of your terms. Any variants of your terms that were searched for will be highlighted in the snippet of text accompanying each result.

    Ma... magia delle magie... andando a leggere la versione italiana c'è una grandissima contradizione!!!!

    Ricerca di radici di parole (Stemming)
    Per garantire la massima precisione nei risultati, Google non supporta la ricerca di radici di parole ("stemming") né le ricerche con caratteri "jolly". In altre parole, Google cerca solo le parole esatte digitate nel campo di ricerca. Se si inserisce "googl" o "googl*", il risultato non sarà "googler" o "googlin". In caso di dubbio, provare ad usare sia il singolare che il plurale; ad esempio "linea aerea" e "linee aeree". http://www.google.it/help/basics.html]

    Google applica quindi una diversa metodologia di indicizzazione nella versione .com e nelle varie versioni nazionali? 😮


  • Super User

    @Calogero Dimino said:

    Le pagine web sono realmente analizzate non più come sequenza di PAROLE ma come sequenza di LETTERE.

    Questo non è corretto. Chi ha scritto la frase ha pensato che Google usasse lo stemming "tradizionale", ovvero basato sulla radice delle parole, ma Google usa qualcosa di completamente diverso.

    Google applica quindi una diversa metodologia di indicizzazione nella versione .com e nelle varie versioni nazionali?

    No, è che Google.it è tradotto una schifezza e qualche tempo fa hanno ripubblicato delle vecchissime traduzioni. Ho segnalato la cosa ma se ne sono fregati.

    Le informazioni su Google.it relative al funzionamento del motore vanno evitate come la peste ed è bene fare riferimento solo a Google.com


  • User Attivo

    @LowLevel said:

    Questo non è corretto. Chi ha scritto la frase ha pensato che Google usasse lo stemming "tradizionale", ovvero basato sulla radice delle parole, ma Google usa qualcosa di completamente diverso.

    hai info a proposito o sai dove posso trovarle? 🙂
    Comunque, una cosa che ho notato... ma non vorrei dire una minch**ta... l'operatore * attualmente non funziona... o meglio nn come prima.
    Se non ricordo male qualche mese fa, mettendo una parola incompleta, mi evidenziava in grassetto le parole che avevano tale radice... cosa che adesso nn fa più!
    E' la memoria che mi fa brutti scherzi o era davvero così? 🙂


  • Super User

    Mi aggiungo alla discussione in corso essendo stato implicitamente (ma direttamente) chiamato in causa.
    Ho curato la redazione del testo a cui si è fatto riferimento nel thread durante l'analisi del funzionamento della tecnologia stemming utilizzata da Google

    http://www.googlerank.com/ita/guida-posizionamento/index.html].

    Andando però in ordine:
    In apertura di thread

    L'evidenziazione in grassetto delle key, come sosteneva Low qualche 3d fa, non avrebbe nulla a che fare con l'indicizzazione.

    Esatto. Il grassetto sulle keyword ricercate dipende dalle impostazioni di visualizzazione scelte da Google per le serp's.

    No, è che Google.it è tradotto una schifezza e qualche tempo fa hanno ripubblicato delle vecchissime traduzioni. Ho segnalato la cosa ma se ne sono fregati.
    Le informazioni su Google.it relative al funzionamento del motore vanno evitate come la peste ed è bene fare riferimento solo a Google.com

    Verissimo.

    Questo fu il cambiamento più significativo del 2004 (almeno tra i cambiamenti dichiarati). Le pagine web sono realmente analizzate non più come sequenza di PAROLE ma come sequenza di LETTERE

    Questo non è corretto. Chi ha scritto la frase ha pensato che Google usasse lo stemming "tradizionale", ovvero basato sulla radice delle parole, ma Google usa qualcosa di completamente diverso.

    Ritengo legittimo il giudizio espresso. In effetti questa sezione è stata direttamente tradotta dall'analoga pagina in inglese (la guida uscì originariamente solo in inglese), che fu scritta all'incirca alla metà del 2004. Ai tempi lo stemming era relativamente nuovo e poco analizzato, per cui si optò per attribuire allo stemming di Google le features dello stemming tradizionale.

    In realtà Google, quando introduce il termine 'stemming', descrive un processo che va ben oltre il significato proprio della parola. E' nell'interesse di Google non rivelare troppe informazioni relative ai cambiamenti dei suoi algoritmi, quindi è bene usare le guidelines ufficiali (da ignorare quelle sul .IT) come punto di partenza, ma sviluppare in seguito ricerche autonome ed esperimenti per approfondirne le reali caratteristiche.

    Quest'implementazione dell'algoritmo servì a Google per aumentare significativamente il numero dei risultati (potenzialmente interessanti per l'utente) nelle serp's. Anche se in passato si era distinto proprio per il non utilizzo dello stemming, ad un certo punto gli sviluppatori si resero conto che molte pagine venivano penalizzate unicamente a causa dell'incapacità di 'leggere' di Google.
    L'unico separatore di parola ammesso era il trattino [-]. Questo faceva sì che ad esempio, foglidicarta.html e fogli_di_carta.html non risultassero efficaci -ai fini dell'ottimizzazione- come fogli-di-carta.html . E questo intuitivamente significava penalizzare non solo il webmaster ma soprattutto l'utente finale, che si vedeva negato l'accesso ad un gran numero di risorse disponibili.
    I primi 'beneficiari' dello stemming furono infatti i nomi di dominio, i nomi delle directory e i nomi dei file (pagine, immagini...). Subito dopo anche il testo delle pagine.

    Per stemming (nel senso comune)si intende la capacità di un computer o di un algoritmo di formulare diversi termini partendo da una data radice (stem). Ad esempio, partendo dallo stem SUN si potranno ricavare SUNshine, SUNset, SUNrise...

    Nelle guidelines, Google (in maniera molto sbrigativa) etichettò come 'stemming' la novità del suo algoritmo. Che, come detto prima, va oltre.
    Alcune delle caratteristiche che elencherò sono controverse e dibattute, anche se sono in molti a testimoniarne gli effetti sui propri siti web.

    Per quanto riguarda l'approccio linguistico di Googlebot:

    1. Stemming (caratteristica descritta prima)
    2. Siccome lo stemming semplice in lingue come l'inglese in molti casi è inefficace (es: lo stemming di 'study' non dà 'studies' pur essendone semplicemente la terza persona singolare), vi è l'utilizzo di un dizionario con tutte le varianti possibili di una parola (es: lady , ladies, lady's...). Questo meccanismo è definito Lemmatisation
    3. La capacità di isolare un gruppo di lettere all'interno di una sequenza più ampia (es: www.ilnostroINTERrail.it])
    4. La capacità di scomporre una sequenza alfabetica in segmenti con significato coerente (es: whensunraises = when | sun | raises)
    5. Scomposizione degli acronimi più famosi e/o autorevoli (es: cercando DOT, che vuole dire 'punto', il primo risultato è il sito del Department of Transportation, al terzo il Department of Telecommunication, India)
    6. Possibilità, per lo spider, di ignorare alcune parole che non influiscono significativamente sul contesto generale del testo (es: new, real, old, big).

    Per quanto riguarda le pagine di responso (valutazione, ranking):

    1. Sono preferite, salvo rare eccezioni, le pagine che contengono la query esatta. Per ricerche 'difficili' (contenenti ad esempio una singola parola, o parallelamente una lunga frase - max 32 parole), valgano i parametri al punto 2 e 3 seguenti.
    2. Basandosi sulle ricerche degli utenti (che sono registrate), il dizionario può creare riferimenti tra diverse parole e inserire nelle Serp's collegamenti a pagine che non contengono le query di ricerca ma che soddisfano ugualmente le aspettative dell'utente (naked = nude).
    3. I documenti vengono analizzati dal punto di vista 'semantico': per quanto questa capacità sia ancora in fase sperimentale, succede spesso che una pagina riceva accessi da Google per una data ricerca anche se la pagina non contiene alcuna delle keyword della query. (vedi LSI, Latent Semantic Indexing)
      Più che in passato stiamo osservando come il ranking di una pagina dipenda molto dal contesto dell'intero sito cui appartiene. Una pagina web può non contenere le query di ricerca, ma se il tema generale trattato è vicino, come contenuti, alla ricerca effettuata, potrà essere preferita rispetto ad altre che invece la soddisfano.

    Per quanto riguarda i webmaster:

    Lo stemming (o meglio, le abilità linguistiche e semantiche degli spider) è stato implementato a favore degli utenti. Dopo un anno di 'calibratura' (il 2004) , ora i risultati sono più stabili e di norma le pagine che soddisfano esattamente la query sono preferite. Così come ogni tipo di implementazione degli ultimi 3 anni (vedi ad es la 'Sandbox' o quel mezzo bluff che fu il brevetto "Information Retrieval Based on Historical Data") ogni novità si presta ad innumerevoli speculazioni. Anche il linea con l'argomento del thread, i consigli che posso dare sono:

    1. Ottimizzare le pagine ai fini di una ricerca esatta (come se lo stemming non esistesse)
    2. All'interno delle pagine, spaziare le parole che devono essere spaziate.
    3. piuttosto che l'underscore. Non scrivere le parole attaccate.
    4. Per quanto possibile suddividere gli argomenti trattati nel sito in cartelle nominate coerentemente. In questo caso una dir nominata www.tuosito.com/scarpe-sport/] avrà senso di esistere
    5. Nome di dominio. Per quanto sia antipatica e quanto sia eticamente un po' da spammer, la tecnica del keyword-rich domain è ancora un buon veicolo di rilevanza per il proprio sito. Sempre che questo sia attinente con il tema generale del sito.
      Personalmente odio domini come www.scarpe-di-pelle-da-sport-da-tennis.com] , e vorrei davvero fossero aboliti, ma i risultati parlano (ancora) chiaro.

    Per chi esegue ricerche:

    E' possibile escludere ogni forma di stemming linguistico (non sono sicuro si possa escludere ogni influenza 'semantica') nelle proprie ricerche usando il simbolo "+" (es: Ellis new +book ; +window )

    hai info a proposito o sai dove posso trovarle?

    Su Googlerank.com prossimamente, prima in inglese e successivamente anche in italiano.
    Nel frattempo ti consiglio la lettura di questi documenti:

    http://www.webmasterworld.com/forum3/21115.htm
    http://www.fundp.ac.be/~lgoffine/Hypertext/semantic_links.html
    http://www-psych.nmsu.edu/~pfoltz/cois/filtering-cois.html

    Cordialmente,
    Stuart


  • Bannato Super User

    Stuart intervengo solamente per congratularmi con te per la tua guida, che conosco da tempo e che considero tra le più interessanti !
    🙂


  • User Attivo

    Mille grazie per essere intervenuto e per tutte le chiarissime spiegazioni che ci hai dato. 🙂

    Ancora grazie per consigli ed i link 🙂

    Sei sempre il benvenuto in questo forum! :ciauz:


  • User Attivo

    @Stuart said:

    http://www.googlerank.com/ita/guida-posizionamento/index.html].

    Cordialmente,
    Stuart

    Stuart ho letto la tua interessantissima guida.

    Non mi è chiaro quando dici che creare un network di siti non è complicato.
    E' semplice procurardo un nome a dominio e una piattaforma open source che permetta una buona indicizzazione e che sia graficamente bella (wordpress) ma poi è difficile trovare i contenuti per riempilarla.

    Solitamente si inserisce al'interno del sito principale tutti i contenuti che riesco a reperire in quando mi spiacerebbe "sprecarli" per inserirli all'interno di siti "civetta".

    Allora ti chiedo:

    1. I contenuti possono essere gli stessi presenti nel sito principale, li devo modificare o devono essere presi ex novo?
    2. Di quante pagine devono essere composti i siti del network?
    3. Devono essere aggiornati i contenuti di questi siti oppure è sufficiente lasciarli li?
    4. Il contenuto inserito deve essere fatto per fornire del contenuto fruibile dagli utenti oppure basta inserire brevi paragrafi copiati qua e la da qualche sito e mischiati tra di loro.

    In ultimo una piattaforma come wordpress ed hosting su aruba possono andare bene come suluzione per creare siti di appoggio? Hai qualche altra soluzione da consigliarmi?

    fuocorosso


  • Super User

    Stuart intervengo solamente per congratularmi con te per la tua guida, che conosco da tempo e che considero tra le più interessanti !

    Ti ringrazio Fabio, e se sapessi quante vicissitudini ha passato il nostro sito dal giorno in cui è stato messo online -meriterebbero un ebook a sè- capiresti quanto sinceramente apprezzi quello che hai scritto.

    Mille grazie per essere intervenuto e per tutte le chiarissime spiegazioni che ci hai dato. Ancora grazie per consigli ed i link
    Sei sempre il benvenuto in questo forum!

    Di nulla. Mi piace l'atmosfera che si respira in questo forum; è uno dei pochissimi che, pur trattando di argomenti 'seri', chi vi partecipa, nella maggior parte dei casi, evita di prendersi troppo sul serio. Non so se mi spiego... 😉

    Non mi è chiaro quando dici che creare un network di siti non è complicato.
    E' semplice procurardo un nome a dominio e una piattaforma open source che permetta una buona indicizzazione e che sia graficamente bella (wordpress) ma poi è difficile trovare i contenuti per riempilarla

    Fuocorosso, l'argomento che esponi è interessante e lo approfondisco volentieri. Però se lo faccio in questo thread (che è relativo allo Stemming di Google, o meglio a ciò che Google chiama stemming), vado/andiamo inesorabilmente Off-Topic. Se apri un 3d apposito, parteciperò volentieri 🙂

    Cordialmente,
    Stuart