@Giorgiotave said:
Ciao Rorbv,
Ciao Giorgio, innanzitutto grazie per la risposta.
@Giorgiotave said:
allora il comando site: non serve a sapere quante pagine indicizzate hai, ma ti offre una panoramica di alcune delle pagine indicizzate. È fuorviante, puoi anche lasciar perdere.
Avevo letto, e constatato di persona, che il numero non fosse preciso per questo scrivevo nel primo messaggio "avere una stima di quante pagine sono indicizzate", non immaginavo che fosse addirittura fuorviante, ad ogni modo non è molto importante ai fini della domanda.
In effetti io più che all'uso pratico del comando site (che sinceramente a questo punto mi chiedo a che mai può servire :bho:) ero interessato dal punto di vista teorico a cosa dovesse essere l'output di tale comando nella speranza di soddisfare la curiosità di come potesse funzionare "all'interno". Diciamo che puoi catalogare la mia domanda alla voce "pippa mentale" di programmatore
Mi rendo conto che in quanto tale probabilmente non interessa nessuno, ma, visto che ci sono ...
Mi figuravo che semplificando moltissimo il site equivalesse a fare una SELECT sul db di google search o news WHERE site=nomesito. Prima che mi linciate su quanto più complesse siano le cose, preciso che ovviamente è solo un'estrema semplificazione per chiarire le cose, in pratica il concetto è che credevo che in qualche modo venissero selezionate alcune "righe" (ho messo le virgolette apposta per evitare il linciaggio ) del db caratterizzate dall'essere relative al sito in questione. Se fosse cosi' un dominio NON in google news non dovrebbe mai apparire (ed in effetti di solito è cosi') invece nel caso particolare accade il contrario. Però le pagine mostrate sono SOLO quelle pubblicate su altri domini in google news e nessuna di quelle diciamo "originali" pubblicate cioè solo sul dominio in questione. Per questo motivo, (e per altri controlli che ho potuto fare) mi sento di escludere che il dominio sia ancora in google news, ma allora come si spiega questo comportamento?
tu mi dici ...
@Giorgiotave said:
Per quanto riguarda la duplicazione per me si, certo, Google News non tende a mostrare articoli duplicati e cerca di capire chi è stato il primo a pubblicare, rimandando a lui.
Ok, questo è sicuramente un algoritmo che Google implementa, o almeno ci prova, utile anche per il search in modo da "sgamare" chi copia. Per questo motivo se inserisco come chiave il titolo di un articolo generalmente non avremo nelle prime posizioni la copia su un sito di poco trust ma l'articolo originale o comunque la copia su un sito di buon trust. In questo caso è certamente un comportamento auspicabile e corretto, ma se invece di fare una ricerca generica io ti ho chiesto un "site" vuole dire che sono interessato solo al dominio in oggetto.
Perché mai dovresti prenderti la briga di spulciare il sito controllare tutti gli articoli indicizzati, controllare se qualcuno di questi è una copia pari pari di un altro e farmi una lista di questi ultimi con gli indirizzi degli stessi sui siti originali? Questo sia su google search che su google news.
Non dico che sia un bug, ma mi chiedo non è uno spreco di risorse? A meno che (molto più probabile) sia io che non ho capito nulla di quello che vorrebbe essere il comando site. Non ho altri aggregatori per provare se il funzionamento è lo stesso per tutti, ma immagino che sia cosi' perché non vedo perché quel dominio dovrebbe essere speciale.
A questo punto la "pippa mentale" da programmatore ... e se invece non fosse uno spreco di risorse ma un comportamento non ottimale del site dovuto proprio al tentativo di risparmiare risorse? Mi spiego: Google cerca i duplicati e "sceglie un originale" per determinare una serp migliore, ma una volta "fatta la fatica", oltre che per il motivo citato potrebbe decidere di utilizzare queste informazioni per avere database di link ridotti su cui operare, una specie di rel=canonical cross domain per cui tutti le copie si appiattiscono sull'originale. Chiaramente questo db ridotto non dovrebbe essere usato per il comando site perché verrebbe meno il senso del comando, almeno secondo il mio personale parere, ma se lo fosse spiegherebbe l'anomalia.
@Giorgiotave said:
Invece per il source è molto probabile che per i grandi brand abbia associato più modi (quindi magari entità) di come vengono cercati e quindi trovo questo comportamento giusto
Per quanto riguarda il comando source credo effettivamente che quella da te proposta sia la spiegazione più ragionevole. Anche qui c'è qualcosa che non mi convince del tutto ma ho già fatto un romanzo per cui stavolta passo.