Comandi site: e source: su Google News

giorgiotave

Ciao Rorbv,

allora il comando site: non serve a sapere quante pagine indicizzate hai, ma ti offre una panoramica di alcune delle pagine indicizzate. È fuorviante, puoi anche lasciar perdere.

Per quanto riguarda la duplicazione per me si, certo, Google News non tende a mostrare articoli duplicati e cerca di capire chi è stato il primo a pubblicare, rimandando a lui.

Invece per il source è molto probabile che per i grandi brand abbia associato più modi (quindi magari entità) di come vengono cercati e quindi trovo questo comportamento giusto

rorbv

@Giorgiotave said:

Ciao Rorbv,

Ciao Giorgio, innanzitutto grazie per la risposta.

@Giorgiotave said:

allora il comando site: non serve a sapere quante pagine indicizzate hai, ma ti offre una panoramica di alcune delle pagine indicizzate. È fuorviante, puoi anche lasciar perdere.

Avevo letto, e constatato di persona, che il numero non fosse preciso per questo scrivevo nel primo messaggio "avere una stima di quante pagine sono indicizzate", non immaginavo che fosse addirittura fuorviante, ad ogni modo non è molto importante ai fini della domanda.

In effetti io più che all'uso pratico del comando site (che sinceramente a questo punto mi chiedo a che mai può servire :bho:) ero interessato dal punto di vista teorico a cosa dovesse essere l'output di tale comando nella speranza di soddisfare la curiosità di come potesse funzionare "all'interno". Diciamo che puoi catalogare la mia domanda alla voce "pippa mentale" di programmatore
Mi rendo conto che in quanto tale probabilmente non interessa nessuno, ma, visto che ci sono ...

Mi figuravo che semplificando moltissimo il site equivalesse a fare una SELECT sul db di google search o news WHERE site=nomesito. Prima che mi linciate su quanto più complesse siano le cose, preciso che ovviamente è solo un'estrema semplificazione per chiarire le cose, in pratica il concetto è che credevo che in qualche modo venissero selezionate alcune "righe" (ho messo le virgolette apposta per evitare il linciaggio ) del db caratterizzate dall'essere relative al sito in questione. Se fosse cosi' un dominio NON in google news non dovrebbe mai apparire (ed in effetti di solito è cosi') invece nel caso particolare accade il contrario. Però le pagine mostrate sono SOLO quelle pubblicate su altri domini in google news e nessuna di quelle diciamo "originali" pubblicate cioè solo sul dominio in questione. Per questo motivo, (e per altri controlli che ho potuto fare) mi sento di escludere che il dominio sia ancora in google news, ma allora come si spiega questo comportamento?
tu mi dici ...

@Giorgiotave said:

Per quanto riguarda la duplicazione per me si, certo, Google News non tende a mostrare articoli duplicati e cerca di capire chi è stato il primo a pubblicare, rimandando a lui.

Ok, questo è sicuramente un algoritmo che Google implementa, o almeno ci prova, utile anche per il search in modo da "sgamare" chi copia. Per questo motivo se inserisco come chiave il titolo di un articolo generalmente non avremo nelle prime posizioni la copia su un sito di poco trust ma l'articolo originale o comunque la copia su un sito di buon trust. In questo caso è certamente un comportamento auspicabile e corretto, ma se invece di fare una ricerca generica io ti ho chiesto un "site" vuole dire che sono interessato solo al dominio in oggetto.
Perché mai dovresti prenderti la briga di spulciare il sito controllare tutti gli articoli indicizzati, controllare se qualcuno di questi è una copia pari pari di un altro e farmi una lista di questi ultimi con gli indirizzi degli stessi sui siti originali? Questo sia su google search che su google news.
Non dico che sia un bug, ma mi chiedo non è uno spreco di risorse? A meno che (molto più probabile) sia io che non ho capito nulla di quello che vorrebbe essere il comando site. Non ho altri aggregatori per provare se il funzionamento è lo stesso per tutti, ma immagino che sia cosi' perché non vedo perché quel dominio dovrebbe essere speciale.
A questo punto la "pippa mentale" da programmatore ... e se invece non fosse uno spreco di risorse ma un comportamento non ottimale del site dovuto proprio al tentativo di risparmiare risorse? Mi spiego: Google cerca i duplicati e "sceglie un originale" per determinare una serp migliore, ma una volta "fatta la fatica", oltre che per il motivo citato potrebbe decidere di utilizzare queste informazioni per avere database di link ridotti su cui operare, una specie di rel=canonical cross domain per cui tutti le copie si appiattiscono sull'originale. Chiaramente questo db ridotto non dovrebbe essere usato per il comando site perché verrebbe meno il senso del comando, almeno secondo il mio personale parere, ma se lo fosse spiegherebbe l'anomalia.
@Giorgiotave said:

Invece per il source è molto probabile che per i grandi brand abbia associato più modi (quindi magari entità) di come vengono cercati e quindi trovo questo comportamento giusto

Per quanto riguarda il comando source credo effettivamente che quella da te proposta sia la spiegazione più ragionevole. Anche qui c'è qualcosa che non mi convince del tutto ma ho già fatto un romanzo per cui stavolta passo.

giorgiotave

Sono costretto a fare quote di quasi tutto, con piacere ovviamente! Mi piace molto parlare con i programmatori quando si parla di motori di ricerca

@rorbv said:

Avevo letto, e constatato di persona, che il numero non fosse preciso per questo scrivevo nel primo messaggio "avere una stima di quante pagine sono indicizzate", non immaginavo che fosse addirittura fuorviante, ad ogni modo non è molto importante ai fini della domanda.

In effetti io più che all'uso pratico del comando site (che sinceramente a questo punto mi chiedo a che mai può servire :bho:) ero interessato dal punto di vista teorico a cosa dovesse essere l'output di tale comando nella speranza di soddisfare la curiosità di come potesse funzionare "all'interno". Diciamo che puoi catalogare la mia domanda alla voce "pippa mentale" di programmatore

Secondo me, all'inizio era usato per le pagine indicizzate. Poi si sono resi conto che le risorse impiegate erano troppe per mantenere aggiornata costantemente questa funzionalità e hanno deciso di aggiornarla ogni tanto, dichiarandola fuorviante per quell'uso.

@rorbv said:

Mi figuravo che semplificando moltissimo il site equivalesse a fare una SELECT sul db di google search o news WHERE site=nomesito. Prima che mi linciate su quanto più complesse siano le cose, preciso che ovviamente è solo un'estrema semplificazione per chiarire le cose, in pratica il concetto è che credevo che in qualche modo venissero selezionate alcune "righe" (ho messo le virgolette apposta per evitare il linciaggio ) del db caratterizzate dall'essere relative al sito in questione.

Si, anche io pensavo all'inizio così. Credo però che in questo caso si faccia riferimento a un altro db di Google, sono separati, anche se la persona più indicata a darci questa informazione è Andrea Pernici o Enrico Altavilla che attualmente non posso citare, ma quando avremo la piattaforma nuova...

@rorbv said:

Se fosse cosi' un dominio NON in google news non dovrebbe mai apparire (ed in effetti di solito è cosi') invece nel caso particolare accade il contrario. Però le pagine mostrate sono SOLO quelle pubblicate su altri domini in google news e nessuna di quelle diciamo "originali" pubblicate cioè solo sul dominio in questione. Per questo motivo, (e per altri controlli che ho potuto fare) mi sento di escludere che il dominio sia ancora in google news, ma allora come si spiega questo comportamento?

In effetti mi pare strano. Riesci a farmi un esempio pratico?

Così vediamo i vari casi

@rorbv said:

Per quanto riguarda il comando source credo effettivamente che quella da te proposta sia la spiegazione più ragionevole. Anche qui c'è qualcosa che non mi convince del tutto ma ho già fatto un romanzo per cui stavolta passo.

Secondo me il source non è molto preciso. Credo Google News sia la parte della search con meno evoluzioni e quindi ancora ancorata a come è stata programmata inizialmente

rorbv

Il nome del dominio su cui ho constatato la cosa te lo mando in messaggio privato perché l'ho ceduto proprio in questi giorni e il nuovo proprietario potrebbe non gradire essere tirato in ballo, il "problema" è ancora visibile. Ad ogni modo al di là di quanto ti dicevo per google news, per il dominio in questione anche il site su google search è strano. Infatti restituisce gli articoli originali del sito come d'abitudine e poi quelli copiati (via rss) facendo riferimento direttamente al dominio originale e non alla copia presente sul sito. Come conseguenza, logica a questo punto, facendo il site su google news seleziona dal risultato precedente solo gli articoli presenti nelle news vale a dire quelli copiati via rss, sempre facendo riferimento agli originali su altri siti.
Questo comportamento anomalo come ti dicevo mi faceva pensare al fatto che si stesse applicando il comando ad un db ridotto alle sole pagine considerate originali o, come tu mi dici, ad un db separato che contenesse solo queste. In effetti, pensandoci meglio, non credo possa essere questa la spiegazione, in tal caso google semplicemente analizzando il site si potrebbe distinguere le pagine che google considera originali e quali no, questo presterebbe il fianco ad un operazione del tipo faccio varie copie non perfette cambiando sempre qualche cosa in più fino a che Google non riconosce più l'articolo come copia e si comporta normalmente con il site. A quel punto avrei utili info su a cosa google è più "sensibile" per considerare un articolo copiato. Non mi sembra una cosa tanto probabile visto quanto Google è attento a queste cose, la spiegazione dovrebbe essere un'altra. Per capirci di più forse bisognerebbe fare prove con altri siti aggregatori

Ps. ho appena notato che su google news il comportamento non differenzia site:nomesito.it e site:www . nomesito.it (ovviamente senza spazi), mentre su google search nel primo caso rimanda agli articoli sui siti originali, nel secondo si comporta come più corretto secondo me, cioè rimanda a soli articoli copia sul sito. Questo forse è un indizio importante per chi ne capisce ...

giorgiotave

Mai visto questo comportamento, tranne per un bug tanto tempo fa sulla gestione dei redirect 302 credo.

Sento anche Juanin che ti saprà dire la sua

juanin

Ora sono da cellulare e non riesco ad argomentare troppo, ma questo è un comportamento non troppo anomalo per Google news che da qualche mese viene adottato in caso di aggregatori che canonicalizzano e/o rimandano agli originali con link diretto.

Provate ad esempio anche con MSN su Google News site:msn.com/it-it/ che canonicalizzano sempre con il loro agg regatore.

Ora non riesco a verificare il caso specifico perché non conosco il sito e non riesco a valutare le varie questioni che sono a cena fuori, ma appena al computer torno qua

rorbv

In effetti quello evidenziato da Juanin per MSN è esattamente lo stesso comportamento per quanto riguarda google news (vengono riportati gli articoli dei siti originali) anche se nel mio caso non si trattava di canonical come con MSN ma di link diretto riportato nell'articolo. In google search invece il comportamento del comando site resta l'abituale per MSN, cioè compaiono le copie degli articoli sul sito MSN. Lo stesso vale per il mio sito in caso di comando site:www . nomesito.it (compaiono le copie degli articoli sul mio sito).
La differenza è che nel mio caso al momento dell'indicizzazione non c'era un redirect dal dominio senza www a quello con www e pertanto anche nel search inserendo site:nomesito.it (quindi senza www) si ripropone il comportamento trovato in google news (compaiono gli articoli sui siti originali).
Ora già il comportamento in google news mi sembra un po' strano visto quello che dovrebbe essere il "significato" del comando site, ma almeno ha una sua logica, non essendo il sito in google news piuttosto che non darti alcun risultato ti restituisco gli articoli in google news che sono "copiati" dal sito in questione, diciamo che ti fornisco un servizio in più.
Ma il caso di google search del caso senza www evidenziato prima, che ho scoperto per puro caso per il mancato redirect, mi sembra incomprensibile, perché fare una cosa del genere?, è un comportamento voluto? o un "effetto collaterale" di come è implementato il comando site? Insomma in base a quello che dovrebbe essere il comando site per me i comportamenti logici potrebbero essere
o 1) non fare alcuna differenza e proporre sempre le pagine del sito in questione, come nel caso MSN
o 2) non fornire alcun risultato per il comando site:nomesito.it considerato che nomesito.it è visto come sito distinto da www . nomesito.it
Questa terza via ibrida mi sembra falsare completamente quello che credevo fosse la "specifica funzionale" del comando site da cui la mia domanda iniziale ma allora che significa oggi il comando site: ?

giorgiotave

Lo sapevo che Juanin conosceva l'inghippo, su News è ferratissimo (e anche su tante altre cose). Aspettiamo il ritorno

juanin

Il tuo ragionamento è comprensibile, ma da quello che vedo attualmente Google sta iniziando a considerare "finalmente" la canonicalizzazione sul serio.

Riguardo alla differenza tra www e non-www questi sono due siti diversi a tutti gli effetti per Google se non ci sono segnali espliciti di canonicalizzazione.

Per quanto riguarda il tuo sito non conoscendone l'indirizzo non posso esprimermi, ma può capitare che Google abbia in indice pagine vecchie non più presenti e per questo può succedere che ci siano discrepanze tra il site del www e quello del non-www.

rorbv

@Juanin said:

Il tuo ragionamento è comprensibile, ma da quello che vedo attualmente Google sta iniziando a considerare "finalmente" la canonicalizzazione sul serio.

In effetti sembra una specie di "inasprimento" della canonicalizzazione, secondo me interessante soprattutto nel caso in cui non c'è materialmente un ref canonical ma solo il link alla fonte, sarebbe interessante capire il limite che l'algoritmo pone in questo caso per dire che due articoli sono in effetti lo stesso articolo.

@Juanin said:

Riguardo alla differenza tra www e non-www questi sono due siti diversi a tutti gli effetti per Google se non ci sono segnali espliciti di canonicalizzazione.

Infatti per questo sono stato sorpreso che nonostante nel mio caso questo segnale non ci fosse e la versione senza www restituisse ERR_NAME_NOT_RESOLVED il comando site comunque funzionasse facendo riferimento alle stesse pagine (seppur in un caso facendo riferimento agli articoli originali su altri siti)

@Juanin said:

Per quanto riguarda il tuo sito non conoscendone l'indirizzo non posso esprimermi, ma può capitare che Google abbia in indice pagine vecchie non più presenti e per questo può succedere che ci siano discrepanze tra il site del www e quello del non-www

Il problema, in effetti, come ti dicevo non è una discrepanza fra pagine in più o in meno ma nel diverso indirizzo delle pagine mostrato dai comandi site:nomesito e site: www . nomesito, ci sarebbe da fare qualche verifica su altri domini per capirci qualcosa in più. Se ho un po' di tempo, li farò e vi farò sapere. Nel frattempo grazie della risposta.