@marta_de_angelis said:
Che qualche manciata di revisori controllino miliardi e miliardi di pagine la vedo dura.
No, aspetta, nessuno ha detto che il personale lavori in quel modo, non controllano a mano miliardi di pagine. Funziona in un altro modo, cerco di spiegarlo meglio di come ho fatto nel post precedente.
Alcuni tipi di algoritmi di machine learning, per natura, devono beneficiare di alcune fasi di training, che consiste nella valutazione umana di un sottoinsieme di risorse, dalla quale poi l'algoritmo "apprende" estraendone criteri generali. I risultati della valutazione servono dunque all'algoritmo per identificare quali caratteristiche tecniche possiedono le risorse che sono state valutate positivamente o negativamente.
Per esempio, Panda è un algoritmo che fa uso di una tecnica simile: son partiti da una manciata di valutazioni umane per tirar fuori regole generiche applicabili all'intero web (o quasi).
Era questo a cui mi riferivo quando dicevo: "considerazioni umane, successivamente trasposte in combinazioni dei segnali tecnici". Si fa uso di personale per acquisire valutazioni umane (e qui rientra il "Google guarda alla tua coscienza"), poi da queste valutazioni vengono estratti criteri generali.
@marta_de_angelis said:
I controlli scattano su segnalazioni, non è che si mettono a navigare e controllare.
In alcuni casi sì, dipende dal tipo di controlli a cui ti riferisci. Esistono due contesti diversi, gestiti in Google da due team diversi.
(questa distinzione è più importante di quello che si crede, perché chi la ignora crede che Google proceda prevalentemente con criteri punitivi, quando il criterio principe è invece quello di individuazione della qualità, ma qui sto divagando...)
Nel contesto della valutazione della qualità dei risultati, Google usa sia personale umano (sono i Quality Rater, personale che tra le altre cose "naviga e controlla" su indicazioni di Google) sia soluzioni algoritmiche. L'obiettivo principale delle valutazioni dei QR non è fare antispam, però se gli capita dello spam sotto il naso lo possono flaggare come tale.
Nel contesto anti-spam, invece, Google usa sia soluzioni algoritmiche sia personale interno (che si occupa di valutare le segnalazioni antispam a cui facevi riferimento tu).
In tutti e due i contesti, l'apporto umano c'è, ovviamente sfruttato nel modo che indicavo sopra e non per fargli valutare a mano l'intero web.
Alcuni Quality Rater sono anche frequentatori di questo forum. Se il loro contratto gli permettesse di manifestarsi come tali in pubblico, potrebbero confermare. In assenza di ciò, le linee guida dei quality rater recentemente pubblicate da SEL forniscono una buona visione generale di quanto i quality rater fanno e come lo fanno.
@marta_de_angelis said:
Ne ho visti network del genere fare pessima fine.
Sì, ne ho osservato tantissimi anche io. Qualità globale orrenda, contenuti carenti, inutili o superflui per gli utenti. Sono stati segati per quella ragione, non perché erano interlinkati. Interlinkare argomenti correlati e di qualità fa bene al network, interlinkare contenuti non correlati o spazzatura fa male al network.
Nel caso dell'utente sognista, senza osservare il suo specifico caso non c'è modo di sapere se sta andando incontro a problemi di qualche genere, proprio perché di per sé l'interlinking non modifica di una virgola la natura o la bontà del sito/network.
Al massimo si può dire che in molti contesti spammosi, gli spammer hanno in passato linkato i siti di un network in quel modo là. Ma del resto molti siti porno hanno sfondo scuro e dubito che ciò sia sufficiente a indurre Google a classificare come pornografici tutti i siti con sfondo scuro.