• Contributor

    [RANT] Google non funziona più

    Scusate il titolo provocatorio, ma ho appena avuto l'ennesima sensazione di fastidio cercando un fatto ben specifico ovvero la notizia che Google periodicamente cancellerebbe dai suoi archivi le pagine indicizzate in precedenza se giudicate di qualità estremamente bassa, allo scopo di liberare spazio di archiviazione.

    E' una notizia abbastanza specifica, che tuttavia sono SICURO di aver letto sui social network, verosimilmente riportata dalle principali testate di settore (se non erro è stato Gary Illies a raccontare questa cosa) che ho scelto di ritrovare su Google con la seguente query:

    [google deleting low quality pages from index]

    Che tutto sommato è anche abbastanza specifica.

    E Google che mi restituisce? Un mucchio di roba che mi spiega come fare a deindicizzare le pagine.

    Annotazione 2020-06-25 172911.png

    E la stessa solfa vale anche se provo ad affinare ulteriormente la query:
    [google is deleting low quality pages from index gary illyes]
    [google is deleting low quality pages from index site:searchengineland.com]
    [google is deleting old pages from their archives]
    [google is deleting old low quality pages from their archives]

    Niente, non ce la si fa.

    Neanche se faccio la ricerca solo su News.

    Google, vieni qua un attimo e siediti.

    NON ME NE FREGA NULLA

    Voglio ritrovare una notizia specifica, ho fatto una query specifica (anzi, UNO STRAFOTTIO di query specifiche), dammi i risultati SPECIFICI!

    Niente, Google a quanto pare taglia la mia query, la riduce e dice "sìsì ok ho capito vuoi sapere come fare a rimuovere contenuti dall'indice".

    No.

    NO.

    NO.

    Diamine, sembra un papà stanco di rispondere alle continue domande assillanti dei figli... e lo fa afferrando grosso modo il senso generale del discorso, tra quattro termini "famosi" e ZAC eccoti la risposta, guarda che bei siti eccezionali.

    Peccato che nessuno risponde alla mia query.

    A me questo presente fatto di intelligenze artificiali che PENSANO di capire il contesto con BERT cazzi e mazzi, se posso, mi fa schifo.

    Ridatemi il vecchio Google, quello dove se affinavi la query ti uscivano i risultati specifici... che magari erano 7 in tutto l'internet, ma erano QUELLI GIUSTI.

    Ridatemi il motore di ricerca.

    Sta roba qua non è un motore di ricerca.

    E' stupidità artificiale.

    (ah, se qualcuno si ricorda la notizia, la trova e me la linka mi fa un favore... io ho fatto la cosa peggiore che si possa fare: ci ho rinunciato)


    juanin johnnyburnhell 2 Risposte
  • Admin

    @kal eh sì purtroppo Google non ci sta più a capi' 'na mazza.

    Prova a chiedere le previsione meteo per l'ITALIA sperando di ottenere una mappa dell'italia oppure degli articoli sensati o una pagina generica che ovviamente includerà una mappa come minimo.

    Invece ottieni questo. Ed è solo uno degli esempi in questo verticale.

    1. Abuso di posizione dominante mostrando un widget totalmente non rilevante alla query.
    2. Push di notizie irrilevanti nel carosello news semplicemente perché secondo lui arrivano da un sito "weather topical"

    Questo avviene da anni....poi lasciamo stare che qui c'è pure l'aggravante delle fake news e titoli click bait (cosa che hanno appena introdotto nell'approvazione annunci AdWords).

    google-non-capisce.png


    kal merlinox 2 Risposte
  • User

    @kal ha detto in [RANT] Google non funziona più:

    google is deleting low quality pages from index gary illyes

    Intendi questo?

    Gary Illyes from @google said;
    “Narrow it down as much as you can. Don’t create low quality and no value add pages. It’s just not worth it because one thing is that we don’t necessarily want to index those pages. We think that it’s a waste of resources. The other thing is that you just won’t get quality traffic. If you don’t get quality traffic then why are you burning resources on it?”
    Find the pages that bring in zero traffic to your site. Delete them.
    Find pages with topic which might be considered sub-topics for one main. Consider adding that content to the page discussing the main topic. Redirect the smaller pages to that one page.

    Per trovarlo ho aggiunto "-how" alla query 😅


    kal 1 Risposta
  • Contributor

    @davide-del-medico no, qui Illyes sta parlando in generale di quello che dovresti fare TU sul TUO sito, è il solito consiglio che hanno dato sempre, in tutte le salse.

    Peraltro sensato, ma NON ERA QUELLO CHE STAVO CERCANDO.

    Il problema è questo.

    A me interessava il fatto che Google cancellasse effettivamente vecchie copie di pagine fuffa dai SUOI archivi fondamentalmente per "liberare spazio sugli hard disk".

    Sono arcisicuro di averlo letto, ma non lo ritrovo più.

    E non c'è verso di farlo saltare fuori.

    Probabilmente è un'informazione oscura, di niccchia, che interessa a pochi... e quindi Google non si scomoda a darmi risultati pertinenti nonostante le mie query siano estremamente specifiche.

    Questo è il problema che mi ha fatto saltare i nervi.

    E non succede mica solo su quelle query succede SEMPRE ogni volta che provi a cercare informazioni specifiche.


  • Contributor

    @juanin secondo me il problema che citi (lo so che è un tuo cavallo di battaglia HAHAHAHA) riguarda solo marginalmente quello che intendo io. Nel tuo caso comunque stai usando query generiche ed il problema si verifica nell'inserimento dei risultati news che sono Universal Search ma non specificamente "organic".

    Il problema che segnalo è un problema che riguarda proprio i documenti selezionati nell'indice.

    Per la cronaca se n'era già accorto Piersante prendendosi una pausa dalle sue solite trollate su Twitter ad agosto 2019:
    https://twitter.com/ppiersante/status/1167873701615792135


    juanin 1 Risposta
  • User Newbie

    Non sono sicuro che sia quello che stai cercando ma credo che si avvicini abbastanza, è materiale di 8 anni fa, spero possa aiutarti :
    moz.com/ugc/is-google-deindexing-blog-networks-or-also-individual-low-quality-blogs
    moz.com/blog/logic-meet-google-crawling-to-deindex


  • Admin

    @kal si lo so, ma il post è 'Google non funziona' quindi sono rilevante :d:


  • User Attivo

    Sta roba qua non è un motore di ricerca.

    E' stupidità artificiale.

    Tutto molto bello, tutto vero Martino, purtroppo. Basta vedere la serp di "consulente seo" per capire che Google non sta capendo più un caxxo... Non voglio fare nomi ma santo cielo... 5 anni fa in queste serp combattevano nomi noti, gente che sapevi essere esperta e competente.


    kal 1 Risposta
  • Contributor

    @johnnyburnhell capisco il dolore, ma alla fine quello è soggettivo 😄

    A me scoccia perché Google non funziona più per le query specifiche.

    Non si trova più un cazzo, solo robaccia generica.

    La roba specifica, pertinente con query specifiche, è seppellita chissà dove.


  • User Attivo

    kal giorgiotave 2 Risposte
  • Contributor

    @aledandrea ha detto in [RANT] Google non funziona più:

    @kal ECCE LINK!!
    https://twitter.com/methode/status/1261259179983081473

    GRAZIE

    Cominciavo a pensare di essermelo sognato.

    È veramente pazzesca sta cosa.

    Siamo inondati di informazioni e i motori di ricerca non aiutano più a trovare le cose, si accontentano di rispondere alla pressappoco.

    Peraltro noto che quel testo è molto pertinente alla query [google is deleting low quality pages from index gary illyes].

    È incredibile che quel twit non salti fuori se non con query più tecniche come [site:twitter.com methode deindex].

    E manco male che c'è ancora site: come operatore.

    Quanti ne hanno tolti negli ultimi anni?

    Giusto come ulteriore riscontro che Google non funziona più, guardate la query [twitter methode deindex].

    Stesso intento di ricerca, l'unica differenza sta nell'operatore site: che ho sostituito con un (appena leggermente) più generico elemento navigazionale.

    Che merda ragazzi. E scusate la volgarità.


    alessandro_dandrea 1 Risposta
  • User Attivo

    @kal anche la SERP per site:twitter.com @methode RAM non è male...
    Non so, non me la vedevo come una SERP da video =D


  • User Newbie

    hai provato a fare la stessa ricerca con DuckDuckGo? io ultimamente lo preferisco, indicizza molti contenuti che su Google sembrano non esistere


    kal 1 Risposta
  • Contributor

    @AlexSMM ha detto in [RANT] Google non funziona più:

    hai provato a fare la stessa ricerca con DuckDuckGo? io ultimamente lo preferisco, indicizza molti contenuti che su Google sembrano non esistere

    DuckDuckGo in realtà è Bing 🙂

    https://www.quora.com/How-is-the-Bing-API-used-by-DuckDuckGo

    E no, neanche Bing mi ha aiutato nella mia ricerca specifica... Ma il problema qua non è che Bing non c'è riuscito.

    Quanto piuttosto che Google abbia fallito... Quando una volta su ricerche simili ce la faceva in modo egregio!


  • User

    Possibile che il problema sia Twitter? magari le tecnologie che usa abbassano il rank, ho cercato "Index selection, while it's largely about (RAM/flash/disk) space, it's tightly tied to quality of content. If we have tons of free space available, we're more likely to index crappier content. If we don't, we might deindex stuff to make space for higher quality docs."
    e non trova il tweet,

    ho fatto site: sul singolo post (quindi methode/status/1261259179983081473 ) e lo trova

    ho cercato la prima frase: "Index selection, while it's largely about (RAM/flash/disk) space, it's tightly tied to quality of content. "

    E lo trova!

    Il realtà con la prima ricerca trova una discussione su google support che cita lo stesso testo.

    Guarda che buffo:
    prova a cercare
    "Index selection, while it's largely about (RAM/flash/disk) space, it's tightly tied to quality of content. If"
    oppure
    "Index selection, while it's largely about (RAM/flash/disk) space, it's tightly tied to quality of content. If we"
    Dà risultati diversi e il tweet sparisce dalla serp

    Adoro google.


    kal 1 Risposta
  • Contributor

    @davide-del-medico sicuramente c'è un fattore di ranking in gioco. Il post su Twitter mi aspetto che riceva meno pagerank di una pagina sul forum, principalmente perché su Twitter i post finiscono velocemente in basso sul profilo e cadono nel dimenticatoio (anche sui forum in verità, ma comunque di meno rispetto a Twitter).

    MA.

    Ma non è solo un discorso di ranking... come hai notato anche tu in tanti casi il twit non viene manco recuperato.

    Esempio pratico, la query:

    [google deindex pages to free space]

    Non restituisce nulla. Effettivamente la parola "pages" non c'è nel testo del twit e quindi ci può stare che non recuperi nulla.

    Cambiamo query:

    [google deindex content to free space]

    Effettivamente la parola content c'è nel twit. Con questa query però non viene proprio recuperato il Twit!

    Abbiamo solo la discussione, in seconda posizione.

    Annotazione 2020-06-29 095636.png

    Cambiamo ancora query utilizzando le esatte parole di Gary:

    [google deindex stuff to free space]

    3c2d0e8c-0810-4fc6-a591-56fbaf78783f-image.png

    Stavolta la discussione è prima, come peraltro è giusto che sia. E la query è anche sufficientemente ritagliata sul contenuto.

    Quindi qua Google sta facendo effettivamente il suo lavoro.

    Ma il Twit comunque non c'è.

    E non c'è manco seppellito in fondo...

    NON VIENE PROPRIO RECUPERATO

    Ma non è che non viene recuperato perché non ce l'hanno. Ce l'hanno eccome, il Twit è perfettamente indicizzato.

    Se non viene fuori in SERP è perché non riescono a recuperarlo. Quando fanno la query sull'indice, non salta fuori.

    Probabilmente quel contenuto sta in un "tier" differente dell'indice, per chissà quale ragione. Tier che viene "invocato" solo in presenza di query specifiche, come ad esempio quelle con le virgolette... provate questa (virgolettando "stuff"):

    [google deindex "stuff" to free space]

    Annotazione 2020-06-29 100441.png

    Oppure come già osservato, con il site:

    Ecco l'idea che mi sono fatto: le query generiche senza virgolette oramai non pescano più da tutto l'indice, ma solo da un piccolo sottoinsieme, chiamiamolo così, "nazional popolare", indice che va bene per il (sparo un numero) 95% delle ricerche e che copre in maniera sufficiente il 95% degli intenti di ricerca.

    Per chi vuole fare ricerche più specifiche, rimangono pochissimi operatori di ricerca disponibili.

    Ah, piccola nota aggiuntiva... avete notato l'uso che ho fatto delle virgolette?

    Questa cosa non ha alcun senso in IR "classico"... usare le virgolette in quel modo a quanto pare viene interpretato come "Google il documento DEVE necessariamente contenere questo termine".

    E a quel punto Google obbedisce, apre gli indici "di riserva" e finalmente recupera il twit.

    Quindi direi che ho messo a fuoco perché Google non funziona più. Perché quello che vediamo cercando Google nella stragrande maggioranza dei casi non è internet, come un tempo.

    E' un piccolo sottoinsieme di internet.


  • Contributor

    Ecco qua un altro caso fresco fresco: https://twitter.com/MrsAlinaGhost/status/1281938274081288192?s=19

    Query differente, stesso identico problema.


  • Community Manager

    @aledandrea ha detto in [RANT] Google non funziona più:

    @kal ECCE LINK!!
    https://twitter.com/methode/status/1261259179983081473

    mmm è una supercazzola. Gary Illyes getta troppa confusione.

    Non si capisce in quale fase dell'indicizzazione avviena questa cosa. Nella fase dell'indicizzazione (1) quando il crawler scansiona il documento e POI lo indicizza o in quella dell'"indicizzazione (2)" quando si estrapolano TUTTI i documenti che sono pertinenti per la query? Oppure a quell'"indicizzazione (3)" dove si valuta quelli che sono più pertinenti degli altri?

    Non si capisce. Perché a me sembra che sia quest'ultima interessata che non è una vera e propria fase di indicizzazione. Siamo nella fase della corrispondenza/pertinenza. Dopo che l'utente ha digitato la query ovviamente.

    Riguarda l'indice e la selezione dei documenti più pertinenti nell'indice.

    Ecco perché @kal parla di sottoinsieme. Ma non è un sottoinsieme. Il problema è che non è indicizzazione.

    Perché la fase 1 è quella dell'indicizzazione, la fase 2 e 3 siamo già in un altro ambito: siamo già nella fase della corrispondenza e pertinenza.

    Ma Confusion-Illyes parla di sostituzione.

    Quindi, dopo questa breve disamina, a questo punto mi pare di ricordare un update di Google relativo proprio a questa cosa. Forse eh, ma non ricordo bene, dovrei riprenderlo.

    Non so chi lo ricorda: ma diceva, quando Google ha pochi risultati, mette i migliori in rilievo. Cioè Google allarga la pertinenza dei documenti migliori, facendoli pertinenti anche per cose che non lo sono.

    A questo punto, se così fosse, potrebbero effettivamente sostituire quelli che per la chiave sono precisi, ma non sono i più pertinenti. E non li trovi @kal

    Riusciamo a ritrovare l'update di cui parlo?


    kal 1 Risposta
  • Contributor

    @giorgiotave ha detto in [RANT] Google non funziona più:

    Quindi, dopo questa breve disamina, a questo punto mi pare di ricordare un update di Google relativo proprio a questa cosa. Forse eh, ma non ricordo bene, dovrei riprenderlo.
    Non so chi lo ricorda: ma diceva, quando Google ha pochi risultati, mette i migliori in rilievo. Cioè Google allarga la pertinenza dei documenti migliori, facendoli pertinenti anche per cose che non lo sono.
    A questo punto, se così fosse, potrebbero effettivamente sostituire quelli che per la chiave sono precisi, ma non sono i più pertinenti. E non li trovi @kal
    Riusciamo a ritrovare l'update di cui parlo?

    Non lo ricordo, ma ora mi metto alla ricerca.

    Perché se esiste, è certamente lui il responsabile di questo pasticcio :d:


  • Moderatore

    @juanin ha detto in [RANT] Google non funziona più:

    Push di notizie irrilevanti nel carosello news semplicemente perché secondo lui arrivano da un sito "weather topical"

    I famosi topical di cui abbiamo discusso.
    Di cui Google dice "Una pagina è una pagina" ma che poi clusterizza per sito e quindi un contenuto non è più valutato come tale, ma dipende dal contenitore (e dall'autore?).

    Grazie ragazzi