• Community Manager

    Come Google potrebbe classificare le Immagini con il Machine Learning

    Bill Slawski ha condivido un articolo sul brevetto Ranking Image Search Results Using Machine Learning Models

    Il funzionamento è il seguente

    • Obtaining many candidate image search results for the image search query
    • Each candidate image search result identifies a respective image and a respective landing page for the respective image
    • For each of the candidate image search results processing
    • Features of the image search query
    • Features of the respective image identified by the candidate image search result
    • Features of the respective landing page identified by the candidate image search result using an image search result ranking machine learning model that has been trained to generate a relevance score that measures a relevance of the candidate image search result to the image search query
    • Ranking the candidate image search results based on the relevance scores generated by the image search result ranking machine learning model
    • Generating an image search results presentation that displays the candidate image search results ordered according to the ranking
      Providing the image search results for presentation by a user device

    Cosa c'è di tanto importante secondo voi che non sappiamo o immaginiamo?


  • Contributor

    Io posso dire di sapere per certo (e da mò, sicuramente almeno un anno e in effetti coincide abbastanza con la data di submit del brevetto) che usano il contenuto delle immagini come estensione del testo per la corrispondenza query-documento all'interno dell'indice.

    Lo so perché lo chiesi direttamente a Gary Illyes a suo tempo su Reddit e mi risposte, sostanzialmente, di sì.

    Quindi diciamo che questo è abbastanza confermato e "ufficiale".

    Che lo usino anche nel ranking... a me pare assolutamente logico e sensato. Se l'immagine estende il testo ed il testo è un fattore di ranking... fai 1+1 e ti esce 2.

    Ma a suo tempo evitai accuratamente di parlare di ranking perché i nostri amici di Google quando nomini la parolaccia vanno immediatamente sulla difensiva e a me interessava avere una risposta limpida una volta tanto.

    Del fatto che sia utilizzato come segnale di ranking ne ho comunque la prova provata perché abbiamo trovato qualche tempo fa sul Search Console di un cliente la query decisamente lunga e specifica:

    [hotel sul lago di garda con jacuzzi in camera]

    E questa query, badate bene, aveva CENTINAIA di impressioni/mese e soprattutto FACEVA CLIC. Ci è saltata all'occhio proprio per quello.

    Il sito del cliente stava all'epoca in seconda pagina... senza che nella pagina ci fosse il termine "jacuzzi". Ma non c'era manco "vasca idromassaggio". E non era presente neanche nei link verso quella pagina, perché si trattava di una pagina generica "Camere".

    C'era però un'immagine con una jacuzzi perfettamente riconoscibile.

    Buttando dentro quell'immagine sul Google Cloud Vision, il termine "Jacuzzi" veniva estratto con una confidenza mi pare dell'80-90%.

    E ripeto: il sito stava in seconda pagina, per una query che portava impressioni e soprattutto traffico.

    Tutti gli indizi lasciano pensare che il contenuto delle immagini, se facilmente leggibili dai sistemi ML di Google (perché questo è il punto dirimente), influenzi positivamente il ranking non solo dell'immagine, ma anche della pagina stessa su cui quell'immagine si trova.


  • Contributor

    Aggiungo, giusto per fare un po' di cronologia:

    Gary stesso nel suo AMA si è presentato dicendo:

    I've been with Google for over 8 years, always working on Web Search. I worked on most parts of search: Googlebot, Caffeine, as well as ranking and serving systems that don't have weird public names. Nowadays I'm focusing more on Google Images and Video.

    (grassetto mio)

    Insomma, il tempismo è sospettosamente coincidente.