Schema.org: il Web si fa semantico, finalmente

leonov

Schema.org: il Web si fa semantico, finalmente

In un momento in cui si parla molto di social networks e argomenti affini (ma alla fine, Google Plus sarà il carnefice di Facebook oppure resterà un ardito esperimento destinato a seguire l'infausto destino di Wave, Orkut e soci?), forse è sfuggito a molti il compimento di un piccolo grande passo nel campo del Web Semantico.

In un'insolita, inedita condivisione collaborativa tra Google, Yahoo! e Bing è stato varato Schema.org, «una collezione di schemi, cioè tag html, che i webmaster possono usare per contrassegnare le loro pagine web a beneficio dei maggiori fornitori di servizi online» (dalla pagina di accoglienza del progetto).

Il sito che coordina gli schemi, questo, offre una documentazione completa e una collezione vastissima di esempi in base ai quali classificare praticamente ogni tipo di contenuto informatico, seguendo criteri comuni alla biblioteconomia (sembra l'indice decimale Dewey o la versione alternativa della Library of Congress): si va dall'ente più generale, denominato semplicemente 'thing', a grandi classici come il libro o 'book', il film o 'movie', l'appuntamento o 'event'.

Ci sono ovviamente i figli della più recente modernità: 'InternetCafe', 'TVSeries', 'MediaObject'; ma anche gli immortali 'Person', 'Recipe' (ricetta di cucina: anche i navigatori della Rete devono pur nutrirsi), 'School' e i definitivi 'Cemetery' e 'Crematorium' (pensano proprio a tutto questi di Schema.org: dalla culla alla bara ).

Per ogni voce si riempiono campi specifici (per il libro autore, editore, luogo, data, codice ISBN etc.) e si completa l'alberatura delle informazioni a beneficio dei motori di ricerca e dei loro algoritmi di lettura dell'HTML sempre più avanzati.

Ai webmaster adesso il compito di aderire alle convenzioni e iniziare a sagomare le loro pagine web in base alla classificazione proposta.

Voi cosa ne pensate? Adotterete uno di questi schemi per la vostra professione? Quale utilità credete possano avere?

cantodinverno

Credo che sia un ottimo strumento per un committente. Faccio un esempio esemplificativo: se sto cercando delle tags da dare ad un articolista, invece di andare lontano, posso utilizzare lo schema, che sicuramente mi darà le visite di cui ho bisogno.:) Se, invece, sono un appassionato della scrittura in tutte le sue forme lo strumento non mi serve a niente, perché per la mia esperienza so già quali tags utilizzare, al limite posso dare un'occhiatina allo schema a livello di suggerimento. Risulta dannoso a mio parere quando si tratta di argomenti letterari e filosofici. Se sto parlando di Dewey dovrei conoscerlo e solo alla fine sfruttare i tags proposti nello schema, altrimenti rischio non soltanto di passare per ignorante (in senso buono), ma anche di diffondere la mia ignoranza come se fosse una realtà di fatto e un povero studente di filosofia che capita da quelle parti per fare una ricerca su Dewey...Per non parlare del totale appiattimento della lingua alla MiniTrue proprio...

leonov

Salve Cantodinverno.

Lo spunto per la discussione che mi dai è ottimo e mi permette di approfondire alcuni punti salienti.

La spiegazione è un po' lunga, ma spero aiuti a dare qualche coordinata in più.

Comincio dal problema dell'appiattimento della lingua: in parte è vero, la collezione degli schemi proposti tende ad appiattire un po' tutto o, forse meglio, a "inscatolare" la ricchezza delle parole e dei mezzi di comunicazione in una trama dalle maglie inevitabilmente troppo larghe o troppo strette, incapaci di stare davvero "a pennello" a un contenuto.

Si tratta però di un problema comune quando occorre fare una classificazione, proprio come accade negli archivi o nelle biblioteche (da cui il mio riferimento alla classificazione decimale Dewey): si ritiene in particolare che i benefici derivanti dall'inserimento delle pagine web in una complessità strutturata e adeguata a uno standard universale superi in ogni caso la perdita dovuta allo smarrimento del prezioso residuo non compensato tra il singolo ente (frase, pensiero, concetto) e la classe, l'insieme o il gruppo in cui esso viene convogliato.

Ogni mela in questo mondo è diversa da tutte le altre e come tale andrebbe considerata nella sua unicità essenziale e perfino inesprimibile a parole, ma il fatto di inserirla ("imprigionarla") nella macro-categoria "mela" ci fa guadagnare tempo quando, dal fruttivendolo, chiediamo un chilo di mele invece di indicare ogni frutto e dire «voglio questo ente, quest'altro, quest'altro ancora».

Se questo risparmio di tempo / denaro / fatica / altro a beneficio della perdita di informazione e profondità sia una cosa positiva o negativa non è compito di chi scrive giudicarlo; è però un dato di fatto che su questo metodo si basi buona parte della nostra comunicazione verbale e scritta (e tutto quanto a ciò è legato).

Per quel che riguarda invece nello specifico il modello proposto da Schema.org, ci tengo a sottolineare che non si tratta di un modo nuovo di concepire i contenuti multimediali, ma soltanto di un protocollo iper-specializzato volto alla classificazione delle informazioni visibili ad occhio umano (diversamente da altre cose, come parte degli script che generano le animazioni), a beneficio di una loro più facile indicizzazione.

Un esempio tratto dal sito ufficiale chiarirà il tutto. Supponiamo di avere, in una nostra pagina web che parla di videogiochi, la seguente scheda/recensione (realizzata con un'opportuna sequenza di div e altre "scatole" nel codice html scritto da zero o generato da linguaggi vari):

[html]
Resistance 3: Fall of Man
by Sony
Platform: Playstation 3
Rated: Mature
[/html]

Il bot del motore di ricerca assorbe le informazioni, le correla ad altre e "scopre" che la prima riga è il titolo del gioco, la seconda il nome del produttore (lo aiuta probabilmente la preposizione "by"), la terza la consolle sulla quale farlo girare e la quarta la fascia di utenza consigliata.

Se si decide di adattare tale contenuto agli standard di Schema.org, ecco cosa si dovrà inserire nel codice della medesima pagina, a proposito del medesimo argomento:

[html]
<div itemscope itemtype="http://schema.org/CreativeWork">
<img itemprop="image" src="videogame.jpg" />
<span itemprop="name">Resistance 3: Fall of Man</span>
by <span itemprop="author">Sony</span>,
Platform: Playstation 3
Rated:<span itemprop="contentRating">Mature</span>
</div>
[/html]

La sintassi di "itemprop" aiuta il bot (non il visitatore, il quale vede di fatto sempre le stesse informazioni sullo schermo) a discernere con maggiore chiarezza di quale tipo di opera d'ingegno ("creativework" dentro "itemtype") si tratti e di quali informazioni su di essa vengano fornite da chi ha creato la pagina web.

Altro esempio che si spiega da sé: ecco come modificare una pagina che originariamente parla di libri e dà una recensione per Il giovane Holden di Salinger:

[html]
<a href="category/books.html">Books</a> >
<a href="category/books-literature.html">Literature & Fiction</a> >
<a href="category/books-classics">Classics</a>

<img src="catcher-in-the-rye-book-cover.jpg" />
The Catcher in the Rye - Mass Market Paperback
by <a href="/author/jd_salinger.html">J.D. Salinger</a>
4 stars - 3077 reviews

Price: $6.99
In Stock

Product details
224 pages
Publisher: Little, Brown, and Company - May 1, 1991
Language: English
ISBN-10: 0316769487

Reviews:

5 stars - <b>"A masterpiece of literature" </b>
by John Doe. Written on May 4, 2006
I really enjoyed this book. It captures the essential challenge people face
as they try make sense of their lives and grow to adulthood.

4 stars - <b>"love it LOLOL111!" </b>
by Bob Smith, Written on June 15, 2006
Catcher in the Rye is a fun book. It's a good book to read.
[/html]

Il predetto codice va così modificato:

[html]
<body itemscope itemtype="http://schema.org/WebPage">
...
<div itemprop="breadcrumb">
<a href="category/books.html">Books</a> >
<a href="category/books-literature.html">Literature & Fiction</a> >
<a href="category/books-classics">Classics</a>
</div>

<img itemprop="image" src="catcher-in-the-rye-book-cover.jpg" />
<span itemprop="name">The Catcher in the Rye</span> -
<link itemprop="bookFormat" href="http://schema.org/Paperback">Mass Market Paperback
by <a itemprop="author" href="/author/jd_salinger.html">J.D. Salinger</a>

<div itemprop="aggregateRating" itemscope itemtype="http://schema.org/AggregateRating">
<span itemprop="ratingValue">4</span> stars -
<span itemprop="reviewCount">3077</span> reviews
</div>

<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">
Price: <span itemprop="price">$6.99</span>
<meta itemprop="priceCurrency" content="USD" />
<link itemprop="availability" href="http://schema.org/InStock">In Stock
</div>

Product details
<span itemprop="numPages">224</span> pages
Publisher: <span itemprop="publisher">Little, Brown, and Company</span> -
<meta itemprop="publishDate" content="1991-05-01">May 1, 1991
Language: <span itemprop="inLanguage">English</span>
ISBN-10: <span itemprop="isbn">0316769487</span>

Reviews:

<div itemprop="reviews" itemscope itemtype="http://schema.org/Review">
<span itemprop="reviewRating">5</span> stars -
<b>"<span itemprop="name">A masterpiece of literature</span>" </b>
by <span itemprop="author">John Doe</span>,
Written on <meta itemprop="publishDate" content="2006-05-04">May 4, 2006
<span itemprop="reviewBody">I really enjoyed this book. It captures the essential
challenge people face as they try make sense of their lives and grow to adulthood.</span>
</div>

<div itemprop="reviews" itemscope itemtype="http://schema.org/Review">
<span itemprop="reviewRating">4</span> stars -
<b>"<span itemprop="name">A good read.</span>" </b>
by <span itemprop="author">Bob Smith</span>,
Written on <meta itemprop="publishDate" content="2006-06-15">June 15, 2006
<span itemprop="reviewBody">Catcher in the Rye is a fun book. It's a good book to read.</span>
</div>

</div>
...
</body>
[/html]

Lo sforzo richiesto ai creatori di siti web e webmaster non è da poco, a meno che non si implementi un qualche utile script per generare in modo semi-automatico molte strutture, magari pescando da database già esistenti.

Tuttavia, il vantaggio che si ottiene è quello di creare una pagina semanticamente impeccabile, dove c'è un posto per ogni cosa e ogni cosa sta al suo posto – al netto di quella perdita essenziale di certe minime sfumature di cui si diceva all'inizio.

[Premesso che, meta-dati di classificazione a parte, resta ancora tutto lo spazio che si aveva prima per far volare la mente e la penna e scrivere testi ricchi, complessi, pieni di dettagli e rimandi incrociati, ai quali la presenza dei micro-formati non toglie nulla, semmai arricchisce appunto di meta-informazioni.]

E qui torniamo al pensiero iniziale di Cantodinverno: ci sono settori in cui l'applicazione sistematica di questa nuova sintassi concordata potrebbe portare straordinari benefici (due esempi su tutti: Wikipedia e l'IMDB, il mega-database dei film, ma anche giornali on-line e tutti i siti di consultazione), mentre magari per piccoli siti il gioco non varrebbe la candela, perché forse gli attuali spider hanno già tutto il necessario per capire di cosa parla il sito senza bisogno di appesantirlo con tutto questo lavorio classificatorio minuzioso e un po' pedante.

La domanda si ripropone: cosa ne pensate voi di questa "rivoluzione in sordina"?

Ne hanno parlato poco perché alla fine vinceranno la pigrizia dei webmaster e la crescente intelligenza dei bot, o perché solo tra qualche tempo, con le prime applicazioni su vasta scala a mezzo di script semi-automatizzati, potremo finalmente apprezzare il genio che sta dietro a questa colossale meta-alberatura dei contenuti della Rete?

cantodinverno

Anzitutto, grazie per i chiarimenti.
Per quanto riguarda il discorso spider, sarebbe più logico creare una struttura CMS ad hoc, oppure migliorare gli spider, altrimenti la soluzione non ha futuro secondo me (è lo stesso motivo per cui ben pochi usano ancora il codice html in blocco note, preferendolo ai CMS...). Se può servire a salvare tantissime informazioni e a ritrovarle subito, ben venga

leonov

Su questo concordo appieno: occorrerebbero dei generatori automatici di codice per semplificare le operazioni, magari da introdurre in appositi CMS: il sistema pesca nel database le informazioni salienti e crea il modello pre-formattato con tutti i campi già riempiti.

Se non si fa così, per siti di grandi dimensioni l'impresa potrebbe rivelarsi semplicemente impossibile.

vnotarfrancesco

I generatori automatici ci sono già, esistono come servizi web esterni, ma il problema che avete sollevato costituisce oggi davvero un ostacolo all'adozione dei rich snippets.

Il problema si manifesta subito in quelle strutture anche piccole dove si lavora in team e la stessa pagina è elaborata in contemporanea sia dall'esperto seo sia dalla copywriter.
Occorre mettere appunto una precisa organizzazione del lavoro affinché il lavoro dell'uno non guasti quello dell'altro.

Sistemi automatici integrati penso che nel breve periodo possano essere appannaggio solo di cms proprietari, magari di grandi testate giornalistiche o grandi portali.

Per quanto riguarda gli spider, o meglio, gli algoritmi successivi al passaggio degli spider che poi organizzano le informazioni, già oggi sono molto sofisticati e la ricerca non si fermerà di certo.

Tanto per fare un esempio, se scriviamo un articolo su ruby, Google è già in grado di associare la nostra pagina al corretto ambito semantico separando prima e catalogando poi il nostro articolo in funzione del soggetto che può essere un linguaggio di programmazione oppure il nome di un personaggio femminile balzato all'onore della cronaca per via di certe vicende molto piccanti con un grosso esponente politico.
Se poi allarghiamo l'analisi anche ad altre lingue potrebbe anche essere un articolo su una gemma preziosa.

Tra gli algoritmi matematici che stanno dietro a questa "magia" dell'analisi semantica e che permettono ad una macchina di catalogare cose che invece noi persone siamo in grado di capire, il più famoso, studiato ed efficace è l'LDA, Latent Dirichlet Allocation. Per efficace intendo sia per i motori di ricerca ma di riflesso anche per chi come noi addetti ai lavori devono sviluppare pagine e relativi contenuti.

Google per poter applicare l'LDA e altri algoritmi semantici ha bisogno tuttavia sia di una grande potenza di calcolo, sia di una certa quantità di testo. Queste due necessità, testo e potenza di calcolo, sono molto costose, ed ecco perché per Google e per gli altri motori di ricerca, sarebbe molto comodo avere oltre al testo anche le meta informazioni.

Tra l'altro, schema.org definisce solo le strutture, cioè i contenitori vuoti, poi ci sono anche le raccolte di queste strutture, cioè gli oggetti, eventi, e persone vere. Freebase è tra i più grandi database di queste strutture e guardate in basso a destra chi se l'è comprato da poco tempo.

Quindi Leonov, in qualche parte sul web chiedevi se i webmaster adotteranno le strutture proposte da schema.org.
Io spero proprio che lo stiano già facendo e in caso contrario che inizino da subito a sviluppare i loro progetti includendo anche rich snippets ed elementi semantici.

Finisco questa noiosissima panoramica sul web semantico con una piccola nota di colore.

Lodevole l'iniziativa da parte dei 3 più grossi motori di ricerca commerciali dell'occidente di definire un linguaggio comune per i meta dati semantici, tuttavia Google ha già proposto delle sue varianti ad alcuni schemi molto importanti come ad esempio quello per l'autore e ha consigliato pubblicamente di iniziare ad usare il suo metodo.

Valerio Notarfrancesco

cantodinverno

Per Valerio: in realtà, sono pochi i committenti che chiedono agli articolisti degli articoli con i codici già da ora. Generalmente (almeno questa è la mia esperienza) o li chiedono in formato .doc e li copiano, oppure chiedono di inserirli su Wordpress pregandoli di non pubblicarli subito (in modo da poter far modificare il codice), oppure ancora li chiedono su generatori di codice html (alla Dreamweaver) in modo da modificarlo come meglio credono. Quindi, il problema del lavoro guastato nel passaggio tra l'articolista e il consulente SEO non si pone.