Voglio condividere un colab molto utile, fatto da Andrea Volpini, che permette utilizzare BERT per la generazione automatica delle meta description mancanti. https://colab.research.google.com/drive/1TeASgjfCGiZY7VjxcQmHIHHjy5L9Z-j1
Si comincia col caricare un csv esportato da Screamingfrog (collegato alle API di Analytics e GSC), e vengono individuate tutte le pagine senza meta description (o con una troppo corta) e che soddisfino alcuni requisiti (includere o escludere aree del sito, un certo posizionamento o CTR, ecc.).
Una volta creato il dataset si lancia BERT (versione multilangual se il sito è in italiano) per la generazione della meta. Ricordiamo che BERT usa la abstractive text summarization che al contrario di quella estrattiva prevede non l’individuazione delle frasi salienti nel testo ma la generazione di un nuovo testo, di solito combinazioni di parti di frasi estratte – ovviamente semplifico.
Qualche indicazione fondamentale per usare il colab:
Una volta esportato il csv da screamingfrog direttamente in Google sheet, è necessario pubblicare lo stesso csv sul web (da menu file e poi selezionando il nome del foglio e la modalità csv separato da virgole). L’url ottenuto andrà inserito nel blocco “using screaming frog” subito dopo !wget
Copiare la stringa completa pub?gid ottenuta dopo aver eseguito il codice (play)
E inserirla nel blocco successivo subito dopo pd.read_csv
Fondamentale, nello stesso blocco, indicare il numero delle colonne del csv (la prima è numerata 0) su cui si vogliono applicare i filtri per l’estrazione.
Sicuramente le colonne 0, ossia URL, e 2 (lo Status code, così da filtrare solo le pagine che restituiscono 200), 10 o 11 per meta description length o la pixel width, e poi il numero delle colonne coi valori estratti da Analytics e/o GSC, per esempio la Posizione (per risparmiare tempo se le pagine sono molte potremmo filtrare solo quelle che si posizionano in pagina 1, o fino alla ventesima posizione).
Infine play su l’ultima libreria permette di salvare il nuovo csv contenete gli URL delle pagine e relativa meta description. Come sempre quando si parla di generazione automatica di testi (NLG) bisogna controllare e fare le proprie valutazioni. In generale se una pagina è molto importante meglio scrivere la description a mano ma del resto questo colab serva a lavorare sulla description “dimenticate” e quindi, si spera, su pagine non fondamentali.
Appena capisco come caricare screenshot qui su Connect, faccio un vero tutorial
MaxxG
@MaxxG
La passione per la semiotica, la scrittura e l’organizzazione dell’informazione lo spingono a specializzarsi in strategie di Content Marketing e SEO, con grande passione per la Semantic Search, schema.org, i Knowledge Graph e in generale tecnologie e pratiche per la rappresentazione della conoscenza, e la Machine Readability: cose di cui si occupa con Studio Makoto, agenzia di Digital&Branding di cui è cofondatore.
Co-autore del romanzo di sci-fi distopica Morte ai vecchi (Baldini&Castoldi) tradotto in spagnolo e inglese; curatore delle antologie d'arte "True Visione" e "Mutant Kiddies" per il mercato americano; amante di arte contemporanea , poesia e cultura psichedelica!
I migliori post di MaxxG
-
Hai dimenticato alcune meta description sulle pagine del tuo sito? Falle scrivere a BERT!
-
Bill Slawsky in italiano
Segnalo una iniziativa di Wordlift che sta iniziando a tradurre in italiano una serie di Articoli di Bill Slawsky l'infaticabile "cacciatore di brevetti" di Google. Leggere i brevetti è molto importante. Se da un lato bisogna tener presente che non si tratta sempre di tecnologie realmente implementate, ci danno però una indicazione della direzione in cui Google si muove, quali sono i problemi che deve affrontare, e le diverse strade che tenta di battere per superarli, strade che poi possono tradursi in update dei suoi algoritmi.
Questo è un articolo introduttivo dello zio Bill sulla SEO semantica, argomento di cui, spero, si inizi a parlare sempre più anche in Italia, come ormai si fa da qualche anno nella community SEO internazionale.
L'articolo non solo introduce il concetto di SEO semantica sottolineando le differenze fra una SEO basata sulle entità e la SEO basata su keyword, ma è costruito per essere il punto d'accesso a tutti gli articoli di Slawsky sui molti brevetti che riguardano l'argomento. https://wordlift.io/blog/it/seo-semantica/Un paio di articoli più specifici, sempre in italiano.
https://wordlift.io/blog/it/google-query/
https://wordlift.io/blog/it/ranking-notizie-principali-google/ -
Nascita e funzionamento del Google Knowledge Graph
Se qualcuno avesse voglia ho scritto un articolo introduttivo, ma non scontato sul google Knowledge Graph, dalla sua nascita con l'acquisizione di MetaWeb, al concetto di entità e tripla a una lunga serie di consigli su come ottenere un Knowledge Panel.
https://studiomakoto.it/digital-marketing/nascita-google-knowledge-graph/
Ogni feedback è benevenuto. -
la Top10 dei post più letti del 2020 sul sito del Nielsen Norman group
Ecco la Top 10 dei post più popolari dell'anno:
https://www.nngroup.com/news/item/top-10-ux-articles-2020/Oltre all'articolo sui nuovi pattern di lettura emersi nel nuovo studio condotto dal gruppo segnalo anche l'articolo sui PDF. anche in questo caso si tratta di un aggiornamento di uno studio risalente a 20 anni fa, e l'esito è sempre lo stesso. PDF sucks! Be' non proprio, ma resta un medium pensato per la stampa di difficile fruizione online e, soprattutto, detestato dagli utenti.
https://www.nngroup.com/articles/pdf-unfit-for-human-consumption/Per i nerd dei controlli UI, un articolo con tutto, ma proprio tutto quello che c'è da sapere su Listbox e Dropdown list
https://www.nngroup.com/articles/listbox-dropdown/E per chi è orientato al marketing 7 modi per analizzare una customer journey map
https://www.nngroup.com/articles/analyze-customer-journey-map/ -
RE: AI e SEO: come cambia il ruolo dello specialist?
@kal ha detto in AI e SEO: come cambia il ruolo dello specialist?:
Questo è un (e a mio parere attualmente l'unico) uso dei testi generati da IA veramente validi, quello che parte dai dati strutturati e permette di scalare su un inventario di oggetti.
Per quanto riguarda i dati strutturati al momento sto sperimentando, dopo aver creato il knowledge graph di un sito, con la creazione degli embedding e la loro visualizzazione con Projector il tool gratuito di
Google https://projector.tensorflow.org/ che clusterizza i topic trattati (utile ad esempio per creare un sistema di suggerimenti o articoli correlati).
Un ottimo punto di partenza se si vuole fare topic clustering
https://wordlift.io/blog/en/content-hub-seo/
Se non si ha wordlift si può creare comunque un knowledge graph, l'importante ė esplicitare nei dati strutturati le entità (topic) di cui tratta la pagina attraverso le prometti about e mentions e a partire qua queste generare le triple (soggetto-predicato-oggetto) che costituiranno il grafo.
In una live che faremo presto con @giorgiotave mostrerò The entities Swissknife una app in python che ho sviluppato proprio per individuare i topic di un articolo ed esprimerli in json-ld per iniettarli nel proprio schema.Tornando alla NLG per e-commerce, consiglio la visione di questo webinar che si è appena concluso
in cui, anche senza nominarlo, viene mostrato il lavoro fatto da Andrea Volpini per Luxottica. Credimi, le descrizioni di prodotto (con le categorie è in un certo senso più facile) sono non solo indistinguibili da quelle scritte da un copy abile, ma generate dopo un addestramento che tiene conto del tone of voice dell'azienda e dei vari brand per cui essa produce occhiali, e i testi risultanti sono declinabili anche al maschile o femminile, o comunque dinamicamente presentati in base all'utente che naviga il sito.
La sola generazione di FAQ ha portato a risultati piuttosto impressionanti.
La nuova frontiera della automazione sta nel rendere semiautomatica la validazione dei risultati, laddove il dataset per fare il fine-tuning rimane "a carico" di un copy.
Nel webinar si accenna a https://snorkel.ai/ il tool sviluppato a stanford che usa anche Google per il labeling automatico dei dataset e la successiva validazione (nel caso di Luxottica serve a validare i risultati della 'IA che si occupa di generazione del testo - in questo caso Jurassic-1e T5 - a riconoscere tutti gli attributi e relativi valori rilevanti per i prodotti venduti e generare testi tenendone conto, oltre a tenere conto della SEO inserendo le kw necessarie).
In generale quello che consiglio è di usare direttamente le API di questi modelli e di fare un training specifico per progetto, e usare
invece tool per lavori generici in cui bastano few shots (Closerscopy e Frase, ad esempio, permettono di creare dei template nutriti coi nostri
3-5 esempi e concatenarli in workflow complessi). -
2 tool gratuiti per verificare se Google ti cambia i Titoli
Il primo tool parte da un URL o una sitemap e restituisce le eventuali modifiche scaricabili anche il JSON
https://www.seowl.co/title-rewrite-checker/
Qui invece un comodo bookmarklet (in fondo alla pagina) da cliccare direttamente in SEP per visualizzare cosa stampa Google , il tag title e l'H1.
https://haensel.pro/seo/bookmarklet-compare-serp-titles-to-actual-onpage-titles-and-h1-heading -
RE: Semantic Publishing per Google e SEO
@valerio_treviso intanto grazie concordo con @alepom il punto di partenza sono le risorse ufficiali. Purtroppo schema.org non pubblica buona documentazione di carattere generale ma schema di studia osservando gli esempi e di quelli ne trovi tanti sul sito di schema. Ti consiglio assolutamente il blog di schema app, uno dei tool migliori per la gestione di schema. Hanno anche un canale e Marta van Berkel fa dei video da cui si impara tanto soprattutto in ambito e-commerce ed healthcare (un tipo di schema in cui sono specializzato). Il bello di schema è che è lì a tua disposizione su ogni pagina web per essere analizzato. Fatti un elenco personale dei migliori e studiali. Fa un archivio personale dei vari tipi di schema che implemento e avrai i tuoi mattoncini con cui creare schema anche per altri siti senza ripartite ogni volta da schema. Lanciati nella scrittura manuale, la struttura e fatta solo di tipi, property e valori, e la sintassi di , e graffe. Non c'è modo migliore per comprendere le logiche di schema e la creazione di schema avanzati che scriverli a mano. Io per siti di poche pagine scrivo a mano usando i miei mattoncini.
Corsi in italiano non ce ne sono, o meglio non ancora -
Linguistica computazionale, gratis con Voyant
Per chi non lo conoscesse, segnalo https://voyant-tools.org/ un set di tool online, assolutamente gratuito, o meglio un ambiente per l’analisi testuale, come lo definiscono gli autori. Voyant permette di analizzare singoli documenti o, ancora più interessante, di creare dei corpus (per esempio per analizzare l’opera di un autore, o le prime 10 pagine di una SERP). È possibile inserire URL in bulk o incollare testi o caricare doc, pdf, rtf.
I tool di analisi sono i più svariati, dalle Bubblelines (il testo è il segmento e le parole le bolle), le classiche cloud, qui chiamate più poeticamente cirrus (di cui è possibile definire il numero di parole contenute), Corpus collocates (una tabella in cui solo elencate le keyword impostate e vengono indicate tutte le parole prossime alle varie occorrenze, con le relative frequenze), e ancora Mandala che valuta le occorrenze all'interno di un corpus e ne rappresenta la frequenza in base alla vicinanza al documento del corpus posto all'interno del mandala e tantissime altre come (StreamGraph, TermsRadio, Topics, Trends, WordTree...).
Il tutto con una interfaccia pulita e di immediata comprensione. Nato per altri scopi (linguistica computazionale in campo letterario) può tornare utile anche per analisi comparative in ambito SEO, a livello si SERP ad esempio, o almeno è così che lo uso io.
Ah dimenticavo, oltre che gratuito è pure tradotto in italiano! -
RE: Colab (python) per la SEO
@aledandrea Una interessante chiacchierata con Hamlet Batista su NLP e python per la SEO
-
RE: Indicizzazione difficile - (Richiesta indicizzazione sparito da google search console?)
@crollo1978 prova a usare direttamente le API di indicizzazione e visto che il sito non è in WP e quindi non puoi usare il plugin puoi farlo direttamente in node.js (poi dipende dal linguaggio che vuoi usare)
Prima vai nella google cloud console, crei un progetto e abiliti le API di indicizzazione, le attivi e ottieni il service account (in forma di un indirizzo email) che andrai a inserire nella tua proprietà su search console.
Poi puoi usare Node.js da cui ti autentichi e sui le API e di solito Gbot arriva entro 48 ore.
developers.google.com/search/apis/indexing-api/v3/libraries#nodejs
davidsottimano.com/playing-with-googles-new-indexing-api-and-getting-pages-crawled-immediately/ -
RE: Google December 2020 Core Update: parliamone!
La dashboard di Aleyda Solis su Data studio per monitorare gli effetti dell'update attraverso la connessione a SC. Ad es. controlla l'andamento della posizione media e click o del CTR negli ultimi 4 giorni delle 40 top query o pagine. E' ancora un po' presto ma fra qualche giorno dovrebbe cominciare a valutare l'impatto.
www.aleydasolis.com/en/search-engine-optimization/google-update-analysis-search-console-data-studio-report-template/ -
Google NLP demo interrompe il servizio
Lo scorso agosto Google ha rimosso dal web l'accesso gratuito alla demo delle NLP (natural language processing). Interpellato da Dixon Jones John Mueller ha risposo di non saperne niente (si tratta di team diversi) e forse le API erano troppo usate, o forse troppo poco, oppure potrebbero cambiare.
Che l'API fosse lontana dai modelli interni usati da Google è dato per certo da chiunque si occupi di NLP e abbia testato altre API (anche l'italiana Dandelion).
L'ipotesi che l'uso fosse eccessivo è quello in cui spero perché vorrebbe dire un nuovo orientamento dei SEO che capiscono l'evoluzione di Google verso una deep learning based company che investe sempre più sulla comprensione del linguaggio naturale (NLU). Dubito però che le cose stiano così.
Le API ovviamente esistono ancora e chiunque può usare la quota libera interrogandole con poche righe di codice.
Appena avrò un attimo proverò a fare una pausa da una app di Entities Recognition che sto sviluppando per scrivere e rilasciare su Streamilit per permettere di usare l'API di google inserendo la propria key.
Per il riconoscimento delle parti del discorso ci sono già i moduli si spaCy (la più nota libreria open source di NLP) accessibili a chiunque. -
RE: Semantic Publishing per Google e SEO
Visto che l'argomento a riscosso un certo interessa - devo ammettere che temevo potesse risultare un po' troppo nerd e palloso ^^ - ho voluto scrivere un articolo per mettere un po' in ordine le premesse più concettuale e poi fornire un how-to per chi volesse provare The Entities' Swissknive la app che ho mostrato nel workflow di semantic publishing.
https://studiomakoto.it/digital-marketing/entity-seo-e-semantic-publishing/ -
Come leggiamo online? dopo 15 anni la nuova edizione del celebre studio Nielsen
Dopo 15 anni, nel 2019, è uscita la nuova edizione del classico studio del Nielsen Norman Group su come leggiamo online.
https://www.nngroup.com/reports/how-people-read-web-eyetracking-evidence/
Qui una breve sintesi:
https://www.nngroup.com/articles/how-people-read-online/Il nuovo "pinball pattern" di scansione delle SERP è quanto di più rilevante emerso. si tratta peraltro dell'unico gaze-pattern che distingue i lettori americani da quelli cinesi, probabilmente legata alle differenze sostanziali con la struttura e le feature della SERP di Baidu.
Pattern di scansione invariati dal 2006 al 2019:
F-pattern
Layer cake pattern
Spotted pattern
Commitment pattern
Exhaustive review pattern
Bypassing pattern
Zigzag pattern
Sequential pattern
Love-at-first-sight patternUna importante differenza nei formati dei contenuti, rispetto al 2006, è la popolarità degli inserti Inline e delle tabelle (anche comparative) che generano degli specifici comportamenti di lettura:
"while both pull quotes and inline messages received fixations in our study, we also noticed that they tended to disrupt reading". -
RE: Quanti di voi è stufo nel scrivere un articolo?
Buongiorno @kyle46, a me capita di stancarmi o, romanticamente, non trovare ispirazione, in base a che tipo di scrittura mi dedico e quindi, per prima cosa, cerco di differenziare quotidianamente quel che scrivo. In svariate occasioni, il mio vecchio maestro Eco, diceva di fare un mix quotidiano di scritture, perché è fondamentale non abbandonare mai più di qualche giorno penna o tastiera (eh sì in certi casi scrivere a penna può essere più proficuo - qualcuno qui usa mai carta, penna e calamaio?, Be' no il calamaio no non esageriamo?). Ossia, nel suo caso, un po' di scrittura giornalistica, un po' di scrittura relazionale (per lui le lettere, per noi le email al di fuori dell'email marketing, o le interazioni in questa community), saggistica accaddemica, e poi scrittura che appaghi e diverta (per lui, come per me, con esiti ben più modesti, la narrativa. È una questione di piccoli rinforzi motivazionali: scrivo un articolo di cui mi interessa poco, scambio di informazioni con amici, tutto ciò che ci dà il pane, e poi, come una sorta di premio o svago la scrittura che piace e coinvolge davvero (se poi pane e piacere coincidono abbiamo fatto tombola!).
-
RE: Ed è così che ho ottenuto vari "Backlink di qualità" per il mio sito web...
@kal ha detto in Ed è così che ho ottenuto vari "Backlink di qualità" per il mio sito web...:
potrebbe non essere una pratica applicabile in tutti i casi, specie quelli un po' competitivi...
in effetti in nicchie competitive nessuno te lo lascerebbe fare, né mai potrebbe funzionare con siti di grossi editori. Nella mia (seppur limitata) esperienza con la linkbuilding, tutte le tattiche più citate, sempre riferite al mercato americano, non funzionano: ci sono nicchie in cui niente funziona, se vuoi link che spostino qualcosa devi pagare, perché tutti i blogger sono professionisti o cercano di diventarlo e talvolta si "associano" fra loro citandosi ma non ammettendo assolutamente link esterni, soprattutto a brand (anche se si trattasse di progetti speciali con contenuti "benefici", se vedono coinvolto un brand pensano subito che dietro il progetto ci siano chissà quanti soldi e vogliono la loro parte).
Per esempio mi è capitato di proporre una attività che ho chiamato di guest-QA, in pratica ho proposto ad alcune top blogger nella mia nicchia di interesse di raccogliere dalla propria community una serie di 5 domande alle quali avrei fatto rispondere da degli esperti (autori di libri, docenti universitari, insomma davvero qualificati). Attività che dà valore alle loro community facendole anche interagire. Risultato? Proposta piaciuta e accettata ma solo dietro compensi mediamente di 400€ nonostante il loro sforzo fosse davvero minimo. -
RE: Girl Power nell'informatica...è aumentato?
@caygri-com Eppure la storia della computer science è sempre stata piena di done, poi qualcosa è andato storto come titola un bellissimo articolo del NYT https://www.nytimes.com/2019/02/13/magazine/women-coding-computer-programming.html
Mi pare che la situazione si stia lentamente bilanciando con il contributo dei feminism studies che si sono sempre interessati anche al gender gap in ambito scientifico (certo da noi si salutano ancora delle vincitrici di Nobel sottolineando il loro essere donne come se l'eccezionalità stesse lì).
E visto che siamo su connect.gt immagino tu conosca la community https://www.womenintechseo.com/
con bravissime seo molto attive su Fb.
Il panorama italiano mi pare molto più deprimente, non ho dati ma davvero poche "colleghe" dev. -
RE: Quanti di voi è stufo nel scrivere un articolo?
@glanzi ha detto in Quanti di voi è stufo nel scrivere un articolo?:
Progettare UI di alcune pagine web complicate
Anche io per alberature e UI tendo a lavorare a penna e poi coi tool. E da un paio di mesi che esploro il design thinking e i suoi metodi e devo dire che il ritorno alla manualità (Canvas, post-it) e al gioco mi piacciono molto.
Per i testi per il web lavoro con il PC, per il primo romanzo ho riempito una 20ina di Moleskine. -
RE: SEO semantica : esiste davvero ?
Grazie a tutti per la stimolante conversazione. Proprio oggi qui su connect.gt ho pubblicato un articoletto contiguo a questa tematica
connect.gt/topic/243534/tool-ai-based-per-l-ottimizzazione-on-page-e-analisi-delle-serp
in cui riprendo la famosa affermazione di Bill Slawski: "LSI keywords do not use LSI, and are not keywords.”@kal fa bene a sottolineare come di dovrebbe piuttosto parlare di Markup semantico:
markup HTML semantico: https://developers.google.com/style/semantic-tagging
markup semantico tramite microdati: https://en.wikipedia.org/wiki/Microdata_(HTML)Sono assolutamente d'accordo e mi piacerebbe molto sapere se qualcuno qui ha fatto dei test aggiungendo agli articoli microdati relativi alle entità (per esempio vari id thing all'interno dello schema Article).
Come scritto giustamente da @giuplata, Google è perfettamente in grado di disambiguare semplicemente da informazioni contestuali esplicite, ma quindi questo tipo di microdati possono avere una reale influenza al fine del posizionamento? Come dicevo mi riferisco a microdati relativi a entità citate nel testo non a quelli più "generici" pensati per i rich snippet (come FAQ) o per l'E-A-T (come person e organization), tanto per fare esempi facili, o a tipologie di contenuto specifiche (come le ricette).
Plugin come Wordlift, al quale qui su connect si è accennato ma che mi pare nessuno abbia testato, servono proprio a semplificare l'inserimento di questi microdati dedicati alle entità (non solo thing, ma anche person, inteso come persona di cui si parla nell'articolo e non come autore dell'articolo stesso, e decine, anzi centinaia di altri).
Ieri ho letto la loro documentazione ufficiale (docs.wordlift.io/_/downloads/en/latest/pdf/) e mi è sembrato molto interessante, al punto da meritare una prova approfondita su un set di articoli per vedere che succede.
Vi farò sapere. -
RE: Voice technology. Le nuove sfide del marketing
Finito Lupi sulla business strategy, poi è il turno di Crestodina libro unico sul content marketing, e poi il è il turno di @alepom, avanzato in prima posizione nella mia pila di libri da leggere