LOADING

La NLP (natural language processing) e la SEO

La NLP (natural language processing) e la SEO

by Ticiano Sgarbi Settembre 04, 2020
La natural language processing e la search engine optimization

È arrivato il momento in cui diventa palpabile l’avanzata dell’intelligenza artificiale in tutti i settori della vita umana. Oggi, sarebbe difficile elencare le attività che non abbiano ancora subito importanti cambiamenti portati dall’AI. In modo abbastanza scontato, nella SEO non potrebbe essere altrimenti. Anzi. Dato che l’esistenza stessa della search engine optimization viene convalidata dagli algoritmi dei motori di ricerca, quello che la SEO vive è una vera rivoluzione. I campi e gli approcci sono svariati. In questo articolo toccheremo una delle pietre miliari: la natural language processing o NLP nella SEO.

Come detto, gli influssi dell’intelligenza artificiale nella SEO sono numerosi e trattarli tutti nello stesso articolo rischierebbe la troppa superficialità. Dunque, in questo articolo tratteremo della NLP avendo sullo sfondo la SEO.

Che cos’è la natural language processing (NLP)?

Quindi, nel nostro esame tra la natural language processing e la search engine optimization, il primo compito è quello di rispondere alla domanda: che cos’è la NLP?

Dunque, risposta secca: per definizione la NLP è uno dei campi della linguistica (conosciuto come produzione del linguaggio in questo caso), scienze della computazione o anche dell’intelligenza artificiale in grado di leggere il linguaggio umano e trasformare i suoi dati non strutturati in dati strutturati comprensibili ai computer.  Non solo, la NLP si occupa anche del contrario: a partire di dati strutturati elaborare quel determinato contenuto in un testo fluido in grado di essere compreso dagli umani.

Infatti, la NLP tratta dell’elaborazione del linguaggio naturale umano da parte dei software. In poche parole, come “le macchine” sono in grado di sostenere dialoghi fluidi con noi umani, che questo linguaggio ce l’abbiamo naturalmente.

Il linguaggio è una competenza innata dell’essere umano, marchingegno della natura che non siamo ancora stati in grado di capire fino in fondo. A detta di molti, il linguaggio umano è la nostra rappresentazione per eccellenza. Non a caso, Ray Kurzweil, nel suo libro “How to create a Mind”, scrive (p.56), in una libera traduzione:

“Il linguaggio è in sé stesso altamente gerarchico e si è evoluto per approfittarsi della natura gerarchica della neocorteccia, che a sua volta riflette la struttura stessa della neocorteccia.”

Emulare la neocorteccia e le sue competenze uniche fa diventare lo sviluppo della NLP una grande sfida. Non è semplice farlo ma ci stiano avvicinando, vediamo come.

Alcuni esempi pratici della NLP

Passando alla pratica, oggi vediamo la NLP rendere possibili le interazioni fluide tra le persone e gli oggetti. Basta pensare alla facilità con cui possiamo dialogare con la nostra macchina, nel caso il sistema MBUX della Mercedes-Benz:

Oppure, la comodità e versatilità degli assistenti vocali come Alexa e Google Home. Nel video, alcuni esempi di quello che Alexa fa già in questo momento:

Certamente la NLP che è dietro MBUX e Alexa ha ancora ampi margini di miglioramento. Teniamo presente che in questo campo il tempo è davvero relativo, data la progressione esponenziale della tecnologia. Gli salti in avanti sono notevoli. Chi non ha mai sentito il commento della serie “ma dove andremo a finire con tutto questo?” Già… e siamo solo all’inizio.

NLP applicata alla SEO: BERT

Tornando all’argomento principale, dentro la SEO un esempio concreto della presenza e evoluzione della NLP è l’adozione da parte di Google di BERT, acronimo di Bidirectional Encoder Representations from Transformers. Questo aggiornamento degli algoritmi di Google è stato uno dei primi che ha segnato un’epoca nella SEO: non sono più presenti gli errori “da sistemare” nel contenuto dopo l’aggiornamento. Adesso, Google dichiara soltando che è l’esperienza complessiva degli utenti a dover migliorare.

In questo scenario, BERT è stato introdotto con l’obiettivo di aumentare la capacità di comprensione degli algoritmi di Google. Appunto, l’acronimo BERT contiene “Transformers”, che è il modello di dati utilizzato per comprendere le parole del testo. Quindi, BERT applica il modello Transformers in entrambi le direzioni del testo a partire dalla parola analizzata, non solo in avanti.

Dunque, quando andiamo su Google per fare una domanda come “cos’è il reindirizzamento 301”, il motore potrebbe rispondere:

La SERP di “cos’è il reindirizzamento 301”

È una redirezione di URL (URL redirection o URL forwarding) che indica che una pagina che prima si trovava a una determinata URL ora si trova su un’altra, in maniera permanente

Per trovare questa risposta, gli algoritmi hanno eseguito diversi sottocompiti per individuare quella più adatta, come la “name entity labeling” e la “question type classification”. Non vogliamo approfondire più di tanto le tecnicalità di BERT in questo articolo, qui ci basterà capire che l’interazione dei risultati di questi cluster determinerà la risposta con il punteggio più alto.

Questa stessa tecnologia è alla base anche di strumenti utilizzati non solo dalla SEO, ma praticamente da tutti, come Gmail o Android: la capacità di “indovinare” quale parola sarà la prossima, prima ancora che la scriviamo. Questo è BERT applicato.

La natural language generation (NLG)

Fino qui abbiamo visto come la NLP interpreta i testi già elaborati. Quindi, l’equivalente umano di leggere. Proviamo però ad immaginare cosa farebbe la NLP per scrivere? Questo è il campo di un’altra sottocategoria della NLP, la natural language generation o NLG.

La natural language generation ha come presupposto l’esistenza di dati strutturati, a partire dai quali sarà in grado di costruire un testo che li rinchiuda in un significato coerente. Un esempio di dati strutturati potrebbe essere questa tabella, pubblicata dall’Istat sull’andamento dei prezzi al consumo:

"Tabella
Variazione prezzi IPCA

Per rappresentare questi dati, l’istituto ha pubblicato una pagina dedicata all’analisi di questi dati. Un paragrafo come questo è la perfetta rappresentazione di quello che nel 2020 la NLG è già in grado di fare in modo perfettamente automatico (tratto dai dati Istat):

L’inflazione negativa continua a essere dovuta all’andamento dei prezzi dei Beni energetici, che registrano però una flessione meno marcata (da -12,1% a -10,3%), sia nella componente regolamentata (da -14,1% a -13,6%) sia in quella non regolamentata (da -11,2% a -9,0%). L’ampliamento della flessione si deve sia al rallentamento dei prezzi dei Beni alimentari (da +2,3% a +1,3%), causato da entrambe le componenti (gli Alimentari non lavorati, da +4,1% a +2,5%, gli Alimentari lavorati da +1,2% a +0,6%), sia all’ampliarsi della flessione dei prezzi dei Servizi relativi ai trasporti (da -0,1% a -0,9%).

Infatti, tra le svariate applicazioni della NLG, che crescono rapidamente, uno dei primi settori dove è riuscita a penetrare è quello dei report.

Vediamo ora cosa può fare la natural language generation nel campo della search engine optimization.

La natural language generation applicata alla SEO

Dunque, dicevamo prima che la NLG ha bisogno di dati strutturati per poter elaborare un testo comprensibile dall’uomo. Ristringendo questo elemento al campo della SEO, quali dati strutturati possono essere utili alla NLG?

Bisogna fare una premessa che i dati strutturati arriveranno attraverso i data points, che possono essere infiniti. Non solo, i data points variano a seconda degli obiettivi del contenuto che si vuole creare. In modo indicativo ma non esaustivo, alcuni dei dati strutturati utili all’accoppiata SEO-NLG possono essere:

  • le parole chiave: la keyword principale, ma anche le long-tail, le domande, i sinonimi più frequenti;
  • descrizione e attributi di un prodotto: i colori, taglia, collezione, marchio, prezzo;
  • testi dei competitor: pezzi già esistenti che disputano gli stessi spazi nelle SERP;
  • i testi creati a partire dalle telefonate e assistenti vocali: un enorme database possibile per un’azienda che si occupa di supporto al cliente;
  • i testi già esistenti sul sito, ebook o blog del cliente.

Qui è necessario evidenziare quanto le parole chiave siano ancora un importante strumento per indirizzare il contenuto che stiamo per creare verso l’intento di ricerca che vogliamo soddisfare. Sicuramente è meno importante di quanto lo sia stato in un passato recente, ma è uno strumento ancora fondamentale. Con l’evoluzione dei modelli di elaborazione dei dati, la funzione delle keywords tende a sparire completamente.

Infatti, i modelli elaborano una quantità di variabili che cresce in modo esponenziale: basta pensare che l’ultimo modello, il GPT-3, elabora 175 miliardi di parametri, mentre il suo predecessore si fermava a “soli” 1,5 miliardi. A proposito di modelli di elaborazione di NLG, andiamo a vedere nel dettaglio alcuni dei più famosi.

I modelli della NLG: ELMo

Acronimo di Embeddings from Language Models, il modello ELMo è stato sviluppato nel 2018 da Allen NLP.  Funziona come una rappresentazione di parole in contesto profondo che lavora sia la complessità dell’uso stesso delle parole, che la polisemia (contesto linguistico). Si avvale di due stratti di vettori, bidirezionali (prima e dopo la parola messa sotto le lenti).

È abbinabile ad altri modelli, aumentando sensibilmente l’efficacia dei testi creati. Utilizza tre rappresentazioni: quella dei caratteri (andando oltre i modelli utilizzati nell’addestramento), la profondità e quella che la contraddistingue: la contestuale.

Grover: un antidoto contro le fake news?

Nato come un’evoluzione del modello GPT-2 (ne parleremo di seguito), Grover svolge il ruolo di indirizzare meglio il testo creato, dandone più senso.

Pubblicato dall’Università di Washington nella metà del 2019, Grover è in grado di predire “la prossima parola” non solo in base alle parole precedenti, ma anche con altri elementi non presenti nel GPT-2 come il titolo e l’autore. Sembra poco?

Niente affatto! Nel frattempo, curiosi sperimenti sono stati fatti utilizzando Grover nella produzione di notizie false. Sì, ha letto, bene, le celeberrime fake news. A partire da un dataset come il sito di una testata, Grover si è dimostrato molto efficiente nella capacità di creare una quantità enorme e abbastanza coerente di notizie verosimili ma false.

Infatti, riprendendo ogni elemento di una notizia, Grover è in grado di cambiarli tutti in modo coerente, dal titolo, al testo, all’autore, alle immagini. Alla fine, la notizia è simile all’originale, ma con un orientamento completamente diverso.

Come sempre, con la tecnologia si possono fare cose nobili e anche quelle meno nobili. Anche con Grover è così: siccome il suo modello è in grado di creare le fake news è ugualmente in grado di riconoscerle con alta percentuale di precisione. Infatti, ci è riuscito il 92% delle volte. Bravo, vero? Quindi, questo potrebbe essere un punto di partenza di costruire tool di fact-checking.

XLNet

Un team di ricercatori di Google Brain e della Carnegie Mellon University ha lavorato sui principali difetti di BERT e ha sfruttato la nuova architettura Transformer-XL per rilasciare XLNet, ottenendo SOTA su 18 attività di PNL.

XLNet migliora l’archiettura Transformer-XL superandola in velocità (più di 1800 volte, a detta di Google) e aggiungendo la ricorrenza a livello di segmento e la relativa codifica posizionale.

Il modello XLNet è in grado di elaborare frasi più lunghe e di mantenere dipendenze più a lungo termine rispetto l’architettura del modello Transformer precedente. Infatti, Transformer-XL può migliorare la performance tra l’80 e il 450% rispetto rispettivamente agli RNN e ai Transformer standard.

In questo gif, è possibile avere un’idea più dettagliata sul meccanismo di ricorrenza a livello di segmento di Transformer-XL:

Segments of Transformer-XL

I segmenti del Transformer-XL

OpenAI

Quando parliamo di natural language generation, un capitolo a parte deve essere dedicato all’americana OpenAI. Fondata a San Francisco nel 2015 da alcuni personaggi noti dal mondo tech come Elon Musk e Reid Hoffman, è cresciuta esponenzialmente in questi quasi 5 anni.

Non a caso nel 2019 OpenAI ha ricevuto da Microsoft US$ 1 miliardo di investimenti. Microsoft, insieme all’indiana Infosys sono le azienda che fanno parte di OpenAI.

L’importanza di OpenAI per la generazione di linguaggio naturale sta nei suoi modelli, conosciuti come GPT.

Il primo Generative Pretrained Transformer (GPT)

Rilasciato nell’ormai lontano 2018, il primo GPT era capace di imparare e stabilire le dipendenze (le stesse del Transformer) in modo autonomo, elaborando enormi moli di dati.

Il GPT-2

La seconda versione, battezzata come GPT-2, è stata pubblicata nel febbraio del 2019. L’azienda ha suscitato scalpore nel limitare le funzioni del GPT-2 disponibili al pubblico. Si è giustificata con il possibile uso inadeguato della nuova tecnologia, in particolar modo alla proliferazione delle ormai celeberrime fake news. E da qui è nato il modello Grover, descritto sopra.

Il modello generatore GPT-2 è stato allenato in 8 milioni di documenti, raggiungendo 40gb di testo, con oltre 1,5 miliardi di parametri.

Il GPT-2 ha rappresentato un’enorme evoluzione nella natural language generation perché in grado di creare testi veramente realistici, come mai nessuno era riuscito prima. Infatti, molte prove sono state fatte e in molti casi non è stato possibile riconoscere i testi creati da umani e quelli dal GPT-2. Ricordiamolo, non a caso Open AI ha deciso di limitare le funzioni disponibili al pubblico.

Di seguito, cos’è successo? Alcuni ricercatori sono riusciti ad emulare il modello di GPT-2, questa volta però rendendo pubblici tutti i risultati ottenuti. Naturalmente questo fatto ha scatenato un’onda mondiale di creazione di nuovi contenuti, purtroppo molte volte con scopi poco confessabili. Ancora una volta, Grover è stato il tentativo di arginare questo fenomeno.

Come punto debole, il GPT-2 presenta la difficoltà di mantenersi coerente in lunghi estensioni di testo. Alcune prove hanno evidenziato la soglia massima di 400 parole come limite tecnico.

L’avvento di GPT-3

Il maggio 2020 segna l’arrivo della terza generazione della serie GPT-n. Se la precedente GPT-2 aveva già fatto un enorme balzo in avanti con i suoi 1,5 miliardi di parametri, cosa dire del GPT-3 che si presenta con 175 miliardi di parametri? Sono ben 116 volte più parametri di prima!

Il modello GPT-3 è stato allenato con l’unità di elaborazione grafica Tesla V100, tramite la lettura di centinaia miliardi di documenti da fonti che vanno da Wikipedia a Common Crawl, passando da libri e altri tipi di documenti webtext2.

L’evoluzione dei segmenti utilizzati nei calcoli è ugualmente notevole: il modello più piccolo utilizza 12 segmenti con testate da 12×64 dimensioni, mentre il più grande arriva a 96 segmenti con testate da 96×128 di dimensione.

Infatti, dal luglio 2020, quando il GPT-3 diventa disponibile nella versione beta, gli addetti al lavoro l’hanno accolto con entusiasmo. Nella SEO in particolare, il modello si è dimostrato capace di produrre testi brevi d 200 parole con elevata qualità, senza dover essere “aggiustati” da umani.

L’uso pratico della NLG nella SEO

Una delle prime prove con il GPT-3 ad essere pubblicate è quella di Will Critchlow in questo ottimo articolo di Search Pilot . Le sue conclusioni sono chiare. In questo momento il modello GPT-3 è in grado di aiutare la SEO con:

  1. la conversione di elenchi puntati in testo accattivante;
  2. provare la variazione di parti del testo come titoli, cosa poco fattibile con copywriter;
  3. a partire dai dati strutturati, costruire testi di maggior lunghezza come quelli descrittivi di prodotti sugli ecommerce.

Ho chiesto a Critchlow il suo parere sui prossimi sviluppi del GPT-n per i prossimi 2 anni. A suo avviso, “i contenuti che possono richiedere centinaia o migliaia di cose simili scritte meccanicamente, come ad esempio i titoli saranno solitamente scritti dall’intelligenza artificiale.” Aggiunge che però “i contenuti più lunghi o più creativi saranno ancora piuttosto sperimentali”.

Dunque, di strada da fare ce n’è ancora, l’autonomia totale è distante. Gli ho anche domandato se si aspetta che la NLG in generale sia grado di produrre questi contenuti autonomi a breve. Secondo lui, possiamo aspettarcelo “in termini di essere in grado di produrre un testo coerente” però nutre qualche dubbio se rimpiazzerà “le cose per cui i lunghi contenuti sono creati, come fornire informazioni dettagliate”.

Poi elabora un’interessante sintesi: “La direzione è che la tecnologia sta diventando sempre più coerente senza essere necessariamente più ricca di informazioni”.

Possiamo concludere che, anche se succede già che i copywriter siano sostituiti dall’intelligenza artificiale, come ha di recente fatto MSN (aka Microsoft), il momento in cui non saranno più necessari non è ancora arrivato.

Vuoi provare la NLG?

Prima di chiudere questo capitolo, un suggerimento: se hai curiosità di provare il GPT-3 in azione, ti consiglio di andare sul sito Philosopher AI, dove potrai fare delle domande in inglese. Sarà l’intelligenza artificiale a risponderti.

Avviso anti-spoiler: tutte le domande politicamente scorrette vengono “gentilmente” declinate con un “Philosopher AI thinks this is nonsense, and is refusing to answer your query. It appears you will have to try something else.

In mezzo a questa “AIzzazione” della SEO, cosa farà Google?

Innanzitutto, chiariamo meglio questa domanda che suona provocatoria. Come abbiamo visto fino adesso, i modelli utilizzati dalla natural language generation, in particolar modo GPT-3, si sono sviluppati enormemente. Infatti, la NLP e nello specifico la NLG sono giunte ad un punto tale che, se non sono ancora in grado di produrre autonomamente i testi, riescono già a farlo in modo parziale oppure ci vanno molto vicino.

Dato che quasi tutti i testi vengono indicizzati da Google, diventato onnipresente sestante dell’umanità, bisogna chiedersi cosa intende fare il motore di ricerca. Nelle sue linee guida, Google espressamente dice di poter prendere provvedimenti contro “Testo generato tramite processi automatizzati, ad esempio catene di Markov”.

Qui si apre un dibattito, perché sembra abbastanza scontato che le linee guide siano state concepite in un tempo dove la generazione automatizzata di testo era in realtà equivalente a spammare. Ora, questo è cambiato. Tutti conosciamo quanto Google metta al centro la qualità e la rilevanza dei contenuti nei suoi algoritmi. Se l’AI è in grado di aiutare la SEO, creando pezzi di qualità, che veramente aggiungano valore all’esperienza dell’utente, perché punire questa pratica?

Per ora non è dato sapere. Come ha ricordato Will, per ora Google riconosce l’esistenza del dibattito all’interno dell’azienda. Staremo a vedere. Difficile immaginare che le linee guide prima o poi non cambino, consentendo la pratica.

"NLP
La natural language processing

Il futuro: spariranno i copywriter e useremo solo la NLP?

Questa è una domanda che in realtà rispecchia una domanda più ampia. Infatti, l’intelligenza artificiale avanza e conquista territori in una velocità più che esponenziale. Ogni attività umana viene eseguita e a volte anche gestita dall’AI. Chi non si è mai posto la domanda, su cosa faranno gli umani in questo scenario?

Allo stesso modo, se la natural language creation sarà in grado di produrre in autonomia nuovi testi coerenti e ricchi di significato per la SEO, cosa resterà alla professione dei copywriter, così importante attualmente? In teoria cederebbe spazio completamente. Ma questo succederà? Quando potrebbe succederà? La domanda si giustifica dalla straordinaria evoluzione della NLP, superando l’evoluzione dei chip stessi.

In questo momento non abbiamo elementi concreti per essere assertivi su quando, nemmeno se davvero succederà. Quello che si può dire, elementi di realtà in mano, è che la strada sia già tracciata.

Social Shares

Iscriviti adesso alla nostra newsletter

Info, idee e aggiornamenti per il tuo business

Related articles