Una pausa nello sviluppo di AI potenti?

alepom

Una pausa nello sviluppo di AI potenti?

Un'importante raccolta firme per una pausa nello sviluppo di AI più potente di GPT-4.

Una pausa per sviluppare la sicurezza e per coinvolgere le istituzioni in questa enorme accelerazione.

Consiglio a tutti di leggere questa lettera aperta, e soprattutto di osservare chi l'ha già firmata.

"Potenti sistemi di intelligenza artificiale dovrebbero essere sviluppati solo quando saremo certi che i loro effetti saranno positivi e i loro rischi saranno gestibili".

juanin

@alepom secondo me è la solita tiritera. Il nuovo spaventa e ... "Don't blame the technology".
Alla fine il bug è l'essere umano con tutti i potenziali usi malevoli che è in grado di ideare.

alepom

@juanin, ma certo, sono d'accordo.
Però se diamo una spintarella alle istituzioni perché si rendano conto che c'è del nuovo, secondo me ogni occasione è utile

kal

@alepom ha detto in Una pausa nello sviluppo di AI potenti?:

e soprattutto di osservare chi l'ha già firmata.

ELON MASCHIO!!

E DeepMind.

Praticamente i concorrenti di OpenAI.

A pensar male si fa peccato etc. etc.

@alepom ha detto in Una pausa nello sviluppo di AI potenti?:

Però se diamo una spintarella alle istituzioni perché si rendano conto che c'è del nuovo, secondo me ogni occasione è utile

Ecco, su questo va data un'accelerata.

A partire dalla liceità con cui vengono utilizzati prodotti dell'ingegno (immagini, testi, musica) per addestrare i modelli.

Perché a meno che il prodotto non sia rilasciato con licenza open (es. Wikipedia) io direi che non si può affatto usare (salvo concessione esplicita). Va bene per la ricerca, ma se parliamo di sviluppare un prodotto commerciale beh...

juanin

@kal si concordo che sul piano legale e prodotti dell'ingegno siamo totalmente fuori legge allo stato attuale perché ci sono già fior fior di strumenti che ci stanno facendo business sbattendosene di questo aspetto.

Credo sia la parte più delicata di tutta la questione.

Qui va fatta chiarezza subito altrimenti si finirà in un vicolo cieco senza possibilità di ritorno.

kal

Eh sì.

Anche perché qua si sta facendo il gioco delle tre cartine.

"Faccio ricerca, non sto sviluppando un prodotto, uso il tuo testo perché sono coperto da Fair Use"

"Hey, guarda che bel modello che ho costruito, sarebbe proprio un peccato non usarlo per farci su dei soldi"

"Beh ma NEL MODELLO NON CI SONO I TESTI. Posso usarlo legalmente"

"Pagate 20$/mese per la nostra strabiliante Chat!"

Un po' fa girare le scatole sta cosa.

kal

Ah e per la cronaca, l'altro giorno ho provato a farmi dire da ChatGPT quali sono i siti utilizzati per addestrare il modello.

È blindatissimo, non si scuce niente. E da come gira attorno alla cosa si capisce chiaramente che hanno embeddato dei pesi appositi nel modello per ragioni LEGALI, perché se salta fuori quali siti hanno utilizzato finiscono seppelliti di cause.

alt text

juanin

@kal geniale....

Comunque intanto ecco il primo ovvio pezzo che sarebbe dovuto per forza arrivare https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9870847 poi vedremo i vari epiloghi legali su altri fronti rispetto all'AI.

alepom

@juanin, come sempre, più chiarezza si farà e meglio sarà per tutti.
Tuttavia, il provvedimento è più centrato sul trattamento dei dati degli utenti che sul funzionamento dell'AI.

Apro e chiudo una parentesi: non capisco perché fa riferimento solo a ChatGPT, e non a tutta l'infrastruttura OpenAI (o meglio, temo di sapere il motivo, ma provo a non esternarlo fino al P.S.).

L'unico riferimento al funzionamento del sistema è dove dice che si rileva "l’assenza di idonea base giuridica in relazione alla raccolta dei dati personali e al loro trattamento per scopo di addestramento degli algoritmi sottesi al funzionamento di ChatGPT".

Anche se dentro ai termini di utilizzo e alla privacy policy ci sono diverse informazioni in merito. Anche come evitare che i dati vengano utilizzati per l'addestramento.

Qui fa un sunto ad hoc: https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance

Ma non sono un esperto di normative, quindi potrebbero essere insufficienti, anzi, lo sono di certo se è stato fatto il provvedimento. Ripeto, più chiarezza si farà, e meglio è per usare tutto più serenamente. Però credo che sia facilmente risolvibile e spiegabile da OpenAI.

P.S.
Quando dice: "Come peraltro testimoniato dalle verifiche effettuate, le informazioni fornite da ChatGPT non sempre corrispondono al dato reale, determinando quindi un trattamento di dati personali inesatto", diventa immediatamente chiaro che non si ha idea di cosa si stia utilizzando.

kal

@alepom ha detto in Una pausa nello sviluppo di AI potenti?:

Comunque, ripeto, più chiarezza si farà, e meglio è per usare tutto più serenamente.

Questa cosa è fondamentale.

P.S.
Quando dice: "Come peraltro testimoniato dalle verifiche effettuate, le informazioni fornite da ChatGPT non sempre corrispondono al dato reale, determinando quindi un trattamento di dati personali inesatto", diventa immediatamente chiaro che non si ha idea di cosa si stia utilizzando.

Tu dici così perché sai come funziona un LLM. Ma se la guardi dal punto di vista legale, non è affatto strano.

È la descrizione di un dato di fatto.

ChatGPT dei dati personali te li fornisce... e l'entità "persona" è comunque collegata ai suoi dati nel LLM (seppure in forma astratta di token)

Anche se credo che sta cosa l'abbiano patchata di recente perché ora sempre più spesso risponde "non posso e blah blah".

alepom

@kal ha detto in Una pausa nello sviluppo di AI potenti?:

Tu dici così perché sai come funziona un LLM. Ma se la guardi dal punto di vista legale, non è affatto strano.
È la descrizione di un dato di fatto.

Questo è davvero un punto cruciale per l'utilizzo di queste tecnologie.
Capisco benissimo quello che vuoi dire, però capisci anche che, per gli utenti, siamo nel mezzo di un turbine di confusione di una portata degna di nota.

Non prendermi per un difensore di OpenAI, eh!? Lo dissi diverso tempo fa che non siamo pronti per sistemi come questi rilasciati in questo modo, senza preparazione. Ovvero senza far entrare bene nelle persone le logiche da tenere in considerazione.

Però nelle istruzioni (Termini di utilizzo), viene specificato in modo abbastanza chiaro che non si tratta di un motore di ricerca e che le informazioni vanno verificate (e che chi usa le informazioni ne diventa responsabile): "Given the probabilistic nature of machine learning, use of our Services may in some situations result in incorrect Output that does not accurately reflect real people, places, or facts. You should evaluate the accuracy of any Output as appropriate for your use case, including by using human review of the Output.".

È anche vero che un'interfaccia non dovrebbe aver bisogno di istruzioni. Invece, in questo caso, la natura dell'interfaccia e dell'interazione (chat) deviano dalla natura del modello. Perché ti induce a chiedere e a fidarti, mentre nelle istruzioni mette in guardia sull'accuratezza delle risposte.

Si tratta di una tematica interessante, sulla quale, secondo me, ci sarà molto lavoro da fare.

kal

Ah, hai ben ragione da vendere, sia chiaro!

Però l'aspetto delle informazioni personali è abbastanza cruciale... e un certo numero di informazioni personali come detto comunque sono embeddate nel modello sotto forma di relazioni tra token. È una forma di criptazione, se vogliamo.

E anche se le suddette informazioni personali sono disponibili pubblicamente... (ti basta essere dentro a Common Crawl e molto probabilmente sei pure dentro al modello di OpenAI) questo non le rende meno personali. E la legittimità del trattamento passa sempre dal consenso (han rotto talmente i cabasisi su sta cosa che dovrebbe oramai essere pacifica), a maggior ragione se si fa un trattamento su larga scala.

E coi LLM parliamo certamente di una cosa su larga, larghissima scala.

Ed ogni iterazione del modello, la scala è sempre più grande, sta già succedendo.

E il punto chiave è: qua da noi la legge impone alle aziende che trattano dati personali di tenere traccia e archiviare il consenso al trattamento dei dati personali.

Una cosa che un LLM tecnicamente non può fare, perché non è un database, è un predittore di token.

Da un punto di vista legale/privacy è un buco grosso come una casa.

QuelGareth

...e la cosa diventa ancora più fumosa se l'LLM funziona principalmente come interfaccia.

Se ChatGPT ha solo il ruolo di captare la richiesta, trasformarla in comandi, fare una query su BIng e "tradurla" in una risposta... dove è la violazione dei dati personali ?

Su Bing ? O Su Google quando usa Bard ?

Siamo su una sottile linea di demarcazione... da vecchio elitista, sono favorevole all'accesso a ChatGPT solo dietro presentazione dello Spid

kal

@quelgareth ha detto in Una pausa nello sviluppo di AI potenti?:

dove è la violazione dei dati personali ?

In realtà la risposta è pure facile: nel momento in cui hai preso i dati personali e li hai messi nel modello.

E la stessa cosa vale per il copyright.

La tecnologia è fenomenale, l'abbiamo visto tutti direi.

Ma è proprio perché è fenomenale che il far west non è tollerabile.

alepom

Nell'intervista di Flora al Garante, vengono gestite una serie di domande che tutti ci stiamo facendo.
Ve la linko.

Anticipo che il vero problema sono i dati di training. E lì sarà la matassa da sbrogliare.

Altro tema: il provvedimento, o i successivi, riguarderanno tutti i servizi di OpenAI basati sugli stessi principi.
E probabilmente qui si aprirà un vaso di Pandora sugli algoritmi generativi.

Ripeto nuovamente.. con @kal, ne parliamo da ottobre (dal pranzo dell'AST ) : meglio sbatterci il naso, discutere e fare chiarezza, sperando che ci sia buon senso nell'equilibrio tra sicurezza ed evoluzione tecnologica.
Ma io credo che le soluzioni ci siano, ad esempio con procedure di gestione dei dati correttive.

Nel frattempo hanno bloccato ChatGPT in Italia.

daniwebmaster

Ma come??? Ieri pomeriggio ho chiesto a chatgpt se davvero l'avrebbero chiusa in Italia, e lei mi ha risposto di NO.. Ed ora invece non riesco più ad accedervi? Ma allora questa AI commette errori e spara minkiate come è più dell'essere umano? Caspita, è proprio vero che i robot stanno surclassando l'uomo

Comunque, con buona pace di chi la ama perché è comoda e gli fa fare quattrini, sinceramente, di motivi per segare l'AI ne vedrei a bizzeffe, e ci metterei la firma a rinunciare subito a tanta tecnologia che ci sta DISUMANIZZANDO, ma che purtroppo, nella maggior parte dei casi siamo costretti ad utilizzare per stare al passo con la concorrenza.

Intendo dire che in fondo il problema privacy è il minore dei mali. Comunque con una VPN chi proprio non riesce a farne a meno dovrebbe riuscire ad utilizzarla. Vedremo comunque, se che questo blocco si protrarrà per molto.

alepom

@daniwebmaster, vedi, il problema maggiore è proprio che non si sta capendo come ha senso usare questi modelli. Se fosse chiaro, non faresti quelle domande a un LLM.

daniwebmaster

@alepom Ciao Alepom.. Ma sai, in realtà ne sono felice, dato che credo che la mia forza stia proprio nel non avere tutto questo bisogno di capire come si usa, dato che gli articoli mi sgorgano dalle falangette come acqua fresca anche senza il supporto di chatgpt.. E poi se non l'ho capito io, vallo a spiegare ad un tredicenne o all'uomo della strada.. In ogni modo, per divertimento, gli ho chiesto anche di peggio ahhahha.. Dato che alla fine come ti ho detto, non la utilizzo, se non per ottenere l'elenco di qualcosa.. tipo i libri di un dato autore, che 2 volte su tre mi ha sbagliato dimenticando o storpiando dei titoli.. e lì se permetti, non sono stato io a sbagliare a chiedere, ma è la signorina AI che toppa regolarmente.. Davvero troppo spesso, e spesso in modo infame rigirandoti le cose come se fossero vere.. Tant'è che TUTTE LE RICERCHE consiglio di farle direttamente sul web, almeno finché ne rimarrà di scritto da esseri umani

alepom

@daniwebmaster ha detto in Una pausa nello sviluppo di AI potenti?:

non sono stato io a sbagliare a chiedere, ma è la signorina AI che toppa regolarmente

Questo è l'effetto di aver rilasciato ChatGPT al pubblico senza dare spiegazioni su cosa si sta utilizzando.
Non si tratta di un motore di ricerca, ma di un modello di linguaggio. Due sistemi completamente diversi.

@daniwebmaster ha detto in Una pausa nello sviluppo di AI potenti?:

TUTTE LE RICERCHE consiglio di farle direttamente sul web

Ci mancherebbe.. questo è proprio quello che deve fare un motore di ricerca.
Sono d'accordo con te.