<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Ho provato DeepSeek in locale sul mio PC e...]]></title><description><![CDATA[<p dir="auto">... e niente, volevo fare un piccolo resoconto sulla mia esperienza che vada un po' oltre ad un post lapidario sui social. Quindi questo è il posto giusto.</p>
<h2>Premesse</h2>
<p dir="auto">Ho un PC ben equipaggiato con una scheda video Geforce GTX 4070Ti che ho preso "per lavoro" <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f60f.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--smirk" title=":smirk:" alt="😏" />e infatti ci faccio girare <s>i giochini</s> i modelli di linguaggio perché:</p>
<ul>
<li>è divertente</li>
<li>è una tecnologia interessante</li>
<li>mi permette di capire meglio cosa sono e come funzionano</li>
</ul>
<p dir="auto">Attualmente per farli girare uso questo:<br />
<a href="https://github.com/oobabooga/text-generation-webui" rel="nofollow ugc">https://github.com/oobabooga/text-generation-webui</a></p>
<p dir="auto">Che è un po' come Ollama con la differenza che è tutto opensource, sta su una cartella sul mio PC, lo lanci da riga di comando ed IN PIÙ ha una UI interrogabile da browser con duecentomila opzioni da nerd.</p>
<p dir="auto"><img src="https://media.connect.gt/connect/8689fb53-05e1-462d-b927-895b22b89957.png" alt="Immagine 2025-01-31 120514.png" class="img-responsive img-markdown" /></p>
<p dir="auto"><img src="https://media.connect.gt/connect/6e5e286c-2279-46e0-9c56-befcf21405bc.png" alt="Immagine 2025-01-31 120632.png" class="img-responsive img-markdown" /> <img src="https://media.connect.gt/connect/cf930856-b3d7-42e9-ace3-8ef4efe1efa0.png" alt="Immagine 2025-01-31 120617.png" class="img-responsive img-markdown" /></p>
<p dir="auto">Sembra di stare alla NASA, mica scherzi!</p>
<p dir="auto">Ad oggi il modello che mi ha dato più soddisfazioni è Ministral, il modello di classe 8B rilasciato con licenza open da Mistral, la startup francese. È flessibile, equilibrato e supporta molto bene il multilingua.</p>
<p dir="auto">Per testare i modelli di linguaggio uso Archibald, che è un "character" (essenzialmente un impostazione di un personaggio con cui interagire in chat a cui ho dato delle istruzioni custom nel prompt di sistema in modo che si comporti e parli come un forbito, sagace e servizievole maggiordomo).</p>
<p dir="auto"><img src="https://media.connect.gt/connect/d73ee3bd-4ade-4347-93b0-51b7713d362f.png" alt="Immagine 2025-01-31 120746.png" class="img-responsive img-markdown" /></p>
<p dir="auto">E veniamo al dunque.</p>
<h2>Ho testato DeepSeek</h2>
<p dir="auto">Per la precisione, il modello DeepSeek-R1-Distill-Llama-8B che è una versione "distilled", ovvero hanno preso LLama 8B e lo hanno ri-addestrato "distillando" il modello principale.</p>
<p dir="auto">Quindi di fatto è sempre un Llama... ma modificato in modo tale da rispondere in modo simile al modello più grosso.</p>
<p dir="auto">L'ho testato in due versioni:</p>
<ul>
<li>caricamento di default, l'intero modello come fornito</li>
<li>caricamento con quantizzazione a 4bit a partire dallo stesso modello base, è un procedimento che "alleggerisce" il peso sulla VRAM della scheda video caricando solo una parte dei pesi</li>
</ul>
<p dir="auto">Prima osservazione tecnica, lo sapevo già ma in versione non quantizzata andava a riempire i miei 12 Giga di VRAM e finiva caricato anche sulla RAM di sistema... risultato: meno di 2 token/secondo di velocità di generazione.</p>
<p dir="auto">E non sembrava nemmeno tanto sveglio:<br />
<img src="https://media.connect.gt/connect/a838beb8-0354-4351-873d-03f424a1d7b7.png" alt="Immagine 2025-01-31 123554.png" class="img-responsive img-markdown" /></p>
<p dir="auto">Pure l'italiano era un po' stentato. Molto meglio Ministral! Ho pensato: gli scrivo direttamente in inglese...</p>
<p dir="auto"><img src="https://media.connect.gt/connect/2b2f52d6-4056-442a-9193-4d68e880f7b0.png" alt="Immagine 2025-01-31 123630.png" class="img-responsive img-markdown" /></p>
<p dir="auto">Non andava meglio. Anzi, iniziavo ad essere molto perplesso.</p>
<p dir="auto">Al che ho pensato: certo, il prompt di sistema è in italiano! Ed io lì ho scritto di rispondere sempre in italiano!</p>
<p dir="auto">Pronti, via, ho cambiato tutto il prompt di sistema in inglese e...</p>
<p dir="auto"><img src="https://media.connect.gt/connect/f82d42e6-e2e4-46d0-b07c-30c4123da61b.png" alt="Immagine 2025-01-31 123848.png" class="img-responsive img-markdown" /></p>
<p dir="auto">Bingo!</p>
<p dir="auto">Chain of thought!</p>
<p dir="auto">Problema risolto, nuovo problema: come leggete, andava in loop col "ragionamento". Ma in loop di brutto!! Continuava ad alternarsi tra interpretazioni e non riusciva a "decidersi". Avanti così fino al limite di 1000 token che gli avevo impostato nelle configurazioni per non esagerare.</p>
<p dir="auto">E questo a 2 token al secondo. Terribile!</p>
<p dir="auto">Al che ho detto: ascolta, carichiamolo a 4 bit. Ricarica il modello, metti la flag su 4 bit, tutto a posto, 7 Giga di VRAM, velocità di generazione tra 10 e 20 token secondo... figo!</p>
<p dir="auto">Ma continuava a ripetersi nel "ragionamento".</p>
<p dir="auto">Al che ho pensato: certo, è una domanda trabocchetto, anche gli umani si sbagliano. Proviamo a dargli un piccolo suggerimento, diciamogli di concentrarsi su come si comportano le gocce d'acqua nel mondo reale. Sistemo due parametri nella generazione.</p>
<p dir="auto">E...</p>
<p dir="auto"><img src="https://media.connect.gt/connect/e5f8baa7-5fbb-44cd-b8a3-a50ae9d03e79.jpg" alt="1738087576465.jpg" class="img-responsive img-markdown" /></p>
<h2>BAM</h2>
<p dir="auto">Eccolo qua, chain of thought corretta, risposta affermativa e corretta in 378 token di risposta.</p>
<p dir="auto">E niente, qua ho provato davvero una sensazione di brivido, una tecnologia così che gira SUL MIO PC ragazzi.</p>
<p dir="auto">Pazzesco.</p>
<p dir="auto">Aggiungo una nota veloce che è più un'osservazione che altro... il vederlo ondeggiare come detto sopra a naso è dovuto al modello troppo "piccolo", cosa che fa sì che gli spazi di embedding su cui "ragionare" siano troppo "vicini" e quindi nella fase di "reasoning" rischi di contaminarsi da solo. Basta che rimpalli una o due volte e a quel punto l'indecisione diventa la regola per tutti i token successivi.</p>
<p dir="auto">Questa impressione si è rafforzata quando nel mio prompt gli ho dato una spintarella, di fatto avvicinandolo allo spazio di embedding corretto e rompendo così il circolo vizioso auto-alimentante.</p>
<h2>Bonus</h2>
<p dir="auto">È arrivata a un certo punto mia figlia che va alle scuole medie ed aveva un problema di geometria da risolvere.</p>
<p dir="auto">Le ho detto: vediamo se Archibald lo risolve.</p>
<p dir="auto">E niente:<br />
<img src="https://media.connect.gt/connect/00d9a349-c7ee-44ca-a87b-3f039a11e3ca.png" alt="1738163387949.png" class="img-responsive img-markdown" /></p>
<p dir="auto">Qui ci sta che l'abbia beccata subito perché immagino che su questo tipo di problemi abbiano fatto un fine-tuning aggressivo in modo da spuntarla bene sui benchmark... ciononostante, rimane impressionante per quello che è, nei fatti un micromodello!</p>
<p dir="auto">A voi i commenti <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f600.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--grinning" title=":grinning:" alt="😀" /></p>
]]></description><link>https://connect.gt/topic/258837/ho-provato-deepseek-in-locale-sul-mio-pc-e</link><generator>RSS for Node</generator><lastBuildDate>Sun, 14 Jun 2026 07:47:01 GMT</lastBuildDate><atom:link href="https://connect.gt/topic/258837.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 31 Jan 2025 11:47:44 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Ho provato DeepSeek in locale sul mio PC e... on Sun, 02 Feb 2025 09:58:24 GMT]]></title><description><![CDATA[<p dir="auto">Giusto per dire l'importanza del contesto...</p>
<p dir="auto">Qua ho fatto due domande al nuovo o3-mini di OpenAI, prima una domanda matematica e POI quello delle due gocce d'acqua.</p>
<p dir="auto">Non vi spoilero niente: <a href="https://chatgpt.com/share/679f4139-5924-8002-8d69-b5f47073c523" rel="nofollow ugc">https://chatgpt.com/share/679f4139-5924-8002-8d69-b5f47073c523</a></p>
]]></description><link>https://connect.gt/post/1400609</link><guid isPermaLink="true">https://connect.gt/post/1400609</guid><dc:creator><![CDATA[kal]]></dc:creator><pubDate>Sun, 02 Feb 2025 09:58:24 GMT</pubDate></item><item><title><![CDATA[Reply to Ho provato DeepSeek in locale sul mio PC e... on Fri, 31 Jan 2025 13:51:50 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="https://connect.gt/uid/40788">@kal</a> ha detto in <a href="/post/1400600">Ho provato DeepSeek in locale sul mio PC e...</a>:</p>
<blockquote>
<p dir="auto">ADORO che ci scambiamo le specs dei PC come sui forum di appassionati di informatica/gaming nella decade degli anni 2000 quando la domanda era "OK MA CI GIRA CRYSIS"</p>
</blockquote>
<p dir="auto"><img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--joy" title=":joy:" alt="😂" /> <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--joy" title=":joy:" alt="😂" /> <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--joy" title=":joy:" alt="😂" /> <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--joy" title=":joy:" alt="😂" /> <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--joy" title=":joy:" alt="😂" /> <img src="https://connect.gt/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=pjkabbjvlkk" class="not-responsive emoji emoji-android emoji--joy" title=":joy:" alt="😂" /></p>
]]></description><link>https://connect.gt/post/1400601</link><guid isPermaLink="true">https://connect.gt/post/1400601</guid><dc:creator><![CDATA[giorgiotave]]></dc:creator><pubDate>Fri, 31 Jan 2025 13:51:50 GMT</pubDate></item><item><title><![CDATA[Reply to Ho provato DeepSeek in locale sul mio PC e... on Fri, 31 Jan 2025 13:46:47 GMT]]></title><description><![CDATA[<p dir="auto">Fantastico.</p>
<p dir="auto">Due cose, la prima stupida:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="https://connect.gt/uid/91298">@alepom</a> ha detto in <a href="/post/1400599">Ho provato DeepSeek in locale sul mio PC e...</a>:</p>
<blockquote>
<p dir="auto">(i7, 16 GB di RAM, RTX 3050Ti)</p>
</blockquote>
<p dir="auto">ADORO che ci scambiamo le specs dei PC come sui forum di appassionati di informatica/gaming nella decade degli anni 2000 quando la domanda era "OK MA CI GIRA CRYSIS"</p>
<p dir="auto">La seconda cosa un po' più seria: credo ci siano ancora ampissimi margini di ottimizzazione e miglioramento. Non credo di fare una scommessa ardita se dico che la stragrande maggioranza dei pesi nei modelli oggi siano in realtà delle zavorre dovute al fatto che per addestrare i macromodelli si sia preso letteralmente tutto lo scibile umano senza badare alla qualità. Servivano testi e si sono presi, letteralmente, TUTTI i testi. Inclusa roba tipo le trascrizioni dei video che testi non erano ma ce li hanno fatti diventare (firulì Whisper firulà)</p>
<p dir="auto">Il risultato è che c'è una percentuale più che rilevante di porcheria, che tuttavia pesa sulle risorse di calcolo necessarie per l'inferenza.</p>
<p dir="auto">Sinceramente mi aspetto molti passi avanti su quest'ambito... anche perché, oramai si è capito, aumentare la scala non porta a modelli più avanzati. O meglio non COSÌ TANTO più avanzati da giustificare la spesa "muscolare".</p>
<p dir="auto">E quindi largo ai team di ricerca e all'ingegno umano tra matematica teorica e ingegneria del software...</p>
]]></description><link>https://connect.gt/post/1400600</link><guid isPermaLink="true">https://connect.gt/post/1400600</guid><dc:creator><![CDATA[kal]]></dc:creator><pubDate>Fri, 31 Jan 2025 13:46:47 GMT</pubDate></item><item><title><![CDATA[Reply to Ho provato DeepSeek in locale sul mio PC e... on Fri, 31 Jan 2025 13:21:49 GMT]]></title><description><![CDATA[<p dir="auto">Grande <a class="plugin-mentions-user plugin-mentions-a" href="https://connect.gt/uid/40788">@kal</a>,<br />
riporto qui anche il mio test, sul quale abbiamo scambiato dei commenti su Linkedin.<br />
Stessa configurazione di modello, ma su un laptop (i7, 16 GB di RAM, RTX 3050Ti).</p>
<p dir="auto">Eseguo de task: uno di classificazione e uno di sintesi.<br />
Sinceramente, sono molto soddisfatto.<br />
E fa capire che, in locale (o su una struttura personalizzata), con un hardware adeguato, si riescono a creare progetti molto interessanti.</p>
<p dir="auto"></p><div class="embed-wrapper"><div class="embed-container"><iframe src="https://www.youtube.com/embed/RMXOPUiAn-M"></iframe></div></div><p></p>
]]></description><link>https://connect.gt/post/1400599</link><guid isPermaLink="true">https://connect.gt/post/1400599</guid><dc:creator><![CDATA[alepom]]></dc:creator><pubDate>Fri, 31 Jan 2025 13:21:49 GMT</pubDate></item></channel></rss>