Skip to content

Basta Cloud: come far girare DeepSeek (e altri LLM) sul tuo laptop con Ollama

Deepseek con Ollama

Siamo nel pieno della “Gold Rush” dell’Intelligenza Artificiale.

Fino a pochi mesi fa, l’unica opzione per accedere a modelli di linguaggio (LLM) potenti era pagare un abbonamento mensile a OpenAI, Anthropic o Google.

Ci siamo abituati a inviare i nostri dati nel cloud, sperando che la connessione regga e che la privacy sia rispettata.

Ma il vento sta cambiando.

Grazie all’ottimizzazione dell’hardware consumer (in particolare i chip Apple Silicon e le moderne GPU NVIDIA) e a software rivoluzionari come Ollama, l’era dell’AI locale non è solo possibile: è già qui.

In questo articolo vedremo perché dovresti considerare di staccare la spina dal cloud e come far girare DeepSeek R1, uno dei modelli più promettenti del momento, direttamente sul tuo computer.

1. Il problema: la trappola degli abbonamenti e l’incubo della Privacy

Perché qualcuno dovrebbe volersi complicare la vita installando un modello in locale quando ChatGPT è a un clic di distanza?

Le ragioni sono principalmente tre:

2. La soluzione: Cos’è Ollama e perché sta spopolando

Fino all’anno scorso, far girare un LLM in locale richiedeva competenze avanzate in Python, la gestione di librerie come PyTorch e un sacco di pazienza.

Poi è arrivato Ollama.

Pensa a Ollama come al “Docker degli LLM”.

È uno strumento open-source che pacchettizza tutto ciò che serve per far girare un modello in un unico eseguibile.

Gestisce automaticamente:

Risorsa Utile: Sito Ufficiale Ollama | Repository GitHub

3. Tutorial passo-passo: installazione e primo prompt con DeepSeek R1

DeepSeek R1 è diventato virale per le sue capacità di ragionamento (simili a quelle di OpenAI o1) e per essere incredibilmente efficiente nel coding, pur essendo open-source.

Ecco come portarlo sul tuo laptop.

Passo 1: installazione di Ollama

Passo 2: scegliere la versione del modello

DeepSeek R1 è disponibile in diverse dimensioni (“parameters”).

Più grande è il modello, più è intelligente, ma richiede più RAM.

Passo 3: esecuzione

Nel tuo terminale, digita semplicemente:

ollama run deepseek-r1Ollama scaricherà automaticamente i gigabyte necessari (ci vorrà qualche minuto a seconda della connessione). Una volta finito, vedrai un prompt in attesa.

Prova a chiedergli qualcosa di complesso per testare la sua logica:

“Spiegami la teoria della relatività come se fossi un pirata del 1700, includendo metafore navali.” Vedrai non solo la risposta finale, ma spesso anche il processo di pensiero (il tag “) che mostra come il modello sta ragionando prima di rispondere.

4. Benchmark: quanto è veloce sul mio Mac/PC vs ChatGPT?

È qui che bisogna gestire le aspettative. La velocità di un LLM si misura in Token al Secondo (t/s).

Ecco cosa puoi aspettarti realisticamente con un modello da 8GB (quantizzato a 4-bit):

HardwareToken / Secondo StimatiEsperienza Utente
Apple M3 Max (128GB)~100+ t/sFulmineo, pari al cloud.
Apple M1/M2/M3 Base~30-50 t/sMolto fluido, più veloce della lettura umana.
PC con NVIDIA RTX 3060/4060~40-60 t/sEccellente.
Laptop Intel vecchio (solo CPU)2-5 t/sLento. Utilizzabile solo per piccoli task.

Nota sulla RAM: Se il modello non entra nella VRAM (memoria video), il sistema userà la RAM di sistema o lo swap su disco, rallentando drasticamente le prestazioni.

Per un modello 8B, assicurati di avere almeno 8GB di RAM libera.

5. Quando conviene il Locale vs il Cloud

L’AI locale non deve necessariamente sostituire ChatGPT, ma affiancarlo.

Ecco la mia regola d’oro:

Usa il Cloud (ChatGPT/Claude/Gemini) quando:

Usa l’AI Locale (Ollama + DeepSeek) quando:

Il futuro dell’AI è ibrido.

E grazie a Ollama, quel futuro è accessibile a tutti noi, oggi.

Precedente
Dal Terminale al Web: dare un volto a DeepSeek con Open WebUI
Prossimo
Risparmia 100€ al mese: 5 alternative Open Source a Notion, Slack e Trello