Basta Cloud: come far girare DeepSeek (e altri LLM) sul tuo laptop con Ollama

30 nov 2025

Siamo nel pieno della "Gold Rush" dell'Intelligenza Artificiale.

Fino a pochi mesi fa, l'unica opzione per accedere a modelli di linguaggio (LLM) potenti era pagare un abbonamento mensile a OpenAI, Anthropic o Google.

Ci siamo abituati a inviare i nostri dati nel cloud, sperando che la connessione regga e che la privacy sia rispettata.

Ma il vento sta cambiando.

Grazie all'ottimizzazione dell'hardware consumer (in particolare i chip Apple Silicon e le moderne GPU NVIDIA) e a software rivoluzionari come Ollama, l'era dell'AI locale non è solo possibile: è già qui.

In questo articolo vedremo perché dovresti considerare di staccare la spina dal cloud e come far girare DeepSeek R1, uno dei modelli più promettenti del momento, direttamente sul tuo computer.

1. Il Problema: La trappola degli abbonamenti e l'incubo della Privacy

Perché qualcuno dovrebbe volersi complicare la vita installando un modello in locale quando ChatGPT è a un clic di distanza?

Le ragioni sono principalmente tre:

Privacy e Sicurezza dei Dati: Questa è la preoccupazione numero uno per aziende e sviluppatori. Quando incolli codice proprietario, dati finanziari o documenti legali su un chatbot cloud, quei dati lasciano il tuo controllo. In locale, niente esce dal tuo computer. Puoi analizzare bilanci o refactorizzare codice sensibile senza rischi.
Costi Ricorrenti: 20€ al mese per ChatGPT Plus, altri 20€ per Claude Pro, altri ancora per Github Copilot. L'AI locale utilizza la tua elettricità e il tuo hardware. Costo marginale? Zero.
Censura e Controllo: I modelli commerciali sono pesantemente allineati (o "lobotomizzati", secondo alcuni critici) per evitare certi argomenti. I modelli open-weights come DeepSeek, Llama 3 o Mistral offrono spesso risposte più dirette e meno filtrate.

2. La Soluzione: Cos'è Ollama e perché sta spopolando

Fino all'anno scorso, far girare un LLM in locale richiedeva competenze avanzate in Python, la gestione di librerie come PyTorch e un sacco di pazienza.

Poi è arrivato Ollama.

Pensa a Ollama come al "Docker degli LLM".

È uno strumento open-source che pacchettizza tutto ciò che serve per far girare un modello in un unico eseguibile.

Gestisce automaticamente:

Il download dei pesi del modello.
L'accelerazione hardware (GPU/NPU).
La quantizzazione (ridurre il modello per farlo entrare nella RAM).

Ha democratizzato l'accesso agli LLM locali, rendendo l'operazione semplice quanto digitare un comando nel terminale.

Risorsa Utile: Sito Ufficiale Ollama | Repository GitHub

3. Tutorial Passo-Passo: Installazione e primo prompt con DeepSeek R1

DeepSeek R1 è diventato virale per le sue capacità di ragionamento (simili a quelle di OpenAI o1) e per essere incredibilmente efficiente nel coding, pur essendo open-source.

Ecco come portarlo sul tuo laptop.

Passo 1: Installazione di Ollama

macOS / Windows / Linux: Vai su ollama.com/download e scarica l'installer per il tuo sistema operativo.
L'installazione è standard. Una volta completata, apri il tuo terminale (o PowerShell su Windows).

Passo 2: Scegliere la versione del modello

DeepSeek R1 è disponibile in diverse dimensioni ("parameters").

Più grande è il modello, più è intelligente, ma richiede più RAM.

1.5b / 7b / 8b: Perfetti per laptop standard (8GB - 16GB RAM).
32b / 70b: Richiedono workstation potenti (32GB+ RAM, meglio se 64GB).

Per questo tutorial, useremo una versione bilanciata che gira sulla maggior parte dei laptop moderni: DeepSeek R1 Distill Llama 8B.

Passo 3: Esecuzione

Nel tuo terminale, digita semplicemente:

ollama run deepseek-r1

Ollama scaricherà automaticamente i gigabyte necessari (ci vorrà qualche minuto a seconda della connessione). Una volta finito, vedrai un prompt in attesa.

Prova a chiedergli qualcosa di complesso per testare la sua logica:

"Spiegami la teoria della relatività come se fossi un pirata del 1700, includendo metafore navali."

Vedrai non solo la risposta finale, ma spesso anche il processo di pensiero (il tag ``) che mostra come il modello sta ragionando prima di rispondere.

4. Benchmark: Quanto è veloce sul mio Mac/PC vs ChatGPT?

È qui che bisogna gestire le aspettative. La velocità di un LLM si misura in Token al Secondo (t/s).

L'esperienza Cloud: ChatGPT (GPT-4o) gira su cluster di GPU H100 da decine di migliaia di dollari. La velocità è altissima (spesso \>100 t/s), ma c'è latenza di rete.
L'esperienza Locale: La velocità dipende interamente dalla tua Memory Bandwidth.

Ecco cosa puoi aspettarti realisticamente con un modello da 8GB (quantizzato a 4-bit):

Hardware	Token/Secondo Stimati	Esperienza Utente
Apple M3 Max (128GB)	~100+ t/s	Fulmineo, pari al cloud.
Apple M1/M2/M3 Base	~30-50 t/s	Molto fluido, più veloce della lettura umana.
PC con NVIDIA RTX 3060/4060	~40-60 t/s	Eccellente.
Laptop Intel vecchio (solo CPU)	2-5 t/s	Lento. Utilizzabile solo per piccoli task.

Nota sulla RAM: Se il modello non entra nella VRAM (memoria video), il sistema userà la RAM di sistema o lo swap su disco, rallentando drasticamente le prestazioni.

Per un modello 8B, assicurati di avere almeno 8GB di RAM libera.

5. Quando conviene il Locale vs il Cloud

L'AI locale non deve necessariamente sostituire ChatGPT, ma affiancarlo.

Ecco la mia regola d'oro:

Usa il Cloud (ChatGPT/Claude/Gemini) quando:

Hai bisogno di una conoscenza enciclopedica vastissima e aggiornata in tempo reale.
Devi analizzare documenti di centinaia di pagine (finestra di contesto enorme).
Non hai hardware performante.

Usa l'AI Locale (Ollama + DeepSeek) quando: