Giornata 3: LLM Offline e Modelli Open Source

Esegui modelli IA sul tuo computer per massima privacy. Nessun dato inviato al cloud, nessun costo mensile, pieno controllo.

Obiettivi della giornata

Al termine di questa terza giornata sarai in grado di:

Comprendere perché e quando usare LLM locali invece di servizi cloud
Installare e configurare Ollama e LM Studio sul tuo PC
Valutare i requisiti hardware per diversi modelli
Eseguire modelli open source (Llama, Mistral, Phi) in locale
Sessione 3.1

Perché Usare LLM Locali?

30 minuti

I servizi cloud come ChatGPT sono comodi, ma ogni dato che inserisci lascia il tuo computer e viene elaborato sui server di terze parti. Per dati sensibili come informazioni su infortuni, DVR, o dati personali dei lavoratori, questa può essere una criticità importante.

I 4 Vantaggi degli LLM Locali
Privacy Totale

I dati non lasciano MAI il tuo computer. Zero rischi di data breach esterni.

Funziona Offline

Nessuna connessione internet richiesta. Ideale in cantieri o aree remote.

Zero Costi Mensili

Nessun abbonamento. Una volta installato, usi quanto vuoi gratuitamente.

Pieno Controllo

Scegli il modello, personalizzalo, nessun limite di utilizzo o censura.

Cloud vs Locale: Quando Usare Cosa?
Scenario Cloud (ChatGPT, Claude) Locale (Ollama, LM Studio)
DVR con dati personali lavoratori Rischio privacy Locale consigliato
Report infortunio con dettagli sensibili Rischio privacy Locale consigliato
Ricerca normativa aggiornata Cloud (web access) No accesso web
Generazione template generico OK OK
Lavoro in cantiere senza WiFi Non funziona Locale funziona
Task complessi (analisi 100+ pagine) Cloud più potente Dipende da hardware
La Strategia Ibrida

L'approccio più intelligente è usare entrambi:

Usa Cloud per:

  • Ricerche web e normative aggiornate
  • Task generici senza dati sensibili
  • Quando serve massima qualità/velocità

Usa Locale per:

  • Documenti con dati personali
  • Report infortuni e indagini
  • Lavoro offline (cantieri, sopralluoghi)
Sessione 3.2

Requisiti Hardware: Cosa Ti Serve?

30 minuti

Per eseguire LLM in locale serve un computer con specifiche adeguate. La buona notizia: non serve un supercomputer. Un laptop moderno può eseguire modelli più piccoli, mentre per i modelli più grandi serve più RAM e possibilmente una GPU.

I 3 Fattori Chiave: RAM, CPU, GPU
RAM (Memoria)

Il fattore più importante. Il modello viene caricato in RAM, quindi serve abbastanza memoria per contenerlo.

  • 8 GB: Solo modelli piccoli (3B)
  • 16 GB: Modelli medi (7B-8B)
  • 32 GB: Modelli grandi (13B-14B)
  • 64+ GB: Modelli enterprise (30B+)
CPU (Processore)

Qualsiasi CPU moderna funziona. I modelli girano su CPU se non hai GPU, ma più lentamente.

  • Intel i5/i7/i9: OK (10a gen+)
  • AMD Ryzen 5/7/9: OK
  • Apple M1/M2/M3: Eccellente!
GPU (Scheda Video)

Opzionale ma consigliata per velocità. NVIDIA con CUDA è lo standard.

  • NVIDIA RTX 3060: 12GB VRAM
  • NVIDIA RTX 4070: 12GB VRAM
  • NVIDIA RTX 4090: 24GB VRAM
  • Senza GPU: Funziona su CPU (più lento)
Configurazioni Consigliate per Ogni Budget
Entry
Laptop Standard
  • RAM: 16 GB
  • CPU: Intel i5 / Ryzen 5
  • GPU: Integrata (no dedicata)
  • Storage: SSD 256GB+

Modelli utilizzabili:

Phi-3 Mini (3.8B) Gemma 2B TinyLlama

Velocità: ~5-10 token/sec

Consigliato
Workstation / Mac
  • RAM: 32 GB
  • CPU: Intel i7 / Ryzen 7 / Apple M2
  • GPU: RTX 3060 12GB o Apple Silicon
  • Storage: SSD 512GB+

Modelli utilizzabili:

Llama 3.1 8B Mistral 7B Phi-3 Medium Gemma 7B

Velocità: ~20-40 token/sec

Pro
Workstation Gaming/Pro
  • RAM: 64 GB+
  • CPU: Intel i9 / Ryzen 9 / Apple M3 Max
  • GPU: RTX 4080/4090 24GB
  • Storage: SSD 1TB+

Modelli utilizzabili:

Llama 3.1 70B (quantizzato) Mixtral 8x7B CodeLlama 34B

Velocità: ~50-100 token/sec

Cos'è la Quantizzazione?

I modelli vengono spesso "quantizzati" per ridurre la dimensione. Vedrai sigle come Q4_K_M o Q8_0:

Q4 (4-bit)

Più piccolo, più veloce, qualità leggermente ridotta. Ottimo compromesso.

Q5 (5-bit)

Bilanciamento tra dimensione e qualità.

Q8 (8-bit)

Qualità quasi originale, ma serve più RAM.

Sessione 3.3

Strumenti: Ollama e LM Studio

60 minuti

Due strumenti rendono semplicissimo eseguire LLM locali: Ollama (più tecnico, via terminale) e LM Studio (interfaccia grafica user-friendly). Vediamo entrambi.

Ollama
ollama.com

Strumento da terminale, leggero e potente. Ideale per chi vuole automazione e integrazione con altri tool.

Vantaggi:

  • Leggero e veloce
  • Espone API REST (integrabile)
  • Un comando per scaricare modelli
  • Windows, Mac, Linux

Comandi base:

ollama pull llama3.1 ollama run llama3.1 ollama list
LM Studio
lmstudio.ai

Interfaccia grafica completa, simile a ChatGPT. Perfetta per chi preferisce click invece di comandi.

Vantaggi:

  • Interfaccia grafica intuitiva
  • Browser modelli integrato
  • Chat multipla con diversi modelli
  • Mostra requisiti RAM in tempo reale

Ideale per:

Chi vuole un'esperienza "tipo ChatGPT" ma locale. Nessun terminale richiesto!

Workshop: Installiamo Ollama
Step 1Scarica e Installa
  1. Vai su ollama.com/download
  2. Scarica per il tuo sistema (Windows/Mac/Linux)
  3. Installa seguendo le istruzioni
Step 2Scarica un Modello
  1. Apri Terminale (o PowerShell su Windows)
  2. Digita: ollama pull llama3.1
  3. Attendi il download (~4-5 GB)
Step 3Avvia la Chat
  1. Digita: ollama run llama3.1
  2. Ora puoi chattare nel terminale!
  3. Prova: "Ciao, elenca 3 rischi in un cantiere edile"
Step 4Usa con Interfaccia Web
  1. Installa Open WebUI (interfaccia grafica)
  2. Vai su: openwebui.com
  3. Ottieni un'interfaccia simile a ChatGPT!
Modelli Consigliati per Iniziare
Modello Dimensione RAM Richiesta Comando Ollama
Phi-3 Mini 3.8B ~6 GB ollama pull phi3
Llama 3.1 8B 8B ~8-10 GB ollama pull llama3.1
Mistral 7B 7B ~8 GB ollama pull mistral
Gemma 2 9B 9B ~10 GB ollama pull gemma2
Sessione 3.4

Modelli Open Source: Quale Scegliere?

30 minuti

Il mondo open source offre modelli di qualità eccellente, alcuni paragonabili ai migliori modelli commerciali. Ecco una panoramica dei più importanti.

Llama 3.1 (Meta)
8B, 70B, 405B parametri

Il modello open source più popolare. Eccellente in italiano, ragionamento, e task generali.

Multilingue
128k context
Tool calling
Licenza permissiva

Consigliato: Llama 3.1 8B per uso quotidiano

Mistral (Francia)
7B, Mixtral 8x7B

Modello europeo, eccellente rapporto qualità/dimensione. Italiano molto buono.

Europeo (GDPR)
Efficiente
Codestral (code)
Apache 2.0

Consigliato: Mistral 7B per task rapidi

Phi-3 (Microsoft)
Mini 3.8B, Medium 14B

Modelli piccoli ma sorprendentemente capaci. Ideali per hardware limitato.

Ultra leggero
Veloce
Ottimo reasoning
MIT License

Consigliato: Phi-3 Mini per laptop con 8GB RAM

Gemma 2 (Google)
2B, 9B, 27B parametri

Modelli open di Google, derivati da Gemini. Ottima qualità, diverse dimensioni.

Da Google
Benchmark top
Sicuro
Uso commerciale OK

Consigliato: Gemma 2 9B per qualità/dimensione

La Mia Raccomandazione per Consulenti Sicurezza

Per Iniziare

Llama 3.1 8B

Bilanciamento perfetto qualità/risorse

Per Laptop Vecchi

Phi-3 Mini

Funziona con soli 8GB RAM

Per Italiano Migliore

Mistral 7B

Modello europeo, multilingue eccellente

Sessione 3.5

Casi d'Uso Pratici per la Sicurezza

45 minuti

Vediamo come applicare LLM locali al lavoro quotidiano del consulente sicurezza, con esempi pratici e prompt ottimizzati.

Caso 1: Analisi Report Infortunio (Dati Sensibili)

Hai un report di infortunio con nome lavoratore, descrizione dettagliata, e testimonianze. Non vuoi inviarlo al cloud.

Privacy Critica

Prompt per LLM locale:

"Analizza questo report di infortunio e identifica: 1) Causa primaria, 2) Fattori contributivi, 3) Misure preventive mancanti, 4) Azioni correttive da implementare. Report: [incolla testo report]"

Con LLM Locale

Dati restano sul tuo PC. Zero rischi. Nessuna traccia esterna.

Con ChatGPT/Claude

Dati inviati a server USA. Potenziale violazione privacy.

Caso 2: Generazione Checklist Offline (Cantiere)

Sei in cantiere senza connessione internet. Devi generare una checklist specifica per l'attività in corso.

Offline Richiesto

Prompt per LLM locale:

"Genera una checklist di verifica per lavori in quota su ponteggio metallico. Includi: controlli pre-accesso, verifica DPI, condizioni meteo, segnaletica, vie di fuga. Formato: lista con checkbox."

Suggerimento: Prepara il laptop con Ollama e il modello già scaricato prima di andare in cantiere!

Caso 3: Bozza Sezione DVR

Prompt per LLM locale:

"Sei un RSPP esperto. Genera la sezione DVR per il rischio 'Movimentazione Manuale dei Carichi' per un magazzino con 5 addetti. Includi: descrizione rischio, valutazione (metodo NIOSH semplificato), misure di prevenzione, DPI richiesti, formazione necessaria. Cita articoli D.Lgs 81/08 pertinenti."

Risultato atteso:

Bozza strutturata pronta per revisione, con riferimenti normativi. Richiede sempre verifica professionale prima dell'uso ufficiale.

Esercitazione Pratica

Prova questi prompt con Ollama sul tuo PC:

  1. Avvia Ollama: ollama run llama3.1
  2. Incolla uno dei prompt sopra
  3. Valuta la risposta: è utilizzabile? Manca qualcosa?
  4. Itera: modifica il prompt per migliorare il risultato

Riepilogo Corso Completo

Giornata 1
  • Fondamenti LLM e ChatGPT
  • Framework RCCIF per prompt
  • Privacy e limiti dell'IA
Giornata 2
  • Modelli commerciali a confronto
  • IA generativa vs agentica
  • Custom GPT e automazioni
Giornata 3
  • LLM locali per privacy
  • Ollama e LM Studio
  • Modelli open source
Prossimi Passi Consigliati

1Installa Ollama e prova Llama 3.1

2Crea il tuo Custom GPT su ChatGPT

3Definisci strategia ibrida cloud/locale