Immagina un asciugacapelli professionale. Acceso. Ventiquattro ore al giorno. Per tre mesi.
Quello è un GPU NVIDIA H100 mentre addestra un modello di frontiera. 700 watt costanti, fino al limite del TDP, senza una pausa.
Ora moltiplica per 25.000. Poi aggiungi il 30% per CPU, networking, raffreddamento.
Benvenuti nel piano interrato dell'AI, dove la metrica che conta non è il numero di parametri ma il megawatt.
Il numero che fa paura
Secondo le stime convergenti di Goldman Sachs ed Epoch AI, addestrare GPT-4 è costato circa 50 GWh in 90-100 giorni di training continuo. Cinquanta gigawattora.
Tradotto: il consumo elettrico annuo di circa 16.000 famiglie italiane (assumendo 3 MWh/famiglia/anno, dato ARERA).
Un singolo training job. Una volta. Per produrre un singolo file di pesi.
E non è nemmeno il record. Le proiezioni per i modelli di prossima generazione parlano di 100-500 GWh per run.
Perché un GPU consuma così tanto
Un H100 SXM ha un TDP di 700 W. Il modello PCIe si ferma a 350 W. L'A100 della generazione precedente stava a 400 W.
Poi è arrivato Blackwell.
Il B200, lanciato fra fine 2024 e inizio 2025, sale a 1.000 W TDP. Un rack GB200 NVL72 — 72 GPU Blackwell impacchettate in un singolo armadio — assorbe circa 120 kW.
Un rack server enterprise tradizionale ne consuma 8-10. Stiamo parlando di una densità termica dodici volte superiore.
A questi livelli il raffreddamento ad aria non basta più. Serve liquido direct-to-chip o immersione totale. Servono pavimenti rinforzati per reggere la massa. Servono linee elettriche dedicate dal trasformatore di media tensione, non semplici PDU.
La regola empirica che ha governato i data center enterprise per vent'anni — 5-10 kW per rack — è stata polverizzata. I nuovi impianti sono progettati a partire da 50-150 kW per rack. Cambia tutto: tubazioni, generatori di backup, UPS, antincendio.
Cluster: dove la matematica diventa brutale
Un singolo training job di frontiera oggi gira su 10.000-100.000 GPU in parallelo, tutte sincronizzate con interconnessioni InfiniBand o NVLink.
Facciamo i conti per un cluster da 25.000 H100:
- 25.000 × 700 W = 17,5 MW solo per le GPU
- +30-40% per CPU host, switch di rete, storage, cooling: ~25 MW totali
Venticinque megawatt. La potenza media di un piccolo paese italiano di 20.000 abitanti.
Per 100.000 GPU si arriva a 100 MW. Stiamo parlando del fabbisogno istantaneo di una città come Lecce.
La corsa al gigawatt
A luglio 2024, xAI ha acceso Colossus a Memphis: 100.000 H100 operativi in 122 giorni, un record industriale. L'obiettivo dichiarato di Elon Musk è arrivare a un milione di GPU entro fine 2025.
Microsoft e OpenAI hanno annunciato Stargate, un cluster da target 5 GW entro il 2030. Cinque gigawatt sono cinque reattori nucleari di taglia media. Un singolo data center.
Meta, Google, Amazon, Oracle stanno tutti raddoppiando i CAPEX su infrastruttura AI. Goldman Sachs (aprile 2024) stima che la domanda elettrica dei data center USA crescerà del 160% entro il 2030, passando dal 4% all'8% del consumo nazionale.
Per mettere il numero in prospettiva: l'8% del consumo elettrico americano significa più di quanto consumino oggi tutta la California residenziale e tutta la Florida industriale messe insieme. Solo i data center. Solo negli USA.
Quanto consuma davvero un modello
Per dare un senso di scala, ecco i numeri pubblici (o stimati con metodologia trasparente) per il training dei modelli più noti:
| Modello | Anno | Parametri | Training (MWh) | Equivalente |
|---|---|---|---|---|
| BERT base | 2018 | 110M | 1,5 | 50 famiglie/anno |
| GPT-3 | 2020 | 175B | 1.287 | 430 famiglie/anno |
| Llama 3 70B | 2024 | 70B | 2.700 | 900 famiglie/anno |
| Llama 3.1 405B | 2024 | 405B | 16.000 | 5.300 famiglie/anno |
| GPT-4 (stima) | 2023 | ~1,7T MoE | ~50.000 | 16.000 famiglie/anno |
| Frontier 2026+ | 2026+ | ? | 100.000-500.000 | una città media |
Fonti: Patterson et al. 2021 (GPT-3), Meta Llama 3 paper (Llama), Goldman Sachs / Epoch AI (GPT-4). I numeri di GPT-4 NON sono ufficiali — OpenAI non li pubblica — ma sono coerenti con il cluster, la durata e l'efficienza energetica nota.
In quattro anni, dal 2020 al 2024, il consumo di un singolo training è cresciuto di 40 volte. La curva è esponenziale, e non sta rallentando.
Inference: il problema che nessuno guarda
Qui c'è la parte che cambia tutto.
Il training di GPT-4 è costato 50 GWh una volta. Poi il modello viene servito. Per anni. A centinaia di milioni di utenti.
Goldman Sachs (2024) stima che una singola query a ChatGPT consumi circa 2,9 Wh. Una ricerca Google tradizionale ne consuma 0,3 Wh. Dieci volte tanto.
Fai due conti su scala ChatGPT:
- ~200M utenti attivi
- ~50 query/giorno per utente attivo
- 2,9 Wh per query
Risultato: ~29 GWh al giorno. Più di 10 TWh/anno solo per servire ChatGPT. Quasi quanto consuma in un anno la città di Bologna.
| Operazione | Energia | Equivalente |
|---|---|---|
| Google search | 0,3 Wh | LED da 10W acceso 2 min |
| Query ChatGPT (testo) | 2,9 Wh | Asciugacapelli 1 min |
| Query GPT-4 con immagine | ~10 Wh | Phon 3 min |
| Generazione immagine SDXL | ~30 Wh | Forno microonde 90 sec |
| Generazione video Sora-class | 1-3 kWh | Asciugatrice 1 ciclo |
L'inference è "always-on". Su orizzonte di 3-5 anni, l'energia totale spesa in inference supererà di gran lunga quella spesa per training. È la corrente di fondo che nessuno spegne.
La proiezione IEA che ha fatto scattare l'allarme
Il rapporto Electricity 2024 della IEA è il documento di riferimento per chi vuole numeri credibili.
I data center mondiali hanno consumato 460 TWh nel 2022. La proiezione IEA per il 2026 è di oltre 1.000 TWh — un raddoppio in quattro anni. Di questi, 80-130 TWh saranno attribuibili direttamente all'AI.
Per riferimento: l'intero consumo elettrico italiano annuo è di circa 300 TWh. Stiamo dicendo che l'AI globale, da sola, consumerà quanto un terzo dell'Italia.
Il vero collo di bottiglia non è il silicio
Qui sta il punto che pochi capiscono.
NVIDIA può produrre più chip. TSMC può aumentare la capacità a 3 nm. Ma non si può sintetizzare un gigawatt.
Un cluster da 1 GW richiede:
- 2-3 anni per ottenere l'interconnessione alla rete elettrica (in USA, dipendendo da ERCOT o PJM)
- Permessi ambientali, di costruzione, di rete
- Linea di alta tensione dedicata
- Trasformatori custom (a loro volta in shortage globale: lead time 18-24 mesi)
Il chip arriva in tre mesi. La potenza in tre anni.
Per questo gli hyperscaler stanno facendo cose che fino a ieri erano impensabili:
- Microsoft ha firmato un PPA ventennale per riaprire Three Mile Island (Pennsylvania, sì, quella dell'incidente del 1979)
- Amazon ha comprato un campus data center alimentato direttamente dalla centrale nucleare di Susquehanna
- Stargate sarà presumibilmente in Texas, con generazione a gas naturale on-site per bypassare l'attesa ERCOT
- Google e Oracle stanno finanziando startup di Small Modular Reactor (SMR) per il 2030
Non stanno comprando elettricità. Stanno comprando centrali.
Cosa succede in Italia (e in Puglia)
L'Italia non sta giocando questa partita ai livelli USA. Ma sta giocando.
Il piano per data center AI nel Mezzogiorno punta sulle rinnovabili del Sud — la Puglia produce un surplus di solare ed eolico che oggi viene in parte curtailato per limiti di rete. Quella stessa energia, se consumata localmente da carichi data center, diventa un vantaggio competitivo.
La logica è semplice: i dati pesano poco, l'energia pesa molto. È più efficiente spostare i token che spostare i megawatt.
Per i carichi di inference latency-sensitive (chatbot di customer service, agenti AI on-premise, sistemi di automazione industriale) avere capacità di calcolo entro 50 ms di rete dall'utente finale italiano non è più un nice-to-have. È un requisito tecnico. E geograficamente, il Sud è il punto in cui l'energia rinnovabile abbonda e la latenza verso l'utente medio europeo resta accettabile.
La verità scomoda
L'AI non ha un problema di chip. Ha un problema di energia.
E l'energia, a differenza dei modelli, ha una sola unità di misura: il watt. Non si comprime, non si quantizza, non si distilla. O c'è o non c'è.
Chi controllerà la potenza nei prossimi cinque anni controllerà l'AI. Non i ricercatori, non gli ingegneri di Cuda kernel. Chi sa accendere un gigawatt al posto giusto, al momento giusto.
È per questo che, leggendo le prossime puntate di questa serie, troverai sempre più spesso una parola che nel 2020 era impronunciabile nel mondo tech: nucleare.