Ogni lunedì, o giù di lì, qualcuno pubblica il thread. Ho testato Claude Sonnet 4 contro GPT-5 su 50 prompt. Segue una tabella con colonne che si chiamano Ragionamento, Creatività, Coding, con stelle o punteggi decimali. Il post raccoglie tremila like nel giro di poche ore, qualcuno risponde “ma Gemini 2.5 Pro fa meglio sul benchmark MMLU”, qualcun altro linka il paper tecnico di Meta su Llama 4, e nel giro di tre giorni la conversazione è sepolta da un’altra identica, perché nel frattempo è uscito un aggiornamento.
Ho lavorato nell’ecosistema Apple per anni. E c’era un tipo di cliente che ricordo bene: quello che entrava e voleva sapere quanti gigahertz aveva quel MacBook rispetto all’altro. Non cosa ci avrebbe fatto, quello non era mai una domanda facile da rispondere nemmeno per lui. Voleva il numero. Il confronto. La certezza di aver scelto quello giusto. Poi usciva con il computer, lo usava per Mail e Safari, e il processore girava al 4% per i successivi tre anni.
Quello che vedo sui modelli linguistici oggi è esattamente la stessa cosa.
Il problema non è il modello
Quando GPT-4 è uscito nell’aprile del 2023, ho visto arrivare una valanga di post su cosa sapeva fare e cosa no. Prompt per testare la matematica, la logica, la capacità di scrivere codice. Tutti a scoprire i limiti. Pochi a chiedersi: io, concretamente, cosa ci faccio?
Poi è arrivato GPT-4o con la voce. Poi Claude 3 Opus, poi Claude 3.5 Sonnet. Poi Gemini 1.5 Pro con il context window da un milione di token. Poi Llama 3 open source, poi DeepSeek che costava zero e nei benchmark batteva tutto. Poi o1, o3, Gemini 2.5 Flash, GPT-5, Claude Sonnet 4, Claude Opus 4. Ogni tre mesi circa un modello nuovo che “cambia tutto”.
E ogni tre mesi, la stessa sequenza: thread di confronto, test con prompt standard, discussioni su chi vince nel ragionamento a passi, qualcuno che posta uno screenshot dove il modello sbaglia una divisione e ne deduce che è inutile, qualcun altro che posta uno screenshot dove risponde in modo perfetto e ne deduce che ha superato l’intelligenza umana. Poi arriva il modello successivo e si ricomincia.
L’MMLU è un test accademico su 57 categorie di conoscenza. L’HumanEval misura la capacità di scrivere funzioni Python su problemi standardizzati. Il GPQA è un benchmark su domande a scelta multipla di livello dottorato in fisica e biologia molecolare. Nessuno di questi benchmark risponde alla domanda che conta: questo modello mi aiuta a fare meglio quello che faccio io ogni giorno?
La risposta dipende da cosa fai tu ogni giorno. E questa è la parte che i thread di confronto saltano sempre.
Cosa succede nel ciclo del hype
Esce un modello. Arrivano i benchmark. Arrivano i thread. Arrivano le discussioni su quale ha raggiunto o superato le capacità umane in quale task (il che dipende interamente da come è definito il task e chi ha scritto il benchmark, ma questo nei thread non lo legge quasi nessuno). Poi arrivano le critiche. Poi l’hype si stabilizza. A quel punto il modello esiste come strumento che alcune persone usano e molte altre continuano a confrontare con il successivo.
Il ciclo dura sei, otto settimane. Poi ricomincia.
In questi cicli, quello che si perde quasi sempre è la domanda più semplice: a cosa ti serve? Non in astratto, non “per la produttività in generale”. Cosa fa, nella tua giornata, questa cosa che prima non riuscivi a fare o che ti costava tempo?
Ho iniziato a usare i modelli linguistici seriamente verso fine 2023, quando Claude 2 era l’opzione più affidabile che avevo per certi lavori. Non mi interessava sapere se era “migliore” di GPT-4 in astratto. Mi interessava se riusciva ad aiutarmi a fare cose specifiche nel modo che volevo. Alcune cose le faceva bene, altre no. Ho cambiato modello quando qualcosa che mi serviva non funzionava, non quando usciva la versione nuova.
La differenza tra Claude 3.5 Sonnet e Claude 3 Opus, per quello che facevo io, era meno rilevante di quanto avessi capito su come costruire un buon contesto e come strutturare le istruzioni. Lo strumento conta, ma conta meno di come lo usi. Questa è una cosa che nessun benchmark misura.
Il confronto ha senso, ma non per chi lo fa di solito
Non è che il confronto tra modelli sia inutile. È utile per chi deve scegliere quale API usare in produzione, o chi deve decidere quale abbonamento pagare, o chi costruisce applicazioni e ha bisogno di ottimizzare costi e latenza. In quei casi i benchmark servono, anche se vanno letti sapendo cosa misurano.
Ma la maggior parte delle persone che pubblica o commenta quei thread non sta prendendo quella decisione. Sta cercando il senso di partecipare a qualcosa, di essere aggiornata, di non restare indietro. È la stessa ansia che spingeva la gente a comprare ogni anno il nuovo iPhone anche se quello vecchio funzionava benissimo, ma amplificata dalla velocità con cui i modelli si susseguono e dalla vastità delle community online che ne discutono.
Risposte, ahimé, non ne ho. Non so quale sia il modo giusto di stare dentro a questo settore senza perdersi nell’inseguimento delle novità. Quello che so è che ogni volta che mi sono fermato a usare davvero uno strumento invece di andare a vedere cos’altro era uscito, ne sono uscito con qualcosa di concreto. Ogni volta che invece ho partecipato al confronto, ne sono uscito con l’impressione vaga di essere aggiornato.
Il modello successivo arriverà. Sarà probabilmente migliore del precedente in qualche benchmark. Ci sarà un thread. E la domanda che nessuno porrà sarà ancora la stessa: ma tu, cosa hai fatto con quello che già avevi?
Immagine: Mike MacKenzie / Flickr, licenza CC BY 2.0 via Wikimedia Commons