Immagina di tentare di capire cosa stia succedendo in un enorme stadio intervistando a caso le persone nelle uscite. Potresti incontrare i fan accaniti che sono rimasti fino alla fine, ma perderesti completamente di vista le persone che sono andate via presto, quelle bloccate nel traffico o i VIP che hanno usato un’altra porta. Questo è essenzialmente come funzionano i sondaggi sull’innovazione del governo da decenni—ed è un problema.
Il Centraal Bureau voor de Statistiek (CBS) olandese ha appena lanciato qualcosa che dovrebbe far alzare in punta di piedi ogni appassionato di dati: stanno usando il machine learning per migliorare il modo in cui campionano le aziende per il Community Innovation Survey. Non si tratta di un esercizio accademico. Si tratta finalmente di ottenere dati accurati su quali aziende stanno davvero innovando e perché ciò sia più importante di quanto si possa pensare.
Il Problema del Campionamento di Cui Nessuno Parla
Il campionamento tradizionale dei sondaggi è come pescare con una rete che ha dei buchi. Lanci il contenuto ampio, speri nel meglio e accetti di perdere un bel po’ di pesci. Il Community Innovation Survey, che tiene traccia di come le aziende europee sviluppino nuovi prodotti, processi e modelli di business, ha utilizzato questo approccio per anni. Il risultato? Dati distorti che sovra-rappresentano aziende noiose o mancano completamente quelle interessanti.
Ecco cosa succede realmente: le piccole nuove aziende spesso vengono trascurate perché non rientrano in categorie statistiche ordinate. Nel frattempo, le grandi aziende consolidate vengono sovra-campionate perché sono facili da trovare e catalogare. È l’equivalente di intervistare solo le persone che rispondono al telefono: escludi sistematicamente tutti coloro che sono troppo impegnati a fare cose interessanti per rispondere.
Il Machine Learning Entra nel Gioco
Il metodo del CBS utilizza algoritmi per prevedere quali aziende sono più propense a innovare prima ancora di inviare i sondaggi. Stanno addestrando modelli su dati storici per identificare schemi che i statistici umani perderebbero. Una piccola azienda di software a Rotterdam che ha appena assunto tre dottori di ricerca? L’algoritmo la segnala. Un’azienda manifatturiera che ha improvvisamente aumentato le sue spese in R&D del 40%? Segnalata.
Non si tratta di sostituire il giudizio umano—si tratta di rendere il filtraggio iniziale più intelligente, in modo che le risorse dei sondaggi vadano dove possono effettivamente catturare dati significativi. Invece di campionare casualmente 10.000 aziende e sperare che 1.000 stiano facendo qualcosa di interessante, puoi mirare a 3.000 aziende in cui 2.000 sono probabilmente innovatori.
Anche la Banca Mondiale sta prestando attenzione. Il loro recente evento sulla misurazione dei sondaggi nell’era dell’IA ha messo in evidenza come i metodi tradizionali non riescano a catturare il ritmo del cambiamento economico moderno. Quando i cicli di innovazione sono misurati in mesi invece che in anni, aspettare che i sondaggi annuali ti dicano cosa è successo l’anno scorso è come leggere le previsioni del tempo di ieri.
Perché Questo È Importante
Dati sull’innovazione scadenti portano a cattive decisioni politiche. I governi allocano miliardi in finanziamenti per la ricerca, incentivi fiscali e programmi di supporto basati su questi sondaggi. Se i tuoi dati sottorappresentano sistematicamente certi tipi di innovazione o certi settori, finisci per finanziare le cose sbagliate.
Prendi il recente studio di Nature sulle donne nella scienza e nella politica tecnologica. Hanno dovuto costruire modelli di machine learning solo per affrontare i dati mancanti sulla partecipazione femminile negli STIP. Il fatto che abbiamo bisogno dell’IA per colmare le lacune nelle informazioni demografiche di base su chi fa scienza dovrebbe farti comprendere quanto siano difettosi i nostri sistemi di raccolta dati.
UNHCR sta affrontando sfide simili con i dati sui trasferimenti forzati. I metodi tradizionali di sondaggio non riescono a tenere il passo con situazioni in rapido cambiamento, e il machine learning sta diventando essenziale per comprendere le condizioni socioeconomiche nelle popolazioni rifugiate. Quando la tua metodologia di sondaggio era progettata per popolazioni stabili e tassi di risposta prevedibili, crolla in situazioni dinamiche.
La Vera Prova
La domanda non è se il machine learning possa migliorare il campionamento nei sondaggi—è ovvio che può. La domanda è se le agenzie statistiche implementeranno effettivamente questi metodi su larga scala, o se continueranno a fare le cose nel modo tradizionale perché è familiare e difendibile.
I primi risultati dall’esperimento del CBS sembrano promettenti. Stanno osservando tassi di risposta migliori da parte delle aziende target e dati più utili sulle effettive attività di innovazione. Ma siamo ancora nelle fasi iniziali. La vera prova sarà se altri paesi adotteranno approcci simili e se i miglioramenti nella qualità dei dati giustificheranno la complessità aggiuntiva.
È chiaro che il vecchio approccio del campionamento randomico è in declino. In un mondo in cui l’IA può prevedere quali ospedali avranno problemi di gestione del ciclo di entrate (come recentemente evidenziato dall’American Hospital Association), usare metodi del ventesimo secolo per comprendere l’innovazione del ventunesimo secolo è semplicemente pigro.
Gli olandesi ci stanno mostrando cosa è possibile quando applicano strumenti moderni a problemi vecchi. Se il resto del mondo seguirà il loro esempio determinerà se finalmente otterremo dati sull’innovazione che valgano davvero l’analisi—o se continueremo a pescare con reti piene di buchi.
🕒 Published: