STATISTICA
STATISTICA
Studio quantitativo dei fenomeni di massa o collettivi che, per essere adeguatamente conosciuti, richiedono l’osservazione di fenomeni più semplici (singoli) che li costituiscono. Tali sono, per es., la natalità, la mortalità, le migrazioni, la scolarità, l’occupazione. Di tali fenomeni la s. studia l’aspetto quantitativo e fornisce metodi e strumenti per una loro descrizione sintetica ed uno studio più approfondito da diversi punti di vista (confronti, generalizzazioni, previsioni).
1. Finalità della conoscenza s. Un primo tentativo di precisazione dei compiti della s. può esser compiuto accennando ad una duplice esigenza che sta a fondamento del suo sorgere: la prima, di ordine pratico, volta a soddisfare concrete necessità dei gruppi sociali; la seconda di ordine «conoscitivo», collegata al desiderio che l’uomo ha sempre avvertito di conoscere a fondo la realtà che lo circonda. Questa seconda esigenza, in particolare, mira all’individuazione di connessioni e regolarità nei fenomeni naturali, in vista di comportamenti da adottare ma anche per la soddisfazione che tale conoscenza procura.
2. Cenni storici. Della s. come attività pratica si hanno tracce antichissime, per es. presso i Sumeri e altri popoli della Mesopotamia. Ma gli esempi più interessanti provengono dalle rilevazioni (censimenti) praticate nell’antico Egitto, in Cina (censimento della popolazione e delle terre nel 2238 a.C.), presso il popolo d’Israele e a Roma. Tracce della s. come disciplina possono essere individuate presso scrittori greci, latini e medioevali, mentre come metodologia autonoma essa ha origini più recenti. Per il suo aspetto descrittivo si fa riferimento alla «s. universitaria» tedesca, che si proponeva di descrivere le cose notevoli dello Stato. Iniziatore ne è considerato E. Conring (1606-1681), ma il merito di avere riorganizzato e diffuso la nuova disciplina spetta a G. Achenwall (1719-1772) che propose anche di chiamarla s. (termine già noto e utilizzato). Si trattava di una descrizione prevalentemente qualitativa, messa successivamente in crisi dalla proposta del danese I. P. Anchersen di utilizzare tavole statistiche. La proposta, nonostante vivaci resistenze da parte degli statistici universitari, si affermò ponendo le premesse per la complessa e ricca documentazione s. odierna. Dal punto di vista della metodologia, tuttavia, i riferimenti obbligati sono i lavori di J. Graunt e successori (→ demografia), e il contributo del calcolo delle → probabilità.
3. L’indagine s. Un’indagine s. è analiticamente suddivisibile in fasi (raccolta, classificazione, elaborazione, interpretazione). La prima di esse è la raccolta delle informazioni. Essa ha importanza fondamentale, in quanto è chiamata a fornire il materiale su cui si svolgeranno tutte le successive elaborazioni. È in questa fase che, avendo presenti le esigenze cui intende far fronte la rilevazione, deve essere individuato il collettivo (popolazione) oggetto di studio, precisando se verranno considerate tutte le unità (censimento) o solo una parte di esse (→ campione). Occorre inoltre delimitare i caratteri da rilevare, gli strumenti per farlo e altri aspetti che caratterizzano il piano di rilevazione. In particolare va chiarito il livello di misura che verrà adottato, condizionato sia dal tipo di carattere (qualitativo o quantitativo) che dal modo seguito per misurarlo. La distinzione è rilevante agli effetti della informazione che si ottiene, ma anche per il tipo di operazioni ammissibili ai diversi livelli. I dati raccolti, dopo un’attenta verifica per individuare ed eliminare, nei limiti del possibile, eventuali errori, possono essere organizzati in tabelle (matrici) dove le righe rappresentano le singole unità e le colonne i caratteri (variabili), come nel seguente ipotetico esempio riferito ad allievi di una Scuola Secondaria Superiore:
Unità
| Sesso
| Età
| Classe
| Ital. or.
| Ital. scr.
| Storia
| Mat.
|
1
| M
| 16
| 3
| 7
| 6
| 8
| 7
|
2
| F
| 15
| 2
| 7
| 8
| 6
| 7
|
3
| F
| 17
| 3
| 6
| 5
| 7
| 6
|
4
| M
| 15
| 2
| 5
| 5
| 6
| 5
|
Partendo da queste informazioni ha inizio la fase di descrizione, che comporta la loro sintesi mediante classificazione (naturalmente se il numero delle unità lo richiede), il calcolo di indici significativi, le rappresentazioni grafiche, ecc.
4. L’analisi unidimensionale. Considerando un carattere alla volta (una colonna della matrice) viene realizzata la prima fondamentale sintesi, la classificazione, che porta a sostituire la molteplicità ed eterogeneità dei dati individuali con gruppi omogenei in base alle modalità del carattere oggetto di studio. Il risultato della classificazione porta al concetto di frequenza (assoluta: numero di unità che appartengono a una modalità o classe) e a quello di distribuzione semplice (cioè secondo un solo carattere), uno dei concetti cardine della metodologia s. Così, per es., considerando un voto (una colonna della matrice) si perverrebbe ad una distribuzione di frequenza come la seguente (N = 70):
Voto
| 4
| 5
| 6
| 7
| 8
| 9
| Tot.
|
F. assol.
| 5
| 7
| 11
| 21
| 16
| 10
| 70
|
F. percent.
| 7.1
| 10.0
| 15.7
| 30.0
| 22.9
| 14.3
| 100
|
L’esame di tabelle del genere permette di ottenere informazioni sul modo di distribuirsi delle unità rispetto alle modalità (o classi di modalità) dei caratteri considerati, favorendo l’emergere di particolari rilevanti: modalità (o classe) più frequente, andamento globale delle frequenze, ecc. Diverse forme di rappresentazione grafica, che si fondano prevalentemente sui risultati della classificazione, facilitano questo esame, proponendone una visione d’insieme dove emergono con immediatezza gli elementi più significativi. Alcune di esse (poligoni, istogrammi...) possono offrire spunti significativi in vista di un esame approfondito e del ricorso a modelli interpretativi teorici.
5. La sintesi e la variabilità. Partendo da un altro punto di vista si perviene a una sintesi dei dati che sostituiscono alla loro molteplicità un solo indice (valore medio) che serve a rappresentarli. Tra i numerosi valori medi ricordiamo: la moda o risultato più frequente, individuabile a tutti i livelli di misura (nominale e successivi); la mediana, che divide a metà la distribuzione dei dati una volta che questi siano stati ordinati; la media aritmetica (o media per antonomasia) calcolabile su dati quantitativi. Quest’ultima si ottiene, per definizione, facendo la somma di tutti i risultati e dividendola per il loro numero. In simboli:
I tre valori medi considerano i dati da diversi punti di vista e abitualmente non coincidono (e sono possibili distribuzioni senza o con più mode). La sintesi operata dai valori medi avviene però a scapito di quella fondamentale caratteristica dei risultati che stimola e giustifica il loro trattamento con metodi statistici: la variabilità. Gli indici di variabilità si propongono di ricuperare questo dato. Essi hanno in genere valore zero quando tutti i dati sono uguali tra di loro, superiore a zero e crescente all’aumentare della variabilità stessa. Il più importante, sia teoricamente che in pratica, è lo scostamento quadratico medio:
(e il suo quadrato, s2, detto varianza). Lo scostamento q.m. viene spesso assunto come riferimento (unità di misura) per mettere a confronto deviazioni dalla media aritmetica, prescindendo dall’unità di misura in cui sono espressi i risultati (standardizzandoli, come anche si dice). La formula di calcolo è la seguente:
La standardizzazione sostituisce alla distribuzione delle X (con media X e scostamento q.m. s), quella dei punti z, con media uguale a zero e scostamento q.m. (e quindi varianza) uguale a 1, mantenendo però invariato l’andamento della distribuzione di partenza.
6. L’analisi bidimensionale. Un passo decisivo nella descrizione dei fenomeni collettivi si compie considerando contemporaneamente due caratteri (due colonne della matrice dei dati). Lo studio dei dati da questo punto di vista risponde all’esigenza sempre avvertita dall’uomo di rendersi conto dell’andamento congiunto di due (o più) fenomeni per coglierne eventuali regolarità (si pensi ad alcune generalizzazioni contenute nei proverbi popolari relativi a fenomeni meteorologici, come «Rosso di sera bel tempo si spera»), per scoprire le «cause» e per servirsi delle conoscenze acquisite a fini pratici. A livello descrittivo la metodologia s. per l’analisi bidimensionale segue lo schema illustrato sopra per i caratteri (variabili) semplici. Si parte dalla classificazione dei dati che, nel caso di due variabili, porta a costruire tabelle a doppia entrata (specie di stanze o celle con diversa entrata per le due variabili). Si possono calcolare valori medi e indici di variabilità per le diverse distribuzioni, percentuali, ecc. e anche ricorrere a rappresentazioni grafiche. Ma la considerazione congiunta di due variabili permette soprattutto di avviare il discorso relativo ad eventuali connessioni tra di loro, di misurarne la consistenza, di costruire e utilizzare modelli interpretativi della realtà studiata. Un primo passo è costituito dall’esame della «indipendenza» tra due variabili. Si parla di indipendenza se, al variare di un carattere (per es. il sesso), le distribuzioni parziali dell’altro presentano lo stesso andamento (la stessa composizione percentuale). In caso contrario si parla, specie per caratteri qualitativi, di connessione e vengono utilizzati svariati indici per misurarla. A livello almeno ordinale di misura è possibile stabilire se due caratteri variano rappresentazione grafica) si cerca di stabilire come un carattere (Y) varia in media al variare di un altro (X). Si parla, in genere, di analisi di regressione e della relativa equazione. L’analisi dell’interdipendenza pone invece, per così dire, le due variabili X e Y sullo stesso piano per studiarne il reciproco comportamento (come variano assieme) e giungere a calcolare indici che rendono ragione sia del verso (col segno + o -), sia della consistenza (numericamente espressa) del vicendevole legame. Il più noto e utilizzato di questi indici (specie nelle applicazioni psicologiche e didattiche) è il coefficiente di correlazione r (detto anche di Bravais-Pearson, dal nome degli studiosi che per primi se ne sono occupati). Il coefficiente r varia tra -1 (relazione lineare negativa perfetta) e +1 (relazione lineare positiva perfetta). I risultati intermedi indicano gradi più o meno stretti in riferimento a questo tipo di legame. Il valore r = 0 sta a significare che non è possibile descrivere, anche se approssimativamente, il legame tra X e Y con una equazione lineare come quella vista sopra. Si può infatti ottenere r = 0 in presenza di altri tipi di legame (per es. quadratico). Occorre poi precisare che r non è in grado di «spiegare» il perché dell’eventuale legame, e non può quindi, da solo, autorizzare affermazioni del tipo causa-effetto. Accanto ad r esiste inoltre tutta una serie di altri coefficienti, utilizzati per adattarsi al tipo di dati a disposizione. A conclusione di queste considerazioni sull’analisi bidimensionale va aggiunto che il discorso può essere ampliato considerando contemporaneamente tre o più variabili. La letteratura in proposito è molto vasta: qui ci si limita a ricordarne l’esistenza.
7. L’inferenza s. (classica). Le descrizioni dei dati di cui si è finora parlato, trattano sostanzialmente allo stesso modo informazioni provenienti dall’intera popolazione (censimenti) o da una sua parte (rilevazioni campionarie). L’inferenza s. si occupa invece del secondo tipo di dati, la cui raccolta non rimane fine a se stessa, ma deve servire a produrre informazioni su uno o più aspetti della popolazione da cui il campione proviene. Il discorso al riguardo richiede però una duplice precisazione. La prima concerne la terminologia usata: quando la chiarezza del discorso lo esige, le sintesi numeriche riferite alla popolazione vengono chiamate parametri (e di solito indicate con lettere dell’alfabeto greco); sono invece dette costanti statistiche (o semplicemente costanti, o statistiche) quelle ottenute sui campioni (ordinariamente rappresentate con lettere dell’alfabeto latino). La seconda precisazione riguarda il campione: gli strumenti per l’inferenza vengono forniti dal calcolo delle → probabilità, assumendo sue distribuzioni a rappresentare il comportamento dei fenomeni naturali oggetto di studio. Ciò suppone che i campioni su cui si opera non siano scelti in modo qualsiasi, ma rispettando norme atte ad assicurare alle singole unità una data probabilità di entrare a farne parte (nel caso dello schema di campionamento casuale semplice, la stessa probabilità). In tal modo viene garantita la possibilità di costruire distribuzioni campionarie teoriche come quella delle medie campionarie, della differenza tra medie, ecc., che costituiscono il fondamento dell’inferenza s. Fatte queste precisazioni, si può affermare, almeno in prima approssimazione, che l’inferenza s., partendo dalle informazioni ottenute attraverso le rilevazioni campionarie, giunge ad affermazioni sui parametri della popolazione relativa e anche sulla forma della distribuzione dei dati nella stessa. I problemi che l’inferenza s. è chiamata a risolvere, possono essere classificati in due grandi categorie (collegate, peraltro, tra di loro): stima di parametri e verifica di ipotesi. Nel caso della stima si tratta di individuare strumenti (stimatori) in grado di fornire informazioni sulla popolazione da cui proviene il campione. Qui verranno considerati procedimenti per stime relative a parametri, che si presentano sotto una duplice forma: a) Stime puntuali: si assume il valore (stima) fornito dallo stimatore a rappresentare il relativo parametro incognito della popolazione (es.: media, percentuale). È il metodo abitualmente utilizzato, per es. in TV e sui giornali, per presentare risultati di rilevazioni campionarie. b) Intervalli di confidenza. Le stime puntuali possono non apparire soddisfacenti, in quanto abitualmente non si è in grado di valutare la consistenza dell’errore di stima (differenza tra stima e parametro) e la probabilità di incorrervi. Gli intervalli di confidenza intendono proprio offrire la possibilità di misurare, in termini di probabilità, l’attendibilità di una stima, costruendo attorno ad essa intervalli in grado di contenere, con assegnata probabilità (es. 95%), l’incognito parametro della popolazione.
8. Verifica di ipotesi. Un’ipotesi s., in questa prospettiva, può essere considerata come un’affermazione relativa a qualche parametro della popolazione (es.: media, percentuale, coefficiente di correlazione...). Tale ipotesi va sottoposta a verifica, nel senso che si cerca di valutarne i limiti di sostenibilità (in termini di probabilità) alla luce dei dati raccolti su di un campione proveniente dalla popolazione a cui il parametro è riferito. In pratica, si procede abitualmente in questo modo: 1) si enuncia un’ipotesi di base o nulla (H0) e una sua alternativa (H1) nel caso in cui H0 non risulti sostenibile; 2) si ricorre ad una procedura (un → test) per suddividere la totalità dei possibili risultati campionari in due regioni: una contenente quelli compatibili con H0, l’altra (regione «critica») quelli che sembrano far preferire H1; 3) le due regioni vengono individuate tenendo presente un prefissato rischio di errore (α) se si dovesse arrivare a respingere H0 e la formulazione dell’alternativa H1 (unidirezionale o bidirezionale); 4) si raccolgono i dati sul campione, si applica il test e si decide (abitualmente) pro o contro la sostenibilità di H0. Questo modo di procedere trova applicazione in una grande varietà di situazioni, ma, come si è detto, si fonda sul ricorso a distribuzioni campionarie teoriche. Quando ciò fosse impossibile, o sconsigliabile data la natura dei dati, esiste tutta una serie di procedure (test) non vincolate alla forma della distribuzione della variabile nella popolazione, spesso denominate test non parametrici. Il modo di impostare e risolvere i problemi ricalca tuttavia, nei suoi momenti essenziali, quello visto sopra. Tale procedimento è stato ed è sottoposto a vivaci critiche, particolarmente dai sostenitori della interpretazione soggettiva della probabilità, che ritengono essenziale, nel procedimento, anche una valutazione previa (probabilità iniziale) relativa alla situazione in esame e fanno esplicito riferimento all’utilizzazione del teorema di Bayes (inferenza Bayesiana). Anche a proposito dell’inferenza, come (e più che) per la descrizione, occorre ricordare che esiste una imponente serie di strumenti che affrontano una grande varietà e complessità di verifica di ipotesi statistiche su uno o più campioni, su una o più variabili in situazioni sperimentali o di semplice osservazione, ecc.
9. L’uso scientifico della s. L’importanza della metodologia s. è tale che si è arrivato a considerarla come «il metodo esclusivo per investigare i fatti naturali, qualunque sia la loro specie» (Boldrini, 1968, 29). Infatti essa trova applicazioni in campo economico, demografico, medico, fisico, oltre che in quasi tutte le rilevazioni (sondaggi) su diversi aspetti della situazione sociale (tra cui quelli educativi). Ciò esige, da parte degli utilizzatori dei suoi risultati, una conoscenza (almeno essenziale) delle modalità di trattazione dei dati e del loro significato. Essa infatti è in grado di proporre descrizioni (e interpretazioni) quantitative delle principali caratteristiche relative ai molteplici aspetti della vita sociale, alla cui conoscenza sono interessati da diversi punti di vista sociologi, psicologi, educatori, pedagogisti. D’altra parte il continuo ricorso a indagini campionarie esige un atteggiamento critico nella valutazione dei risultati ottenuti, sia dal punto di vista della loro origine (caratteristiche del campione) che del loro significato (descrizione «approssimata» dell’essere, non del dover essere). Una conoscenza dei procedimenti proposti dalla s. – anche solo a livello elementare – può risultare utile nella fase di documentazione di determinate situazioni (es.: andamento di iscrizioni, promozioni, ripetenze a livello di una istituzione scolastica) e / o di esperienze innovative che vanno adeguatamente illustrate e valutate. Ciò suppone, in definitiva, da una parte il «non rifiuto» di una seria documentazione anche quantitativa e, dall’altra, un attento procedimento di utilizzazione e valutazione critica della stessa: due atteggiamenti che la metodologia s. è in grado di suggerire e affinare.
10. S. e informatica. Una delle remore all’uso della metodologia s. è stata rappresentata, in passato, dal timore suscitato dal continuo ricorso a grandi quantitativi di dati e al loro trattamento. Il successo degli elaboratori elettronici ha ridimensionato questo timore. Essi permettono di utilizzare agevolmente «pacchetti» di programmi dedicati esplicitamente alle elaborazioni statistiche dei dati, continuamente aggiornati e ampliati, come S., SPSS, SYSTAT, ecc. Essi propongono (anche se con accentuazioni diverse) soluzioni standardizzate per la costruzione delle matrici dei dati (immissione dei dati), la loro descrizione e rappresentazione grafica (anche in riferimento a recenti proposte di «analisi esplorativa dei dati»), la costruzione di modelli interpretativi (analisi di regressione, correlazione canonica...), la verifica di ipotesi dal livello elementare (test su due campioni) a quello più approfondito (analisi della varianza), al trattamento delle classificazioni a livello qualitativo, all’analisi delle serie storiche, ecc. Il problema posto dall’utilizzazione delle enormi possibilità offerte da questi «pacchetti» è quello di sapere, almeno a grandi linee, ciò che si vuole, ma soprattutto ciò che si può ottenere dai dati. Si richiede cioè una sostanziale conoscenza delle possibilità e dei limiti insiti nelle diverse procedure proposte al fine di utilizzare le stesse (o farle utilizzare da altri) per ottenere risposte coerenti con gli obiettivi che stanno alla base del ricorso allo studio quantitativo di una determinata realtà.
11. Una cultura s. Il continuo ricorso a dati statistici, che riguardano i più diversi aspetti della vita di un Paese, e la disinvolta pubblicizzazione che ne viene fatta da parte dei mezzi di comunicazione sociale, pone il problema di una «alfabetizzazione» dei destinatari di questi messaggi, che li ponga in condizione di comprendere, valutare e anche, seppure a livello elementare, usare dati quantitativi presentati sotto forma di grafici, tabelle e / o sintetizzati con opportuni indici e misure. La scuola si è posta da tempo questo problema, introducendo nei programmi, già a livello di scuola di base, una iniziazione alla s. e alla probabilità. Esiste, al riguardo, una ricca documentazione reperibile in Internet, sia di testi specifici, sia di esempi sviluppati sfruttando strumenti informatici. Sono sorte anche, e continuano la loro attività, organiche iniziative tese a stimolare e sostenere questo impegno. Si segnalano, a titolo di esempio: la Rivista «Induzioni. Demografia, probabilità, s. a scuola» (fondata nel 1990, http: / / www.libraweb.net / riviste.php?chiave=09) che si propone di diffondere idee statistiche nella scuola e sottolineare l’utilità della s. nella vita pratica; il CIRDIS (Centro Interuniversitario di Ricerca per la Didattica delle Discipline Statistiche) (http: / / cirdis.stat.unipg.it / ), al quale aderiscono diverse Università. Anche l’ISTAT (Istituto Centrale di S.) è impegnato a «promuovere, fin dai primi cicli scolastici, la cultura dei numeri», dedicando alla scuola un apposito spazio, BINARIODIECI, «percorso guidato nell’officina dei dati ufficiali» (ww.istat.it / servizi / studenti / binariodie / ..) e avvertendo che in questa direzione si stanno muovendo in tutto il mondo i principali istituti di s., anche utilizzando le nuove opportunità offerte da Internet. Il riferimento a Internet sottolinea altre possibilità di «produrre» informazioni statistiche a livello elementare: il ricorso all’uso dei cosiddetti Fogli Elettronici che permettono di sostituire, almeno all’inizio, i Programmi dedicati di cui si è detto sopra, per es. EXCEL, sulla cui utilizzazione in questo contesto sono rintracciabili in Internet moltissimi riferimenti.
Bibliografia
Castellano V., Istituzioni di s., Roma, Ilardi, 1962; Boldrini M., S.: teoria e metodi, Milano, Giuffré, 1968; Giusti F., Introduzione alla s., Torino, Loescher, 1983; Leti G., S. descrittiva, Bologna, Il Mulino, 1983; Girone G. - T. Salvemini, Lezioni di S., 2 voll., Bari, Cacucci, 1992; Lombardo E., I dati statistici in pedagogia: esplorazione e analisi, Scandicci (FI), La Nuova Italia, 1993; Piccolo D., S., Bologna, Il Mulino, 2000; Bolasco S., Analisi multidimensionale dei dati, Roma, Carocci, 2004; Frayre M. - A. Rizzi, S., Ibid., 2005; Levine D. M. et al., S., Milano, Apogeo, 2006; Middleton M. R., Analisi S. con EXCEL, Ibid., 2006; Belissima F. - F. Montagna, Matematica per l’informatica, Roma, Carocci, 2006.
S. Sarti