Obiettivi formativi
Il corso di Statistica e Informatica ha per obiettivo l’uso dei programmi informatici di statistica, con la capacità di scegliere quelli adeguati per robustezza e potenza al problema e alle caratteristiche dei dati, interpretare correttamente gli output, illustrare i metodi e i passaggi logici sui quali sono fondati, motivare la scelta dei test.
Il corso spiega i metodi della statistica descrittiva, le distribuzioni teoriche principali e i test inferenziali che hanno un uso più frequente nella ricerca e nella professione (chi quadrato, t di Student, ANOVA crossed e nested a due e più fattori o livelli con eventuale interazione, la regressione lineare e la correlazione).
Oltre ai metodi parametrici sono discussi quelli non parametrici più diffusi e riportati nei programmi informatici, utili in particolare quando la variabilità dei dati è grande e/o le misure sono approssimate.
Al termine del corso lo studente dovrebbe aver acquisito la capacità di elaborare dati raccolti in natura e in laboratorio, di presentarli correttamente in rapporti di aziende e/o pubblicazioni su riviste internazionali, di comprendere e valutare le analisi di statistica univariata e bivariata riportati nelle riviste internazionali.
In particolare lo studente dovrebbe essere in grado di:
D1. Conoscenza e capacità di comprensione.
Capire i concetti della statistica inferenziale, formulare l’ipotesi nulla e l’ipotesi alternativa, interpretare la probabilità ricavata dai dati.
D2. Capacità di applicare conoscenza e comprensione.
Usare i programmi informatici scegliendo i metodi descrittivi e i test inferenziali adeguati al problema scientifico che ha motivato la raccolta dei dati.
D3. Autonomia di giudizio.
Per la stessa domanda scientifica spesso sono possibili vari test; è importante scegliere il test parametrico o non parametrico più adeguato, motivando la scelta in termini di robustezza e potenza.
D4. Abilità comunicative.
Esporre i motivi della scelta del test, illustrare i concetti sui quali il metodo è fondato, interpretare correttamente la probabilità ottenuta e il suo significato nella disciplina e per il problema che hanno generato la ricerca.
D5. Capacità di apprendimento
Il corso porta a una conoscenza dei metodi statistici che permette di utilizzare i testi internazionali più completi e diffusi, capire e valutare le analisi inferenziali pubblicate sulle riviste internazionali.
Prerequisiti
Nella presentazione dei concetti e dei metodi, il corso inizia da un livello elementare per il quale sono più che sufficienti le conoscenze di matematica e calcolo acquisite nei corsi di matematica, fisica e chimica.
Contenuti dell'insegnamento
Nella prima parte del corso sono presentati e discussi i metodi di statistica descrittiva, dalle rappresentazioni tabellari e grafiche alla stima degli indici o statistiche. Nella seconda parte sono illustrati con esempi i modelli di distribuzioni teoriche, partendo dal calcolo combinatorio e descrivendo la binomiale, la poissoniana, l’ipergeometrica e la normale. Nella terza parte, quella prevalente, sono spiegati i test d’inferenza con illustrazioni della teoria e varie applicazioni alla professione e alla ricerca dei biotecnologi: chi quadrato, t di Student, soprattutto l’ANOVA nei suoi vari disegni sperimentali, la regressione e la correlazione lineari. Infine, per le situazioni con grande variabilità dei dati e presenza di outlier, sono presentati e applicati diversi test non parametrici.
Programma esteso
1 - Tipi di scala e di misurazione. Statistica descrittiva per distribuzioni univariate. Costruzione delle tabelle e rappresentazione grafiche per variabili quantitative e variabili qualitative: istogrammi, poligoni, rettangoli distanziati, diagrammi circolari. I pittogrammi e il lie factor. Indici di tendenza centrale, di dispersione, di simmetria e di curtosi. Numero di decimali e di cifre significative.
Esercizi di statistica descrittiva con uso del programma PAST.
2 - Calcolo combinatorio, distribuzione binomiale, poissoniana, ipergeometrica. La distribuzione normale e la normale ridotta. Esercizi con uso della normale ridotta e delle tabelle z.
3 - Confronti tra tassi e probabilità. La distribuzione chi quadrato. Test per la bontà dell’adattamento; condizioni di validità e correzione di Yates. Tabelle di contingenza 2 x 2 e R x C, per campioni piccoli e grandi: metodo esatto di Fisher e test z in tabelle 2 x 2.
Il metodo G o log-likelihood ratio nei test per la bontà dell’adattamento e in tabelle di contingenza.
Esercizi sul test chi-quadrato per la bontà dell’adattamento e in tabelle di contingenza con PAST
4 - Errore alfa e errore beta; potenza a priori e a posteriori. Stima delle dimensioni dei campioni per il confronto tra medie con la distribuzione normale. Numero di dati per una misura con la precisione desiderata
5 - La distribuzione t di Student. Test per la media di un campione e intervallo di confidenza della media. Confronto tra le medie di due campioni dipendenti e di due campioni indipendenti. Test per l’omogeneità della varianza; test F, test di Bartlett, test di Levene. Cenni sui metodi per il confronto tra due medie con varianze differenti. Stima delle dimensioni minime dei due campioni, con la distribuzione t e la distribuzione z. Il bilanciamento di 2 campioni.
Esercizi sul test t di Student con il programma PAST, con varianze uguali e diverse.
6 - Analisi della varianza (ANOVA) a un criterio (one-way): il confronto tra due o più medie. Distribuzione F di Fisher-Snedecor e relazione con la distribuzione t di Student. Condizioni di validità dell’ANOVA e test per l’omoschedasticità con k campioni: test di Hartley, test di Cochran, test di Bartlett, test di Levene e sue varianti. Confronti multipli a priori o pianificati; confronti multipli a posteriori o post-hoc: il rischio alfa e il principio di Bonferroni; i metodi Bonferroni-Dunn, HSD di Tukey, SNK e i metodi sequenziali, il test di Dunnett, il test Duncan. Applicazioni dell’ANOVA e dei confronti multipli con il programma PAST.
Esercizi sull’ANOVA con il programma PAST.
7 - Analisi della varianza con due (two way) e con più criteri crossed. Metodi per ridurre il numero di osservazioni: i quadrati latini. Efficienza relativa di un disegno sperimentale. La perdita di dati in tabelle a due o più fattori crossed. Analisi dell’interazione tra due fattori, con misure ripetute. Interpretazione dell’interazione, con rappresentazioni grafiche. Analisi gerarchica o nested a due e a più livelli. Interazione nell’ANOVA a più fattori, crossed, nested e mista.
Assunzioni di validità dell’ANOVA, trasformazioni dei dati; il metodo di Box-Cox per la trasformazione più adeguata.
8 - Statistica descrittiva per distribuzioni bivariate. Regressione lineare semplice: stima del coefficiente angolare b e dell’intercetta a; significatività e intervallo di confidenza del coefficiente angolare e dell’intercetta. Scelta del campione per la significatività del coefficiente angolare e dell’intercetta. Il coefficiente di determinazione R-quadro. La regressione per l’origine: vantaggi e svantaggi. La predizione inversa o calibrazione. Confronto tra i coefficienti angolari di due campioni indipendenti. Concetti sull’analisi della covarianza (confronti tra medie di Y con X diversi).
La regressione lineare con Y ripetute. Calcolo dei termini della regressione mediante i coefficienti polinomiali. Test di linearità con Y ripetute, in cam
Bibliografia
A)
Lamberto Soliani (2015) Statistica di base. Piccin, Padova.
B) Per la statistica non parametrica:
Soliani Lamberto (2018) Statistica non parametrica, classica e moderna, Piccin, Padova.
Testi internazionali di riferimento:
- Sokal R. R. and F. J. Rohlf 2012. Biometry: the principles and practice of statistics in biological research. 4th edition. W. H. Freeman and Co.: New York. 937 pp
- Zar Jerrold (2010). Biostatistical Analysis, Fifth Edition. Pearson Education International, New Jersey, 944 pp
Testi internazionali gratuiti in rete, con argomenti utili al chimico
- EPA 530/R-09-007, March 2009, Statistical Analysis of Groundwater Monitoring Data at RCRA Facilities. Unified Guidance, Environmental Protection Agency, United States (pp. 888).
- EM 1110-1-4014, 31 Jan 2008, Environmental Quality - ENVIRONMENTAL STATISTICS, Department of the Army, U. S. Army Corps of Engineers (pp. 544).
Metodi didattici
Metodi didattici
La presentazioni dei concetti e dei metodi avviene con lezioni frontali, proiettando e discutendo le formule con applicazioni a vari esempi di geologia. L’uso di programmi informatici è presentato con la proiezione delle fasi di caricamento dati, l’applicazione dei grafici e dei test, la lettura dell’output e la discussione dei risultati. Gli studenti devono seguire e apprendere le varie fasi svolgendo gli esempi con il loro computer e il programma scelto.
Altre informazioni e attività di supporto.
Uso di almeno un programma informatico gratuito di riconosciuta validità internazionale, come PAleontological STatistics: www.nhm.uio.no/norlex/past/download.html
La scelta del programma è motivata dalla semplicità d’uso, dalla possibilità di caricare i dati direttamente da Excel, dalla qualità dei metodi descrittivi e dei test proposti, dalla sua diffusione del programma nelle discipline scientifiche, dalla semplicità con la quale ogni studente può averlo disponibile e aggiornato gratuitamente sul suo computer.
Modalità verifica apprendimento
Modalità di verifica dell’apprendimento
Colloquio orale con discussione di esempi, per verificare l’apprendimento dei concetti e dei metodi della statistica inferenziale, la capacità di illustrare gli output informatici e di interpretarne i risultati. Il voto dipende dalla entità del programma studiato, dagli approfondimenti sui singoli temi illustrati a lezione, dalla correttezza dell’ipotesi formulate e della procedura statistica usata, dalla correttezza delle conclusioni tratte dal risultato del test e del linguaggio scientifico usato.
Altre informazioni
Nel periodo di esami vi sarà un appello a settimana, eccetto in luglio e agosto dove saranno due.
Per informazioni esatte e aggiornate e per colloqui con il docente mandare e-mail.
E-mail: lamberto.soliani@unipr.it
Obiettivi agenda 2030 per lo sviluppo sostenibile
- - -