Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON
Nome del corso | Finanza e metodi quantitativi per l'economia |
---|---|
Codice insegnamento | A003078 |
Curriculum | Data science for finance and insurance |
Docente responsabile | Marco Doretti |
Docenti |
|
Ore |
|
CFU | 6 |
Regolamento | Coorte 2023 |
Erogato | Erogato nel 2023/24 |
Erogato altro regolamento | |
Attività | Caratterizzante |
Ambito | Matematico, statistico, informatico |
Settore | SECS-S/01 |
Tipo insegnamento | Obbligatorio (Required) |
Tipo attività | Attività formativa monodisciplinare |
Lingua insegnamento | INGLESE |
Contenuti | Richiami di probabilità e inferenza statistica; teoria della verosimiglianza; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati. |
Testi di riferimento | Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Materiale didattico integrativo a cura del docente |
Obiettivi formativi | Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi). |
Metodi didattici | Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti. |
Modalità di verifica dell'apprendimento | Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso. |
Programma esteso | Richiami di probabilità e inferenza statistica: principali variabili casuali e loro momenti. Proprietà degli stimatori, intervalli di confidenza e test delle ipotesi per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap. Test del rapporto di verosimiglianza, score test e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring. |