Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON

Nome del corso	Finanza e metodi quantitativi per l'economia
Codice insegnamento	A003078
Curriculum	Data science for finance and insurance
Docente responsabile	Marco Doretti
Docenti	Marco Doretti
Ore	42 ore - Marco Doretti
CFU	6
Regolamento	Coorte 2023
Erogato	Erogato nel 2023/24
Erogato altro regolamento	Coorte 2024 - Erogato nell'anno 2024
Attività	Caratterizzante
Ambito	Matematico, statistico, informatico
Settore	SECS-S/01
Tipo insegnamento	Obbligatorio (Required)
Tipo attività	Attività formativa monodisciplinare
Lingua insegnamento	INGLESE
Contenuti	Richiami di probabilità e inferenza statistica; teoria della verosimiglianza; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati.
Testi di riferimento	Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Materiale didattico integrativo a cura del docente
Obiettivi formativi	Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi).
Metodi didattici	Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti.
Modalità di verifica dell'apprendimento	Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso.
Programma esteso	Richiami di probabilità e inferenza statistica: principali variabili casuali e loro momenti. Proprietà degli stimatori, intervalli di confidenza e test delle ipotesi per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap. Test del rapporto di verosimiglianza, score test e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring.