DATA ANALYSIS FOR SOCIAL SCIENCES
Obiettivi formativi
La capacità di comprendere e valutare correttamente i risultati dell'analisi statistica quantitativa è considerata una risorsa essenziale per gli scienziati sociali. Questo corso intende fornire i fondamenti delle principali metodologie di analisi empirica ai fini dell’interpretazione e della ricerca su fenomeni internazionali. La trattazione metodologica degli argomenti è accompagnata da esemplificazioni su dati reali. Sono proposti esercizi, esercizi empirici e analisi di casi di valutazione di politiche anche con l’ausilio di software statistico (R, R-studio). Grazie al modello "Fully-Inquiry Based", al termine del corso, gli studenti saranno in grado di: i) effettuare analisi dei dati utilizzando statistiche descrittive e inferenziali; ii) confrontare diversi approcci di analisi empirica e selezionare la metodologia più appropriata alla luce dei dati disponibili e dell’obiettivo dello studio; iii) selezionare le modalità più adeguate per la descrizione e la presentazione dei dati.
Risultati di apprendimento attesi
Conoscenza e capacità di comprensione: al termine del corso gli studenti acquisiranno una conoscenza specifica sulle principali metodologie statistiche per l’analisi dei dati relativi ad alcuni principali argomenti di interesse per il corso di laurea (economici, sociali, politici, demografici). Con riferimento alle metodologie statistiche, i partecipanti svilupperanno conoscenze metodologiche e capacità di utilizzare metodi e strumenti per: a) l’analisi descrittiva dei dati; b) lo studio delle relazioni tra variabili sia da un punto di vista descrittivo che inferenziale; c) un’analisi multivariata dei dati (analisi dei gruppi). Gli studenti acquisiranno competenze sulle caratteristiche delle differenti strutture delle basi di dati (cross-section, serie storiche, dati longitudinali) e alla loro gestione ed elaborazione attraverso software statistici.
Capacità di applicare conoscenza e comprensione: al termine del corso, gli studenti avranno acquisito conoscenze metodologiche e capacità analitiche e saranno in grado di interpretare in autonomia analisi e ricerche empiriche sulle più rilevanti aree di intervento in ambito internazionale (ad esempio, demografiche e politiche). Gli studenti saranno in grado di: i) valutare i risultati delle analisi empiriche; considerare l’appropriatezza delle metodologie statistiche utilizzate; individuare gli eventuali limiti delle analisi statistiche e considerare l’utilizzo di approcci alternativi; ii) sviluppare case studies rilevanti per il decisore pubblico, delineando il tema di interesse, selezionando le basi di dati, identificando le metodologie di analisi empirica, comunicando i principali risultati conseguiti nella forma di presentazioni o report.
Autonomia di giudizio: il corso è volto a favorire un approccio critico sull’utilizzo dei differenti metodi di analisi dei dati per l’interpretazione dei fenomeni internazionali di interesse. Gli studenti: i) svilupperanno capacità critiche sull’utilizzo di vari metodi in relazione agli obiettivi di analisi del fenomeno internazionale oggetto di studio; ii) saranno in grado di valutare l’apporto di una specifica metodologia di analisi dei dati allo studio di fenomeni internazionali complessi; iii) svilupperanno la capacità di integrare coerentemente il contributo fornito dai metodi di analisi quantitativa con le competenze interdisciplinari dello studente. Tali obiettivi sono perseguiti predisponendo anche attività di lavoro in piccoli gruppi, funzionali ad attivare processi di pensiero critico delle capacità del singolo studente, anche attraverso la valutazione tra pari.
Abilità comunicative: gli studenti avranno maturato competenze specifiche per comunicare in maniera univoca e chiara lo schema di analisi dei dati adottato per lo studio empirico, con particolare riferimento alla struttura delle basi di dati, ai metodi statistici utilizzati, ai risultati conseguiti. La capacità di comunicazione efficace delle analisi dei dati e l’acquisizione di un linguaggio tecnico appropriato saranno conseguite attraverso prove scritte, presentazione e discussione di risultati di ricerche su dati empirici, articoli scientifici e report di istituzioni internazionali.
Capacità di apprendimento: le metodologie didattiche utilizzate durate il corso (case studies, seminari) e l'utilizzo di modalità di verifica dell’apprendimento, anche attraverso valutazioni tra pari, contribuiranno a rafforzare l'autonomia di giudizio e lo sviluppo di competenze di auto-apprendimento. Tale competenza sarà conseguita attraverso l’applicazione di metodi statistici in ambito economico, politico e sociale. Un obiettivo rilevante di questo corso è di fare in modo che gli studenti utilizzino metodi di analisi quantitativa anche in successive attività professionali o di studio e ricerca.
Contenuti Del Corso
Introduzione alla metodologia statistica. Fonti di dati internazionali e nazionali per l'analisi di fenomeni economici, sociali, politici e demografici. Campionamento e misurazione. Statistiche descrittive: descrizione di dati reali con tabelle e grafici; misure di posizione, variabilità e forma. Analisi della concentrazione. Interpretazione e confronto di dati riferiti a fenomeni socio-economici: numeri indici semplici e complessi (sintetici). Distribuzioni di probabilità. Inferenza statistica: stima puntuali, intervalli di confidenza e verifica di ipotesi. Associazione tra variabili categoriche. Regressione lineare e correlazione. Regressione lineare multipla. Regressioni con predittori categorici e quantitativi. Introduzione alla regressione logistica. Elementi di analisi statistica multivariata: analisi dei gruppi (cluster analysis) gerarchica e non gerarchica.
Gestione ed elaborazione dati attraverso il software R e R-Studio.
Casi di studio ed esercitazioni applicate basate su dati reali, misure e indicatori utilizzati per l'analisi degli argomenti correlati al corso (ad esempio, dati e analisi relativi allo Human Development Index, Sustainable Development Goals, the World Bank Development Indicators, European Regional Competitiveness Index e all’utilizzo delle basi di dati Eurostat, OECD, IMF, UNSD)
Testi Di Riferimento
Agresti A (2018) Statistical methods for the Social Sciences (5th Edition), Pearson – (nel programma dettagliato del corso sono indicati i capitoli e i paragrafi del libro da studiare)
Note e dispense a cura del docente (nel programma dettagliato sono indicati con un asterisco (*) gli argomenti per i quali sarà fornito materiale a cura del docente)
Metodologie Didattiche
Didattica frontale, Esercitazioni, Laboratorio con R e R studio, Esercitazioni empiriche, Apprendimento interattivo attraverso visualizzazione e consultazioni di dati, misure e report pubblicati, Analisi di casi (Case studies), Project Work anche con uso di software statistico e foglio elettronico avanzato.
Modalità di verifica dell'apprendimento
L'esame consiste in una prova scritta sull'intero programma del corso composta da quesiti di natura teorico-applicata e pratica, comprendenti anche quesiti specifici sull'uso, applicazione e interpretazione delle analisi statistiche che possono essere svolte con il software R. Durante l’esame non è consentita la consultazione di libri di testo e appunti.
Per gli studenti che frequentano il corso è inoltre prevista l’assegnazione di 1 problem set/project work di analisi ed elaborazione dati. Gli studenti devono risolvere i problem set/project work utilizzando R e R-studio. Gli elaborati devono essere consegnati entro la data comunicata con congruo anticipo dal docente del corso.
Per gli studenti che frequentano il corso, l’esame si completa sostenendo una prova scritta in una delle date di esame della sessione estiva, a scelta dello studente. La prova scritta per gli studenti frequentanti sarà composta da domande di teoria e applicate riguardante l’intero programma del corso.
Entrambe le prove sono obbligatorie.
Per gli studenti che frequentano il corso, il voto finale è ottenuto dalla somma dei voti conseguiti al project work in R/R-studio (punteggio massimo 16) e alla prova scritta (punteggio massimo 16.5).
Lo studente non soddisfatto della prova scritta (parziale) sostenuta, può ripeterla sempre entro la sessione estiva.
Se lo studente non è soddisfatto dell’esito conseguito sull’intero esame può rinunciare al voto finale e svolgere l’intero esame, che comprenderà domande di teoria, empiriche e domande finalizzate alla comprensione dell’utilizzo di R/R-studio per l’analisi dei dati.
Lo studente che sostiene la prova d'esame - se non si è ritirato entro 20 minuti dall'inizio della stessa - non può ripetere la prova all'appello successivo (“salto d'appello”) all'interno della medesima sessione. Durante la prova, a ciascun candidato verrà richiesto di esibire un documento con foto (preferibilmente il libretto universitario). Telefoni cellulari, palmari, agende elettroniche etc. dovranno rimanere spenti; è pertanto opportuno dotarsi di calcolatrice.
ESAME SOLO SCRITTO: questa tipologia di esame (c.d. “scritto verbalizzante”) prevede esclusivamente una prova scritta senza successivo esame orale. Lo studente si prenota per lo scritto; concluso lo scritto il docente corregge i compiti e pubblica gli esiti nella pagina web dedicata alla VOL (entro una settimana dallo svolgimento della prova stessa).
Il sistema invia una comunicazione con l’esito agli studenti iscritti all’appello (gli esiti dell’esame scritto potranno anche essere visualizzati sul web self service).
Dal momento della pubblicazione degli esiti lo studente ha 3 giorni di tempo per rifiutare il voto. Concluso il periodo di tempo indicato (3 giorni), vale la regola di silenzio-assenso e il voto viene verbalizzato da parte del docente che deve chiudere definitivamente il verbale attraverso la firma digitale. A chiusura del verbale lo studente riceve una mail di comunicazione del voto conseguito.
Prima della pubblicazione dei risultati sono resi disponibili, sul sito web del corso, il testo e la soluzione della prova scritta. Ciascun candidato può visionare il compito corretto, indipendentemente dall'esito finale dell'esame, nel giorno previsto dal docente in tempo utile per non accettare il voto proposto.
L’eccezionalità di non frequenza del corso comporta lo svolgimento di un esame composto solamente da prova scritta, i cui contenuti faranno riferimento sia a quesiti di natura teorica che a problemi ed esercizi di natura pratica che richiederanno anche la conoscenza del software R utilizzato durante il corso.
Criteri per l’assegnazione dell’elaborato finale
L'elaborato finale è un lavoro in cui si applicano metodologie statistiche con riferimento allo studio di fenomeni in ambito politico, economico o sociale. L’argomento è concordato con il docente.
Il syllabus affronta temi collegati alla sostenibilità?
Il corso propone metodologie e applicazioni pratiche riferite agli obiettivi di sviluppo sostenibile, con specifico riferimento agli SDGs 1,2,3 4, 5 e 10 e in via prioritaria orientati alla la riduzione della povertà e delle disuguaglianze territoriali.
Settimana 1
Introduzione: 1.1 Introduzione alla Metodologia Statistica; 1.2 Statistica descrittiva e statistica inferenziale; 1.3. Il ruolo di computer e software nelle statistiche (1.4 Riepilogo)
Fonti statistiche per l’analisi delle dinamiche economiche, sociali, politiche e demografiche in Europa e a livello globale (internazionale). Istituti ed enti produttori di statistiche ufficiali. La dimensione della qualità delle informazioni statistiche(*).
Campionamento e misurazione (2): 2.1.Variabili e loro misurazione; 2.2 randomizzazione; 2.3 Variabilità del campionamento e distorsione; 2.4 Altri metodi di campionamento probabilistico; (2.5 Riepilogo).
Laboratorio: Introduzione al software statistico R e R-studio: nozioni di base, oggetti, gestione database. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Settimana 2
Statistica descrittiva (3): 3.1 Descrivere i dati con tabelle e grafici; 3.2 Descrivere il centro dei dati; 3.3 Descrivere la variabilità dei dati; 3.4 Misure di posizione; 3.5 Statistica descrittiva bivariata; 3.6 Statistiche di esempio e parametri di popolazione; (3.7 Riepilogo). Analisi applicata dei dati e visualizzazione.
Introduzione al software statistico R e R-studio: nozioni di base, oggetti, gestione database.
Laboratorio con R e R-Studio, Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
HYPERLINK "http://hdr.undp.org/en/content/human-development-index-hdi" http://hdr.undp.org/en/content/human-development-index-hdi
HYPERLINK "http://www.systemicpeace.org/index.html" http://www.systemicpeace.org/index.html
https://www.istat.it/it/benessere-e-sostenibilit%C3%A0/obiettivi-di-sviluppo-sostenibile/gli-indicatori-istat
https://demo.istat.it/
Settimana 3
Misure di concentrazione dei redditi e misure di povertà. Variabilità e Concentrazione: definizione e descrizione. Gli indici di Gini, applicazioni con dati socio-economici reali(*).Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
http://www.systemicpeace.org/index.html
https://qog.pol.gu.se/data
https://www.transparency.org/en/cpi/2019
Settimana 4
Interpretazione e comparazione dei dati riferiti a un fenomeno socio-economico. Rapporti statistici. I numeri indici semplici. I numeri indici sintetici. Alcuni numeri indici pubblicati a livello nazionale e internazionale per l'esercizio di fenomeni socio-economici. Introduzione agli indicatori compositi: definizione, caratteristiche, approcci e peculiarità(*).Analisi applicata dei dati e visualizzazione.
Esercitazioni con il software R, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm
https://www.imf.org/en/Data
https://databank.worldbank.org/databases
https://unstats.un.org/home/
https://ec.europa.eu/eurostat/data/database
Settimana 5
Analisi dell'associazione tra variabili categoriali (8): 8.1 Tabelle di contingenza; 8.2 Test di indipendenza del chi quadrato; (8.6 Riepilogo).
Introduzione all’associazione per caratteri quantitativi (capitolo 9).
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con elaborazione dati, visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.europeansocialsurvey.org/
https://zacat.gesis.org/webview/index.jsp
https://sda.berkeley.edu
Settimana 6
Distribuzione dei dati e variabili casuali (capitolo 4).
Inferenza statistica e introduzione ai test di ipotesi (6). test di significatività e le cinque parti di un test di significatività (6.1)
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm
https://www.imf.org/en/Data
https://databank.worldbank.org/databases
https://unstats.un.org/home/
https://ec.europa.eu/eurostat/data/database
Settimana 7
Regressione lineare e correlazione: (9.1) Relazioni lineari; 9.2 Equazione di previsione dei minimi quadrati; 9.3 Il modello di regressione lineare; 9.4 Misurare l'associazione lineare: La correlazione; 9.5 Inferenze per la pendenza e la correlazione; (9.7 Riepilogo).
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.europeansocialsurvey.org/
https://zacat.gesis.org/webview/index.jsp
https://sda.berkeley.edu/GSS/
Settimana 8
Introduzione alle Relazioni Multivariate (10): 10.1 Associazione e Causalità; Regressione multipla e correlazione (11): 11.1 Il modello di regressione multipla; 11.2 Correlazione multipla e R2; 11.3 Inferenze per coefficienti di regressione multipli; (11.8 Riepilogo).
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.europeansocialsurvey.org/
https://zacat.gesis.org/webview/index.jsp
https://sda.berkeley.edu/GSS/
Settimana 9
Regressione con predittori categoriali (12): Metodi di analisi della varianza; 12.1; Modelli di regressione con variabili dummy per variabili categoriali.
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm (macro)
https://www.imf.org/en/Data
https://databank.worldbank.org/databases
https://unstats.un.org/home/
https://ec.europa.eu/eurostat/data/database
Settimana 10
Regressione multipla con predittori quantitativi e categoriali (13): 13.1 Modelli con variabili esplicative quantitative e categoriali; 13.2 Inferenza per regressione con predittori quantitativi e categoriali; 13.3. Casi di studio: utilizzo della regressione multipla nella ricerca.
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
HYPERLINK "https://www" https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm
HYPERLINK "https://www" https://www.imf.org/en/Data
HYPERLINK "https://databank" https://databank.worldbank.org/databases
HYPERLINK "https://unstats" https://unstats.un.org/home/
HYPERLINK "https://ec" https://ec.europa.eu/eurostat/data/database
Settimana 11
Regressione logistica: modellazione delle risposte categoriali (15): 15.1 Regressione logistica; 15.2 Regressione logistica multipla; 15.3 Inferenza per modelli di regressione logistica.
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm
https://www.imf.org/en/Data
https://databank.worldbank.org/databases
https://unstats.un.org/home/
https://ec.europa.eu/eurostat/data/database
Settimana 12
Introduzione all'analisi multivariata. Cluster analysis: partizionamento e clustering gerarchico. Numero ottimale di cluster. Clustering agglomerato e divisivo e dendrogramma (*).
Analisi applicata dei dati e visualizzazione.
Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.
Alcune fonti di dati utilizzate per gli esercizi e i casi di studio:
https://www.europeansocialsurvey.org/
https://zacat.gesis.org/webview/index.jsp
https://sda.berkeley.edu/GSS/