DATA ANALYSIS FOR SOCIAL SCIENCES

DATA ANALYSIS FOR SOCIAL SCIENCES

Luca Secondi

Obiettivi formativi

La capacità di comprendere e valutare correttamente i risultati dell'analisi statistica quantitativa è considerata una risorsa essenziale per gli scienziati sociali. Questo corso intende fornire i fondamenti delle principali metodologie di analisi empirica ai fini dell’interpretazione e della ricerca su fenomeni internazionali. La trattazione metodologica degli argomenti è accompagnata da esemplificazioni su dati reali. Sono proposti esercizi, esercizi empirici e analisi di valutazione di politiche anche con l’ausilio di software statistico (R, R-studio). Grazie al modello "Fully-Inquiry Based", al termine del corso, gli studenti saranno in grado di: i) effettuare analisi dei dati utilizzando statistiche descrittive e inferenziali; ii) confrontare diversi approcci di analisi empirica e selezionare la metodologia più appropriata alla luce dei dati disponibili e dell’obiettivo dello studio; iii) selezionare le modalità più adeguate per la descrizione e la presentazione dei dati.

Risultati di apprendimento attesi

Conoscenza e capacità di comprensione: al termine del corso gli studenti acquisiranno una conoscenza specifica sulle principali metodologie statistiche per l’analisi dei dati relativi ad alcuni principali argomenti di interesse per il corso di laurea (economici, sociali, politici, demografici). Con riferimento alle metodologie statistiche, i partecipanti svilupperanno conoscenze metodologiche e capacità di utilizzare metodi e strumenti per: a) l’analisi descrittiva dei dati; b) lo studio delle relazioni tra variabili sia da un punto di vista descrittivo che inferenziale; c) un’analisi multivariata dei dati (analisi dei gruppi). Gli studenti acquisiranno competenze sulle caratteristiche delle differenti strutture delle basi di dati (cross-section, serie storiche, dati longitudinali) e sulla gestione ed elaborazione dei dati attraverso software statistici. Capacità di applicare conoscenza e comprensione: al termine del corso, gli studenti avranno acquisito conoscenze metodologiche e capacità analitiche e saranno in grado di interpretare in autonomia analisi e ricerche empiriche sulle più rilevanti aree di intervento in ambito internazionale (ad esempio, demografiche e politiche). Gli studenti saranno in grado di: i) valutare i risultati delle analisi empiriche; considerare l’appropriatezza delle metodologie statistiche utilizzate; individuare gli eventuali limiti delle analisi statistiche e considerare l’utilizzo di approcci alternativi; ii) sviluppare case studies rilevanti per il decisore pubblico, delineando il tema di interesse, selezionando le basi di dati, identificando le metodologie di analisi empirica, comunicando i principali risultati conseguiti nella forma di presentazioni o report. Autonomia di giudizio: il corso è volto a favorire un approccio critico sull’utilizzo dei differenti metodi di analisi dei dati per l’interpretazione dei fenomeni internazionali di interesse. Gli studenti: i) svilupperanno capacità critiche sull’utilizzo di vari metodi in relazione agli obiettivi di analisi del fenomeno internazionale oggetto di studio; ii) saranno in grado di valutare l’apporto di una specifica metodologia di analisi dei dati allo studio di fenomeni internazionali complessi; iii) svilupperanno la capacità di integrare coerentemente il contributo fornito dai metodi di analisi quantitativa con le competenze interdisciplinari dello studente. Tali obiettivi sono perseguiti predisponendo anche attività di lavoro in piccoli gruppi, funzionali ad attivare processi di pensiero critico delle capacità del singolo studente, anche attraverso la valutazione tra pari. Abilità comunicative: gli studenti avranno maturato competenze specifiche per comunicare in maniera univoca e chiara lo schema di analisi dei dati adottato per lo studio empirico, con particolare riferimento alla struttura delle basi di dati, ai metodi statistici utilizzati, ai risultati conseguiti. La capacità di comunicazione efficace delle analisi e l’acquisizione di un linguaggio tecnico appropriato saranno conseguite attraverso prove scritte, presentazione e discussione di risultati di ricerche su dati empirici, articoli scientifici e report di istituzioni internazionali. Capacità di apprendimento: le metodologie didattiche utilizzate durate il corso (case studies, seminari) e l'utilizzo di modalità di verifica dell’apprendimento, anche attraverso valutazioni tra pari, contribuiranno a rafforzare l'autonomia di giudizio e lo sviluppo di competenze di auto-apprendimento. Tale competenza sarà conseguita attraverso l’applicazione di metodi statistici in ambito economico, politico e sociale. Un obiettivo rilevante di questo corso è di fare in modo che gli studenti utilizzino metodi di analisi quantitativa anche in successive attività professionali o di studio e ricerca.

Contenuti Del Corso

Introduzione alla metodologia statistica. Fonti di dati internazionali e nazionali per l'analisi di fenomeni economici, sociali, politici e demografici. Statistiche descrittive: descrizione di dati reali con tabelle e grafici; misure di posizione, variabilità e forma. Analisi della concentrazione. Interpretazione e confronto di dati riferiti a fenomeni socio-economici: numeri indici semplici e complessi (sintetici). Distribuzioni di probabilità. Inferenza statistica: stima puntuali, intervalli di confidenza e verifica di ipotesi. Associazione tra variabili categoriche. Regressione lineare e correlazione. Regressione lineare multipla. Regressioni con predittori categorici e quantitativi. Introduzione alla regressione logistica. Elementi di analisi statistica multivariata: analisi delle componenti principali e analisi dei gruppi (cluster analysis) gerarchica e non gerarchica. Gestione ed elaborazione dati attraverso il software R e R-Studio. Casi di studio ed esercitazioni applicate basate su dati reali, misure e indicatori utilizzati per l'analisi degli argomenti correlati al corso (ad esempio, dati e analisi relativi allo Human Development Index, Sustainable Development Goals, the World Bank Development Indicators, European Regional Competitiveness Index e all’utilizzo delle basi di dati Eurostat, OECD, IMF, UNSD)

Testi Di Riferimento

Agresti A (2018) Statistical methods for the Social Sciences (5th Edition), Pearson – (nel programma dettagliato del corso sono indicati i capitoli e i paragrafi del libro da studiare) Note e dispense a cura del docente (nel programma dettagliato sono indicati con un asterisco (*) gli argomenti per i quali sarà fornito materiale a cura del docente)

Metodologie Didattiche

Didattica frontale, Esercitazioni, Laboratorio con R e R studio, Esercitazioni empiriche, Apprendimento interattivo attraverso visualizzazione e consultazioni di dati, misure e report pubblicati, Analisi di casi (Case studies), Project Work anche con uso di software statistico e foglio elettronico avanzato.

Modalità di verifica dell'apprendimento

La verifica dell’apprendimento per studenti frequentanti si suddivide in tre diversi momenti di valutazione: Primo assessment (first assignment) costituito da un insieme di quesiti a risposta aperta e/o chiusa da risolvere individualmente e in classe. Il peso di tale prova (valutata in 30esimi) sarà del 25% sul voto complessivo. Questo primo assessment verterà sugli argomenti fino all’associazione tra variabili qualitative (Settimana 4). Secondo assessment (second assignment): 1 problem set/project work di analisi ed elaborazione dati. Gli studenti devono risolvere il problem set/project work utilizzando R e R-studio. Gli elaborati devono essere consegnati entro la data comunicata con congruo anticipo dal docente del corso. Il peso di tale assessment è del 50%. Esame finale: prova scritta sugli argomenti affrontati a partire dalla correlazione (Settimana 5) e fino al termine del corso (Settimana 12). La prova scritta è composta da quesiti di natura teorico-applicata e pratica, comprendenti anche quesiti specifici sull'uso, applicazione e interpretazione delle analisi statistiche che possono essere svolte con il software R. Il peso della prova finale è del 25% sul voto complessivo. Durante l’esame non è consentita la consultazione di libri di testo e appunti. Tutte le prove sono obbligatorie. Per gli studenti che frequentano il corso, il voto finale è ottenuto come media aritmetica ponderata dei voti conseguiti nei tre momenti di valutazione (due assignment e prova finale). La verifica dell’apprendimento per studenti non frequentanti è effettuata con un’unica prova finale d’esame il cui esito avrà un peso pari al 100% del voto finale complessivo per gli insegnamenti di interesse. La prova può essere diversa rispetto a quella prevista per gli studenti e le studentesse frequentanti e /o essere basata su un programma più ampio. Durante la prova, a ciascun candidato verrà richiesto di esibire un documento con foto (preferibilmente il libretto universitario). Telefoni cellulari, palmari, agende elettroniche etc. dovranno rimanere spenti; è pertanto opportuno dotarsi di calcolatrice. ESAME SOLO SCRITTO: questa tipologia di esame (c.d. “scritto verbalizzante”) prevede esclusivamente una prova scritta senza successivo esame orale. Lo studente si prenota per lo scritto; concluso lo scritto il docente corregge i compiti e pubblica gli esiti nella pagina web dedicata alla VOL (entro una settimana dallo svolgimento della prova stessa). Il sistema invia una comunicazione con l’esito agli studenti iscritti all’appello (gli esiti dell’esame scritto potranno anche essere visualizzati sul web self service). Dal momento della pubblicazione degli esiti lo studente ha 3 giorni di tempo per rifiutare il voto. Concluso il periodo di tempo indicato (3 giorni), vale la regola di silenzio-assenso e il voto viene verbalizzato da parte del docente che deve chiudere definitivamente il verbale attraverso la firma digitale. A chiusura del verbale lo studente riceve una mail di comunicazione del voto conseguito. Prima della pubblicazione dei risultati sono resi disponibili, sul sito web del corso, il testo e la soluzione della prova scritta. Ciascun candidato può visionare il compito corretto, indipendentemente dall'esito finale dell'esame, nel giorno previsto dal docente in tempo utile per non accettare il voto proposto.

Criteri per l’assegnazione dell’elaborato finale

L'elaborato finale è un lavoro in cui si applicano metodologie statistiche con riferimento allo studio di fenomeni in ambito politico, economico o sociale. L’argomento è concordato con il docente.

Settimana 1

Introduzione: 1.1 Introduzione alla Metodologia Statistica; 1.2 Statistica descrittiva e statistica inferenziale; 1.3. Il ruolo di computer e software nelle statistiche (1.4 Riepilogo) Fonti statistiche per l’analisi delle dinamiche economiche, sociali, politiche e demografiche in Europa e a livello globale (internazionale). Istituti ed enti produttori di statistiche ufficiali. La dimensione della qualità delle informazioni statistiche (*). Laboratorio: Introduzione al software statistico R e R-studio: nozioni di base, oggetti, gestione database. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici.

Settimana 2

Statistica descrittiva (3): 3.1 Descrivere i dati con tabelle e grafici; 3.2 Descrivere il centro dei dati; 3.3 Descrivere la variabilità dei dati; 3.4 Misure di posizione; 3.5 Statistica descrittiva bivariata; 3.6 Statistiche di esempio e parametri di popolazione; (3.7 Riepilogo). Analisi applicata dei dati e visualizzazione. Misure di concentrazione dei redditi e misure di povertà. Variabilità e Concentrazione: definizione e descrizione. Gli indici di Gini, applicazioni con dati socio-economici reali(*). Analisi applicata dei dati e visualizzazione. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Introduzione al software statistico R e R-studio: nozioni di base, oggetti, gestione database. Laboratorio con R e R-Studio, Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: http://hdr.undp.org/en/content/human-development-index-hdi" http://hdr.undp.org/en/content/human-development-index-hdi http://www.systemicpeace.org/index.html" http://www.systemicpeace.org/index.html https://www.istat.it/it/benessere-e-sostenibilit%C3%A0/obiettivi-di-sviluppo-sostenibile/gli-indicatori-istat https://demo.istat.it/

Settimana 3

Distribuzione dei dati e variabili casuali (4). Inferenza statistica e introduzione ai test di ipotesi (6). test di significatività e le cinque parti di un test di significatività (6.1) Analisi applicata dei dati e visualizzazione. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm https://www.imf.org/en/Data https://databank.worldbank.org/databases https://unstats.un.org/home/ https://ec.europa.eu/eurostat/data/database

Settimana 4

Analisi dell'associazione tra variabili categoriali (8): 8.1 Tabelle di contingenza; 8.2 Test di indipendenza del chi quadrato; (8.6 Riepilogo). Introduzione all’associazione per caratteri quantitativi (capitolo 9). Analisi applicata dei dati e visualizzazione. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con elaborazione dati, visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu

Settimana 5

Associazione tra variabili quantitative: la correlazione: (9.1) Relazioni lineari; 9.2 Equazione di previsione dei minimi quadrati;. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu/GSS/ Prima prova di valutazione (individuale): quesiti a risposta multipla da svolgersi in classe (25%).

Settimana 6

Regressione lineare (LRM). 9.3 Il modello di regressione lineare; 9.4 Misurare l'associazione lineare: La correlazione; 9.5 Inferenze per la pendenza e la correlazione; (9.7 Riepilogo). Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu/GSS/

Settimana 7

Introduzione alle Relazioni Multivariate (10): 10.1 Associazione e Causalità; Regressione multipla e correlazione (11): 11.1 Il modello di regressione multipla; 11.2 Correlazione multipla e R2; Analisi applicata dei dati e visualizzazione. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu/GSS/

Settimana 8

Multiple Regression model. 11.3 Inferenze per coefficienti di regressione multipli; (11.8 Riepilogo). La bontà di adattamento e il confronto tra modelli (modelli annidati). Regressione con predittori categoriali (12): Metodi di analisi della varianza; 12.1; Modelli di regressione con variabili dummy per variabili categoriali. Regressione multipla con predittori quantitativi e categoriali (13): 13.1 Modelli con variabili esplicative quantitative e categoriali; 13.2 Inferenza per regressione con predittori quantitativi e categoriali; 13.3. Casi di studio: utilizzo della regressione multipla nella ricerca. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu/GSS/ https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm https://www.imf.org/en/Data https://databank.worldbank.org/databases https://unstats.un.org/home/ https://ec.europa.eu/eurostat/data/database

Settimana 9

Regressione logistica: modellazione delle risposte categoriali (15): 15.1 Regressione logistica; 15.2 Regressione logistica multipla; 15.3 Inferenza per modelli di regressione logistica. Analisi applicata dei dati e visualizzazione. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm https://www.imf.org/en/Data https://databank.worldbank.org/databases https://unstats.un.org/home/ https://ec.europa.eu/eurostat/data/database

Settimana 10

Interpretazione e comparazione dei dati riferiti a un fenomeno socio-economico. Rapporti statistici. I numeri indici semplici. I numeri indici sintetici. Alcuni numeri indici pubblicati a livello nazionale e internazionale per l'esercizio di fenomeni socio-economici. Introduzione agli indicatori compositi: definizione, caratteristiche, approcci e peculiarità(*). Analisi applicata dei dati e visualizzazione. Esercitazioni con il software R, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.oecd.org/sdd/oecdmaineconomicindicatorsmei.htm https://www.imf.org/en/Data https://databank.worldbank.org/databases https://unstats.un.org/home/ https://ec.europa.eu/eurostat/data/database

Settimana 11

Analisi bivariate e analisi multivariate: definizione e differenze. Introduzione alle tecniche di analisi multivariata. Nozioni teoriche di base della Principal component analysis. Introduzione all’analisi dei gruppi (cluster analysis) (*). Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu/GSS/ Deadline per la seconda prova (gruppo): problem set/project work di analisi ed elaborazione dati (50%).

Settimana 12

Introduzione all'analisi multivariata. Cluster analysis: partizionamento e clustering gerarchico. Numero ottimale di cluster. Clustering agglomerato e divisivo e dendrogramma (*). Analisi applicata dei dati e visualizzazione. Esercitazioni, esercizi applicati, casi studio riguardanti argomenti di ricerca nelle scienze sociali basate su dati reali e rapporti pubblicati. Apprendimento con visualizzazione interattiva e interpretazione dei risultati/output di software statistici. Alcune fonti di dati utilizzate per gli esercizi e i casi di studio: https://www.europeansocialsurvey.org/ https://zacat.gesis.org/webview/index.jsp https://sda.berkeley.edu/GSS/