Pentru ca mi s-a reprosat superficialitate in analiza anterioara, revin cu niste regresii interesante legate de relatia dintre numarul de arme detinute si numarul de crime folosind arme de foc. Am cautat diverse statistici suplimentare care ar putea influenta relatia. Astfel, am luat in discutie:
- GDP-ul (produsul intern brut)
- Coeficientul gini - o masura a inegalitatii de venit
- rata somajului (in teorie, un somaj mai mare ar putea crea premisele unor violente mai mari)
- rata sinuciderilor (pentru a prinde si un aspect al integrarii sociale)
- gradul de urbanizare (e mai usor sa scapi cu o crima in oras)
- indicele de perceptie a coruptiei (cf Transparency International)
- durata medie de viata
- gradul de alfabetizare (de analfabetizare mai exact)
- indicele de democratie (cf Economist Intelligence Unit)
Initial, am pus toate datele la gramada intr-o regresie masiva cu urmatoarele rezultate:
Am prins un r-patrat de aproape 0.4 (ceea ce inseamna ca am explicat 40% din variatie prin modelul de regresie). Posesia armelor a iesit ca fiind irelvanta. Singurele variabile care au contat au fost coeficientul gini, deci inegalitatea sociala, care a iesit conform asteptarilor corelat pozitiv cu numarul de crime si gradul de alfabetizare, din nou conform asteptarilor: cu cat alfabetizarea e mai mica, cu atat numarul de crime e mai mare.
O critica pe care am primit-o a fost urmatoarea: statisticile din tarile central si sud americane sunt de proasta calitate, ce sa mai zicem de tarile din lumea a treia; ar trebui sa ne uitam cu precadere la tarile cu statistici de incredere. Asadar, am adaugat o variabila suplimentara cu tari care mi s-au parut de incredere: tarile din Europa (am exclus fostele tari sovietice si tarile din fosta Iugoslavie), america, canada, africa de sud, australia, noua zeelanda, japonia, coreea de sud si singapore. Am refacut, apoi, calculul folosind doar selectia acestor state. Iata rezultatele:
Intr-adevar, acum se vede o relatie puternica intre posesia armelor si numarul de crime. De asemenea, avem o regresie de foarte buna calitate, cu un r-patrat de peste 0.8, ceea ce sugereaza ca am reusit sa explicam peste 80% din variatia crimelor. Gradul de alfabetizare nu a mai iesit semnificativ toate tarile de pe lista avan un grad de alfabetizare foarte ridicat. Coeficientul gini coreleaza din nou conform asteptarilor, de data aceasta si speranta de viata a iesit semnificativa (cu cat este mai mica, cu atat numarul de crime este mai mare). De asemenea, indicele de democratizare a iesit corelat (la limita, ce-i drept). Ce este interesant este ca nu a iesit corelat dupa cum ne-am astepta - sau cum m-am asteptat eu, de fapt. Adica nu tarile cu o democratizare mai redusa au o criminalitate mai ridicata, ci invers, sunt mai multe crime in tarile cu democratie mai evoluata. O posibila explicatie ar fi ca aceste tari cu democratie evoluata au mai putine reglementari in ceea ce priveste armele de foc. Uitandu-ne la acest tabel, avem toate motivele sa propunem masuri de inasprire a controlului armelor si munitiilor!
Resurse:
http://en.wikipedia.org/wiki/List_of_countries_by_firearm-related_death_rate
http://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)
http://en.wikipedia.org/wiki/List_of_countries_by_income_equality
http://en.wikipedia.org/wiki/List_of_countries_by_unemployment_rate
http://en.wikipedia.org/wiki/List_of_countries_by_suicide_rate
http://en.wikipedia.org/wiki/Urbanization_by_country
http://en.wikipedia.org/wiki/List_of_countries_by_life_expectancy
http://en.wikipedia.org/wiki/List_of_countries_by_literacy_rate
http://en.wikipedia.org/wiki/Corruption_Perceptions_Index
http://en.wikipedia.org/wiki/Democracy_Index
Fisier SPSS cu datele agregate
Fisier Excel cu datele agregate
Interesant.
RăspundețiȘtergereÎţi sugerez:
1) să te uiţi pe ploturile parţiale, mai ales în cazul primului model. O să vezi că ai cel puţin patru ţări acolo cu comportament atipic şi care acţionează ca puncte influente... În al doilea model ai un alt punct influent (US). Ar merita rulată analiza cu şi fără el în baza de date.
2) să te uiţi cu atenţie la coeficienţii de toleranţă/VIF. Pare că R pătratul mare e indus de coliniaritate şi că ar fi nevoie mai degrabă de SEM, nu de OLS.
3) nu lucrezi cu un eşantion probabilistic ca să faci inferenţă statistică. În fapt, ai de a face cu "toată populaţia pentru care există date". Prin urmare nu cred că are rost să te uiţi la .sig.