Kompletní kód analýzy je k nalezení na https://github.com/martinmodrak/revize-rs
Jsou v datech ze sond do roveringu nějaké zajímavé vztahy mezi tím, jak kmen funguje a dalšími ukazateli a spokojeností roverů či aktivitou jejich kmene?
V první řadě je potřeba zdůraznit, že všechny závěry je třeba brát s rezervou. V datech jako jsou sondy nelze rozlišit, co je příčina co je následek. Ne všichni taky odpověděli na všechny otázky a data mají i další drobné problémy. Ukazuje nám to ale nějaké zajímavé vzorce, které mohou být zajímavé pro další zkoumání/přemýšlení. Zároven jsou roveři různorodí a všechny asociace jsou dost slabé.
Spokojenost i aktivita roverů se zdá (nepřekvapivě) být nejvíc asociována s počtem členů v kmeni (čím víc, tím spokojenější/aktivnější kmen). Spokojenost má též negativní asociaci s věkem (čím starší, tím méně spokojený), u aktivity to ale spíše nepozorujeme. Kmeny, které mají vůdce jsou také v průměru spokojenější i aktivnější, zatímco mít kmenovou radu je v sondách spojeno jen s nárůstem aktivity a ne se zvýšenou spokojeností.
Slabší asociaci jsme také našli u toho, kdo připravuje program - příprava programu pouze v úzké skupině je spojena s nižší aktivitou zatímco nejvyšší aktivitu jsme viděli u kmenů, kde program připravuju hlavně vůdce. Program připravovaný hlavně vůdcem je ale spojen s nižší spokojeností zatímce ve kmenech, kde je vyšší spokojenost se na přípravě spíše podílejí všichni.
Naopak jsme NEpozorovali asociaci s délkou fungování kmene. U velikosti obce, kde roveři žijí také nelze pozorovat jasný trend.
Nejprve několik obecných poznámek k tomu, jak jsme s daty pracovali:
## Pro model spokojenosti je dostupných 314 řádků ( 65 %)
## Pro model aktivity je dostupných 325 řádků ( 65 %)
Pro účely zobrazovávní výsledků provedeme zjednodušení - odpovědi na spokojenost rozdělíme na dvě kategorie (spokojen vs. nespokojen) a aktivitu taktéž - za aktivní považujeme kmen, který má schůzky alespoň jednou za 14 dní NEBO celodenní akce alespoň jednou měsíčně NEBO vícedenní akce alespoň jednou za čtvrt roku NEBO tábory/expedice častěji než jednou za rok. Hlavní výhodou je, že obě kategorizace dělí odpovědi zhruba na polovinu. Jsou taky jisté důvody se domnívat, že to jen přiměřeně zkresluje výsledky modelu.
Níže již zobrazené výsledky modelu pro jednotlivé zajímavé asociace. Začneme počtem aktivních lidí. Pokochejte se tím pohledem, hned si vysvětlíme, co to všechno znamená.
Velké zelené tečky reprezentují podíl spokojených/aktivních v datech, velikost tečky odpovídá počtu respondentů v dané kategorii. Zbytek jsou předpovědi modelu - pro každou proměnnou, která nás zajímá (zde počet aktivních lidí v kmeni), vezmeme všechny respondenty a představíme si jejich hypotetické kopie, které se liší právě jen v té jedné proměnné (zde jedna kopie v kmeni s 5 lidmi, další s 10 lidmi, …). Pro každou kopii rovera pak uděláme několik set drobně odlišných předpovědí, které jsou všechny konzistentní s pozorovanými daty. Tyto různé předpovědi reprezentují naši nejistotu způsobenou tím, že nemáme nekonečně dat a tím, že dva roveři, kteří by na vše kromě spokojenosti a aktivity odpověděli v sondách stejně nemusí být stejně spokojení/aktivní.
Svislé černé čáry reprezentují celkovou predikci modelu pro tuto kategorii. Tenká černá čára ukazuje interval, kam se vejde 95% předpovědí pro hypotetické rovery, pod tlustou čáru se vejde 50% předpovědí. Vidíme, že nejistota je velká a tyto intervaly široké, ale v průměru mírně stoupají. Každá “vodorovná” barevná čára reprezentuje jednu sadu předpovědí pro všechny kopie jednoho skutečného rovera (jde o malý náhodný vzorek z roverů i předpovědí, aby to bylo přehledné). Tyto nám umožnějí hezky vidět variabilitu mezi rovery a nejistotu v předpovědích. Vidíme, že přestože variabilita je velká, tak je ve všech případech asociace kladná - pravděpodobnost, že rover bude spokojený nebo že jeho kmen bude aktivní je u kmenů s větším počtem členů vyšší.
Tento příklad nám zároveň hezky ukazuje limity závěrů z takovéto analýzy: jsou roveři spokojenější/aktivnější, protože je v kmenu více lidí? Nebo kmen spokojených/aktivních roverů více láká další lidi, aby se připojili a zůstali v kmeni? Nebo nějaká kombinace obojího? A není ta vazba ještě nějak komplikovanější? Rozhodně by ale bylo bláhové očekávat, že kdybychom sloučili dva kmeny, abychom dostali jeden větší, tak spolehlivě získáme spokojenější nebo aktivnější kmen.
Efekt také není bůhvíjak silný - šance na spokojenost/aktivitu se zvyšuje maximálně o cca 20% a to jen u některých “hypotetických roverů”. Zároveň je toto asi nejsilnější efekt, jaký jsme v datech našli.
Podívejme se na o něco zajímavější asociaci - mít či nemít vůdce kmene?