Kompletní kód analýzy je k nalezení na https://github.com/martinmodrak/revize-rs
Jsou v datech ze sond do roveringu nějaké zajímavé vztahy mezi tím, jak kmen funguje a dalšími ukazateli a spokojeností roverů či aktivitou jejich kmene?
V první řadě je potřeba zdůraznit, že všechny závěry je třeba brát s rezervou. V datech jako jsou sondy nelze rozlišit, co je příčina co je následek. Ne všichni taky odpověděli na všechny otázky a data mají i další drobné problémy. Ukazuje nám to ale nějaké zajímavé vzorce, které mohou být zajímavé pro další zkoumání/přemýšlení. Zároven jsou roveři různorodí a všechny asociace jsou dost slabé.
Spokojenost i aktivita roverů se zdá (nepřekvapivě) být nejvíc asociována s počtem členů v kmeni (čím víc, tím spokojenější/aktivnější kmen). Spokojenost má též negativní asociaci s věkem (čím starší, tím méně spokojený), u aktivity to ale spíše nepozorujeme. Kmeny, které mají vůdce jsou také v průměru spokojenější i aktivnější, zatímco mít kmenovou radu je v sondách spojeno jen s nárůstem aktivity a ne se zvýšenou spokojeností.
Slabší asociaci jsme také našli u toho, kdo připravuje program - příprava programu pouze v úzké skupině je spojena s nižší aktivitou zatímco nejvyšší aktivitu jsme viděli u kmenů, kde program připravuju hlavně vůdce. Program připravovaný hlavně vůdcem je ale spojen s nižší spokojeností zatímce ve kmenech, kde je vyšší spokojenost se na přípravě spíše podílejí všichni.
Naopak jsme NEpozorovali asociaci s délkou fungování kmene. U velikosti obce, kde roveři žijí také nelze pozorovat jasný trend.
Nejprve několik obecných poznámek k tomu, jak jsme s daty pracovali:
## Pro model spokojenosti je dostupných 314 řádků ( 65 %)
## Pro model aktivity je dostupných 325 řádků ( 65 %)
Pro účely zobrazovávní výsledků provedeme zjednodušení - odpovědi na spokojenost rozdělíme na dvě kategorie (spokojen vs. nespokojen) a aktivitu taktéž - za aktivní považujeme kmen, který má schůzky alespoň jednou za 14 dní NEBO celodenní akce alespoň jednou měsíčně NEBO vícedenní akce alespoň jednou za čtvrt roku NEBO tábory/expedice častěji než jednou za rok. Hlavní výhodou je, že obě kategorizace dělí odpovědi zhruba na polovinu. Jsou taky jisté důvody se domnívat, že to jen přiměřeně zkresluje výsledky modelu.
Níže již zobrazené výsledky modelu pro jednotlivé zajímavé asociace. Začneme počtem aktivních lidí. Pokochejte se tím pohledem, hned si vysvětlíme, co to všechno znamená.
Velké zelené tečky reprezentují podíl spokojených/aktivních v datech, velikost tečky odpovídá počtu respondentů v dané kategorii. Zbytek jsou předpovědi modelu - pro každou proměnnou, která nás zajímá (zde počet aktivních lidí v kmeni), vezmeme všechny respondenty a představíme si jejich hypotetické kopie, které se liší právě jen v té jedné proměnné (zde jedna kopie v kmeni s 5 lidmi, další s 10 lidmi, …). Pro každou kopii rovera pak uděláme několik set drobně odlišných předpovědí, které jsou všechny konzistentní s pozorovanými daty. Tyto různé předpovědi reprezentují naši nejistotu způsobenou tím, že nemáme nekonečně dat a tím, že dva roveři, kteří by na vše kromě spokojenosti a aktivity odpověděli v sondách stejně nemusí být stejně spokojení/aktivní.
Svislé černé čáry reprezentují celkovou predikci modelu pro tuto kategorii. Tenká černá čára ukazuje interval, kam se vejde 95% předpovědí pro hypotetické rovery, pod tlustou čáru se vejde 50% předpovědí. Vidíme, že nejistota je velká a tyto intervaly široké, ale v průměru mírně stoupají. Každá “vodorovná” barevná čára reprezentuje jednu sadu předpovědí pro všechny kopie jednoho skutečného rovera (jde o malý náhodný vzorek z roverů i předpovědí, aby to bylo přehledné). Tyto nám umožnějí hezky vidět variabilitu mezi rovery a nejistotu v předpovědích. Vidíme, že přestože variabilita je velká, tak je ve všech případech asociace kladná - pravděpodobnost, že rover bude spokojený nebo že jeho kmen bude aktivní je u kmenů s větším počtem členů vyšší.
Tento příklad nám zároveň hezky ukazuje limity závěrů z takovéto analýzy: jsou roveři spokojenější/aktivnější, protože je v kmenu více lidí? Nebo kmen spokojených/aktivních roverů více láká další lidi, aby se připojili a zůstali v kmeni? Nebo nějaká kombinace obojího? A není ta vazba ještě nějak komplikovanější? Rozhodně by ale bylo bláhové očekávat, že kdybychom sloučili dva kmeny, abychom dostali jeden větší, tak spolehlivě získáme spokojenější nebo aktivnější kmen.
Efekt také není bůhvíjak silný - šance na spokojenost/aktivitu se zvyšuje maximálně o cca 20% a to jen u některých “hypotetických roverů”. Zároveň je toto asi nejsilnější efekt, jaký jsme v datech našli.
Podívejme se na o něco zajímavější asociaci - mít či nemít vůdce kmene?
Pro spokojenost i aktivitu je asociace s vůdcem kmene pozitivní a jen o něco menší než pro počet lidí v kmeni. To je rozhodně něco, co nás zajímá - je rozumné doporučovat, aby kmeny měly vůdce nebo se organizovaly decentralizovaně? Sondy nevylučují, že mít vůdce pomáhá, ale je nemožné říct, jestli vůdce dělá kmeny lepšími nebo jestli funkčnější kmeny snáze najdou někoho, kdo je bude vést. Navíc jak vidíme (ve velikosti teček), respondentů z kmenů, kde je vůdce, není příliš mnoho a je tedy potřeba brát tyto s rezervou.
A co takhle mít oddílovou radu?
Vyšší aktivita je asociována s oddílovou radou, zatímco spokojenosti není výrazně asociována - vidíme velké množství kladných i záporných asociací, tj. velkou nejistotu o tom, jaká je skutečnost. Zároveň můžeme s velkou pravděpodobností vyloučit výrazně pozitivní i výrazně negativní asociaci.
Stejně tak nenajdeme jasný vztah pro délku fungování kmene. Tradice se tedy v těchto datech neprojevuje jako výhoda. U aktivity si lze s trochou mžourání říct, že krátce fungující kmeny jsou akční, pak ztrácejí elán a hodně dlouho fungující kmeny pak jsou opět aktivnější, což by náš model neodhalil (očekává čistě rostoucí/klesající vztah), ale úplně bych si na to nevsadil - je také možné, že to, jak dlouho kmen funguje koreluje s dalším proměnnými, které aktivitu předpovídají lépe a model to zachytil. Kupříkladu kmeny v kategorii cca 8 let fungování mají (nejspíš shodou okolností) také nejvíce aktivních členů.
Další z prakticky zajímavých otázek je “Který z výroků nejlépe vystihuje situaci ve vašem roverském společenství-” s možnostmi “Na přípravě programu se podílí různí členové podle toho, o jakou činnost se jedná.” (vsichni), “Program připravuje úzká skupina lidí” (uzka_skupina), “Program připravuje vůdce/vůdkyně kmene nebo roverského společenství” (vudce) a “Nevím”
Zde nás trochu zrazuje naše vizualizace, protože odpovědi nelze přesně seřadit, nicméně spokojenost se zdá růst když se na přípravě podílí více lidí, zatímcaktivnější kmeny mají spíše vůdce. Můžeme si řazení u aktivity upravit, aby to trochu vylezlo:
## Warning: Removed 1 rows containing missing values (geom_point).
Model si je seřazením zdá se poměrně jistý (i když připouští, oba směry rozdílu mezi přípravou všemi a přípravou od vůdce).
Ač jsou roveři ve velkých i malých městech podobně spokojení, aktivita se v různě velkých městech liší, není zde ale jasný trend… Těžko říct, co si o tom myslet.
Spokojenost se zdá spíše klesat s věkem rovera, ale nijak výrazně. U aktivity je těžké vidět nějaký jasný trend.
V datech ze sond je víc žen. Zároveň ženy proporčně častěji mají funkce (s vyjímkou vůdce střediska, vůdce kmene a oddílový rádce).
pohlavi | pocet_pohlavi |
---|---|
Muž | 377 |
N/A | 11 |
Žena | 513 |
## Warning: The shape palette can deal with a maximum of 6 discrete values
## because more than 6 becomes difficult to discriminate; you have 8.
## Consider specifying shapes manually if you must have them.
## Warning: Removed 4 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing missing values (geom_point).
TODO plot více jako model - tečky za každou úroveň. Dát víc úrovní aktivity.
Nedá se moc říct, že by spokojenost s programem RS kmene souvisela s funkcí ani s další sadou prediktorů.
Zdá se, že kmeny, které jsou vedeny jsou trochu spokojenější.
S rostoucím počet let v kmeni se spokojenost s programem kmenu snižuje. Kmeny, které mají více členů jsou spíše spokojenější. Naopak souvislost s počtem let, kolik funguje není moc viditelná.
## [1] 0.48