Ispitna pitanja: Statistical power | Statistička snaga
Focus on statistical power in research planning and effects size in obtained results interpretation seems to resolve at least some of the important issues that come as a result of "mishmash" of Fisher scheme and Neyman-Pearson theory. This "mishmash" has resulted in many issues and misconceptions regarding the interpretation of the results of statistical significance testing, which give rise to misuse of the statistical power calculation and might have direct repercussion on the debate of replicability of the psychological studies. In order to give a meaningful answer to this the first and the second exam question whilst taking into account how interconnected they are, a short literature review has been made.Statistical significance
When testing statistical significance two kinds of errors are taken into account, Type I and II errors. Type I errors refer to the "(…) probability of mistakenly rejecting the H0 (…) the probability of rejecting the H0 then it is not true." (Cohen, 1992a, 99; Cohen, 1992b) or in the terms of the "(…) level of significance, alpha, is the long-run frequency of rejecting H0 if H0 is true," (Sedlmeier & Gigerenzer, 1989, p. 309) while "Type II errors may be viewed as mistakenly overlooking significant differences that do exist." (Mone, Mueller & Mauland, 1996, p. 103).
The probability of committing Type I error is marked as α (level of significance) conventionally set at 5% or more strict 1%. It plays an important role in statistical significance testing and more often (unfortunately) its results interpretation. Although the procedure of calculating statistical significance is quite straightforward it has, form its inception, been an object of many heated debates. Given the eluding elegance of hypothesis statistical testing, researchers are often mistaken about its meaning, inclined to making misinterpretations – trying to make conclusions that go beyond of what is possible given the method employed. Null hypothesis statistical testing (or hypothesis statistical testing) "(…) does not tell us what we want to know, and we so much want to know what we want to know that, out of desperation, we nevertheless believe that it does!" (Cohen, 1994, p. 997). Cohen (1994, p. 997) even argues that "(...) NHST has not only failed to support the advance of psychology as a science but also has seriously impeded it.".
Oakes (1986 as cited in Sedlmeier & Gigerenzer, 1989, p. 314) found that amongst 70 academic psychologist "96% held the erroneous opinion that the level of significance specified the probability that either H0 or H1 was true", when in fact mere statistically significant does not tell us much, e.g. reaching statistical significance does not speak of the probability of research findings replication (Cohen, 1990; Cohen, p. 1994) while the only appropriate conclusion on non-significant results is that one "(…) couldn't conclude that the null was false. In other words, you could hardly conclude anything." (Cohen, 1990, p. 1308) besides "that a population effect of zero cannot be ruled out." (O’Keefe, 2007, p. 298).
Further elaborating on misconceptions regarding nonsignificant results of statistical tests (which are, in this exam, of special interest regarding the usage of retrospective statistical power calculations), O’Keefe (2007) discerns 4 instances of erroneous reasoning:
- assuming that null hypothesis is true: 1) due to nonsignificance itself; or 2) in regards to large power (for the same population effect size);
- observing the nonsignificant results in regards to the sample size; 3) explaining nonsignificance with small sample size; 4) using observed power to plan further research and sample size increase needed to obtain statistically significant results.
That even something as "simple" as trying to explain the nonsignificant results in terms of sample size (which is per se part of the formula that calculates the size of the statistic for whom the probability of obtaining is being calculated) can get quite complicated is obvious from the fact that, although, when keeping all of the other parameters the same (fixed), increasing the sample size would eventually result in reaching statistical significance, there seems to be no justification in reasoning that different samples (including different sample sizes) cover the same parts of results distribution therefore keeping other parameters the same, i.e. that larger samples would give rise to the similar effect sizes and statistical power.
While most researches usually concern themselves with obtaining statistically significant results whilst minimizing the probability of committing Type I errors, "The cumulations of beta errors, in contrast, have been played almost no attention (see, however, Westermann & Hager, 1986)." (Sedlmeier & Gigerenzer, 1989, .p 315). And when it comes to statistical significance, multiple authors suggest more informative approach – focusing on effect sizes reported in form of confidence limits, "'Everyone knows' that confidence intervals contain all the information to be found in significance tests and much more." (Cohen, 1994, p. 1002).
Effect size
Although "All psychologists know that statistically significant does not mean plain-English significant, (...)" (Cohen, 1994, p. 1001) and that the "(…) salutary side effect of the study of power analysis is its emphasis on ES." (Cohen, 1992a, p. 99), effects size still don’t seem to get the attention it deserves. Effect size is "(...) the degree to which the H0, is believed to be false (…)" (Cohen, 1992b, p. 156), "(…) the discrepancy between H0 and HI ;" (Sedlmeier & Gigerenzer, 1989, p. 309), i.e. the magnitude of the observed phenomena. The mere information of whether the effect exists and of the observed differences are statistically significant falls short of the importance of information and real-life implications of how big that effect (differences) is.
Interpreting the importance of effects of different sizes is a venture on itself, much of which we owe to works of Jacob Cohen. "To convey the meaning of any given ES index, it is necessary to have some idea of its scale. To this end, I have proposed as conventions or operational definitions small, medium, and large values for each that are at least approximately consistent across the different ES indexes. My intent was that medium ES represent an effect likely to be visible to the naked eye of a careful observer, (It has since been noted in effect size surveys that it approximates the average size of observed effects in various fields.) I set small ES to be noticeably smaller than medium but not so small as to be trivial, and I set large ES to be the same distance above medium as small was below it." (Cohen, 1992b, p. 156).
Now, what is the practical application of setting α levels, planning sample sizes and expected effects of certain size (magnitude)? Conducting statistical power analyses as a means for research planning and in some cases, as a means of further elaboration on research findings.
Statistical power
"The statistical power of a significance test is the long-term probability, given the population ES, α, and N of rejecting H0." (Cohen, 1992b, p. 156; O’Keefe, 2007). "For any statistical model, these relationships are such that each is a function of the other three." (Cohen, 1992b, p. 156). When it comes to types of statistical power, various and in some instances confusing references are made. "Avoid labels such as "post hoc" power, "observed" power, "retrospective" power, "achieved" power, "prospective" power, and "a priori" power. These are potentially confusing shorthand expressions that do not encourage specification of the particular values underlying reported power figures. If one’s power computations use the observed sample effect size as the basis of the population effect, say so; do not simply call this post hoc power." (O’Keefe, 2007, p. 298). What is often overlooked is that statistical power is in itself always an post hoc calculation; for it is calculated on pre-determined values (see Cohen, 1992b), be it implied (based on previous research findings or researchers informed implications) or measured, making even the usage of terms such as a priori and post hoc statistical power somewhat questionable. It gets even more complex given that calculation of the prospect sample size (prevailing usage of statistical power calculations) can be made using either self-implied or previously determined (retrospective) statistical power. Therefore, instead of differentiating between types of power analysis, for conceptual clarity, we might be talking in terms of different forms of power analysis usage. According to (Cohen, 1992a) there are two forms of power analysis that are most used: a) in research planning, for determining "of the N that is necessary to attain a specified degree of power to detect as significant (at specified a) a hypothesized ES." (Cohen, 1992, p. 98); b) metanalytic power reviews of research areas, for "determination of power to detect a hypothesized ES (for specified N and a)" (Cohen, 1992a, p. 98).
However, in line with the exam questions, two types of power analysis will be further examined: 1) a priori, prospective power analysis; and 2) a posteriori, retrospective power analysis.
A priori, prospective power analysis
A priori or prospective power analysis is used to calculate in advance the sample size needed to detect an effect one is trying to measure. Sample size is calculated given the effect size, power and α level. However, "Researchers paradoxically seem to prefer probable waste of time, money, and energy to the explicit calculation of power." (Sedlmeier & Gigerenzer, 1989, 310). By using prospective power analysis as a means of research planning one is able to make better estimation of the feasibility of conducting the research in advance, in the terms of: the magnitude (importance) of the effects being measured (given the previous research) – i.e. does it even make sense to pursue that line of research; and the costs (sample size need in order to ensure the good enough probability of obtaining statistically significant results). This analysis also protects the researcher form going to the other extreme and "saving time and effort on unnecessary (i.e., overpowered) data collection" (Mone, Mueller & Mauland, 1996, p. 116).
According to Cohen (1992b, p. 156) "Researchers find specifying the ES the most difficult part of power analysis.". This comes as a "(…) low level of consciousness of the magnitude of phenomena that characterizes much of psychology" (Cohen, 1992b, p. 156). Therefore, few recommendations can be followed. One possibility is for the researcher to either make an estimation of the expected effect size: using effect sizes obtained in previous research (having in mind that those are usually an overestimation of the population effect size, see Sedlmeier & Gigerenzer, 1989; Cohen, 1994); using effect sizes aggregated through meta-analyses; or by just making a guess whether the effects will be of low or medium size (remark: if large effects sizes are expected hardly there would be much doubt over them).
When it comes to desired power, Cohen (1990) suggest a value of .80 as being optimal, requiring not too large sample while at the same time ensuring the probability of obtaining, a statistically significant result beyond mere chance.
That even deeper analysis is possible, beyond the level of understating of and average researcher – who resorts to finding safety in rigor – Cohen (1990, p. 1310) indicates in his sarcastic remark: "If as is often the case, this sample size is beyond your resources, consider the possibility of reducing your power demand or, perhaps the effect size, or even (heaven help us) increasing your alpha level.".
Alternatively (being ironic), and very welcome, is using more reliable measure, finding ways to deal with unsystematic variance, upgrading research design and the quality of experimental manipulation (in case of experiments) maximizing the efficiency of the measurement itself.
Personal usage: I would use a priori, prospective power analysis in order to estimate the sample size given the previously aggregated effect sizes in similar line of research or using effect sizes acquired in previous research (if no aggregated effect sizes are available) and using the desired power of .80, regardless of the research design (experimental or non-experimental). After assessing the needed sample size, I would then see if I have the resources (time, money, social capital) to acquire it.
Even though Coen (1988) specifies how to determine power and sample size regardless of the research design, given the data analysis method employed – for both univariate and multivariate method I still do not feel confident enough making detailed power analysis when it comes to research that will employ multivariate analysis. I still have some reading to do :).
Post-hoc or retrospective power analysis
Most controversies arise in the way retrospective power analysis is used. Lenth (2007) warns that approaches to retrospective power are numerous, e.g. using "observed effect size, independent effect size, population effect size, etc." (p. 1). However, what most of the authors agree is that retrospective power analysis does not "add information to an analysis" (Lenth, 2007, p. 10), especially because it is a "function of the p value of the test" (Lenth, 2001 as cited in Lenth, 2007, p. 2; Hoenig & Heisey, 2001). What stands out is that, although it might be useful in some cases, reservations of retrospective power analysis might come as a reaction to grave misuse of retrospective power analysis (see. O’Keefe, 2007).
Nonsignificant results and planning future research
While Cohen (1992), under the impression of the prevailing trend of psychological research being underpowered (see. Cohen, 1962; Cohen, 1990; Mone et. al., 1996; Lenth, 2007;) proposes the use of the power analysis in assessing completed research, especially in the cases of statistically nonsignificant results, i.e. whether the sample size was even big enough to obtain statistically significant results (also see. Sedlmeier & Gigerenzer, 1989; Hoenig & Heisey, 2001); assessing the "(…) the need for increased effect sizes or alternative measurements and research designs" (see. Mone, Mueller & Mauland, 1996, p. 116); or giving "(...) more emphasis on the investigator's choice of hypotheses and on the interpretation of confidence intervals." (Hoenig & Heisey, 2001, p. 2), the usage of retrospective power analysis, as already mentioned, at times seems to have become a scapegoat strategy (see. Hoenig & Heisey, 2001; O’Keefe, 2007; Lenth, 2007). O’Keefe (2007) therefore advocates cautious usage of retrospective power analysis, with the emphasis on using the population effect sizes of independent interest.
Reporting power as an elaboration
Another proposed usage of retrospective power analysis is a didactical one. It might serve as an elaboration (Lenth, 2007), i.e. as an explication of the probability of obtaining statistically significant results. However, even in those cases, the usage of confidence intervals is proposed (O’Keefe, 2007), which are still rarely seen in psychological publications (see. Cohen, 1994; O’Keefe, 2007).
Reporting power in order to get researchers to calculate and report effect sizes
In line with previous line of thought power calculations, especially retrospective ones, can again be seen as incentives for calculation and reporting effect sizes (see. Cohen, 1992a).
Personal usage: At the moment, I would be cautious when it comes to using retrospective power analysis. Although I would find it interesting to engage in to mind experiments when considering what might be in the basis of obtaining nonsignificant results, e.g. considering what was the probability of obtaining statistically significant results, there seems to be no necessity of using retrospective power analysis when prospective power analysis has already been done and when obtained effect sizes and their confidence intervals have already been calculated.
Usmjeravanje pažnje na statističku snagu pri planiraju istraživanja i na veličine učinka dobivenih rezultata rješava, je čini se, barem dio izazova koji su nastali kao rezultat hibridizacije Fisherovog pristupa i Neyman-Pearsonove teorije. Ovaj hibridni pristup je, nažalost, rezultirao brojnim problemima i pogrešnim vjerovanjima povezanim sa interpretacijom rezultata testiranja statističke značajnosti, a koji su u nekim slučajevima doveli do pogrešnog korištenja izračuna statističke snage i možebitno imaju izravne reperkusije u debati o ponovljivosti u psihologijskim istraživanjima. Kako bih odgovorio na postavljena ispitna pitanja, na način na koji vidim smislenim, pritom uzimajući u obzir njihovu povezanost: 1) napravio sam kratak pregled literature, a koji je ujedno i temelj mojih promišljanja; 2) te sam sam zamijenio redoslijed odgovaranja na pitanja.
Statistička značajnost
Prilikom testiranja statističke značajnosti u obzir uzimamo dvije vrste pogreški, Tip I i Tip II pogreške. Pogreške Tipa I se referiraju na "(…) vjerojatnost pogrešnog odbacivanja H0 (…) vjerojatnost odbacivanja H0 kada ona nije točna" (Cohen, 1992a, 99; Cohen, 1992b) ili u terminima razine značajsnoti "(…) razina značajnosti, alfa, je dugoročna frekvencija odbacivanja H0 kada je H0 točna, (…)" (Sedlmeier i Gigerenzer, 1989, str. 309) dok "Tipa II pogrešku možemo promatrati kao pogrešni previd značajnih razlika koje postoje." (Mone, Mueller i Mauland, 1996, p. 103).
Vjerojatnost da se napravi pogreška Tipa I se označava sa α (razina značajnosti), koja se, uobičajeno (konvencionalno) postavlja na 5% ili nešto strože 1%. Odabrana razina značajnosti igra važnu ulogu u testiranju statističke značajnosti i često, nažalost, interpretaciji dobivenih rezultata. Iako je postupak izračuna statističke značajnosti vrlo jasan (izravan), samo računanje statističke značajnosti je od njegova uvođenja predmetom brojnih neslaganja. S obzirom na prividnu jednostavnost postupka testiranja statističke značajnosti (testiranja statističkih hipoteza), posebice u prividu mogućnosti davanja "da-ne" odgovora, istraživači, posebice oni s manje iskustva i bez dubljeg razumijevanja povijesnog konteksta i razvoja ovog "hibridnog" modela, nerijetko griješe oko značenja (interpretacije) dobivenih rezultata – pokušavajući donesti zaključke koji idu izvan onoga što je moguće s obzirom na metodu koju koriste. Testiranje statističkih hipoteza "(…) nam ne govori ono što želimo znati, a toliko želimo znati što želimo znati da, iz očaja, svejedno vjerujemo da nam to govori!" (Cohen, 1994, str. 997). Cohen (1994, str. 997) čak dodaje i da testiranje statističkih hipoteza "(...) ne samo da nije uspjelo podržati napredak psihologije kao znanosti nego ga je i bitno usporilo.".
Ilustracije radi, Oakes (1986 prema Sedlmeier i Gigerenzer, 1989, str. 314) pronalazi da među 70 akademskih psihologa, njih "96% ima pogrešno vjerovanje da je razina značajnosti specifikacija vjerojatnosti da su H0 ili H1 točne", dok nam zapravo, sama statistička značajnost ne govori puno. Osim što ne govori o vjerojatnosti da su H0 ili H1 točne, šire gledano ne govori nam ništa ni o vjerojatnosti replikacije dobivenih rezultata (Cohen, 1990; Cohen, 1994) (važno u kontekstu odgovora na drugo ispitno pitanje). Jedini valjani zaključak koji možemo izvesti na temelju rezultata koji nije statistički značajan je da "(…) nismo u mogućnosti zaključiti da je nul-hipoteza netočna. Drugim riječima, teško da možemo zaključiti išta." (Cohen, 1990, str. 1308) osim "da nepostojanje učinka na razini populacije ne može biti isključeno." (O’Keefe, 2007, str. 298).
U svojoj elaboraciji pogrešnih vjerovanja povezanih sa rezultatima koji nisu statističkih značajni (koji su ovom ispitnom pitanju od posebnog značaja u retrospektivnim izračunima statističke snage), O’Keefe (2007) razlikuje 4 smjera pogrešnih vjerovanja:
- pretpostavka da je nul-hipoteza točna: 1) zbog neznačajnosti rezultata; ili 2) u kontekstu velike statističke snage (jer ako je snaga velika, a rezultat nije statistički značajan onda se pretpostavlja da je H0 točna; a za populacijsku veličinu učinka iste veličine);
- tumačenje statističke neznačajnosti rezultata u kontekstu veličine uzorka: 3) tumačenje statističke neznačajnosti malom veličinom uzorka (jer je veličina uzorka sastavni dio jednadžbe za izračun statistika čije se granične vrijednosti očitavaju u vjerojatnostnim tablicama); 4) korištenje opažene statističke snage radi planiranja daljnjih istraživanja na način da se promišlja povećanje uzorka radi postizanja statistički značajnih rezultata.
Da nešto tako "jednostavno", kao što je objašnjenje statistički neznačajnog rezultata u terminima veličine uzorka (koji je kao što sam već spomenuo sam po sebi dio jednadžbe za izračun statistika za koji promatramo vjerojatnost dobivanja) može postati vrlo kompleksan predmet promišljanja je vidljivo i iz činjenice da iako – kada sve ostale parametre držimo stabilnima, dovoljno povećanje veličine uzorka uistinu dovodi do postizanja statističke značajnosti – nema opravdanja da mislimo da različiti uzorci (jer prošireni uzorak je de facto novi uzorak) pokrivaju iste dijelove distribucije i samim time ostale parametre drže stabilnima, tj. nema opravdanja da vjerujemo kako će na većim uzorcima biti utvrđene iste veličine učinka i statističke snage.
I dok se većina istraživača usmjerava na dobivanje statistički značajnih rezultata, pritom što je više moguće smanjujući vjerojatnost činjenja pogreške Tipa I, "Kumulaciji beta pogreška, u kontrastu, nije pridana gotovo nikakva pažnja (vidjeti, međutim Westermann i Hager, 1986)." (Sedlmeier i Gigerenzer, 1989, str. 315). Nažalost, ni ja ovdje ne posvećujem veću pažnju pogreški Tipa II, iako se samim povećanjem uzorka zasigurno povećava i kvaliteta procjene statistika (ili ako je riječ o populacijskim vrijednostima, parametra) – tj. sužavanjem distribucija se u slučaju postojanja populacijskih razlika smanjuje površina preklapanja rezultata uzoraka koji dolaze iz različitih populacija i smanjuje vjerojatnost činjenja pogreške Tipa II.
Kada je riječ o statističkoj značajnosti, različiti autori predlažu zauzimanje informativnijeg pristupa – stavljanje fokusa na veličinu učinka iskazanog preko intervala pouzdanosti, "Svi znaju da intervali pouzdanosti sadrže sve informacije koje pronalazimo u testovima značajnosti i puno više." (Cohen, 1994, str. 1002).
Veličina učinka
Iako "Svi psiholozi znaju da statistička značajnost ne znači, laički, značajnost, (…)" (Cohen, 1994, str. 1001) i da je "(…) dobrodošao posredni učinak analize statističke snage njezin naglasak na veličinu učinka." (Cohen, 1992a, str. 99), veličina učinka i dalje ne dobiva pažnju koju zaslužuje. Veličina učinka je "(…) stupanj u kojem vjerujemo da je H0 netočna (…)" (Cohen, 1992b, str. 156), "(…) razlika između H0 i H1." (Sedlmeier i Gigerenzer, 1989, str. 309), tj. magnituda opaženog fenomena. Sama informacija postoji li neki učinak i jesu li opažene razlike statistički značajne ne govori dovoljno o važnosti i stvarnim implikacijama informacije koliko je taj učinak (razlika) uistinu velik.
Interpretacija učinaka različitih veličina je područje samo za sebe, za koje elaboraciju i postavljanje temelja dugujemo Jacobu Cohenu. "Da bismo prenesli značenje bilo kojeg indeksa veličine učinka, nužno je imati ideju o veličini njegove skale. Sa tim ciljem, predložio sam konvencije ili operacionalne definicije malih, srednjih i velikih vrijednosti za svaki na način da su barem približno konzistentni duž različitih indeksa veličine učinka. Namjera mi je bila da srednje veličine učinka predstavljaju učinke koji su vidljivi golim okom pažljivog promatrača, (od tada je u studijama veličine učinaka zabilježeno da [dobro: dodatak izvornom tekstu] predviđa prosječne veličine učinka u različitim poljima), a male sam veličine učinka postavio tako da su vidljivo manje od srednjih ali ne toliko male da budu trivijalne, a postavio sam velike veličine učinka tako da su jednako iznad srednje kao što su male ispod njih." (Cohen, 1992b, str. 156).
Vjerujem da se nakon ovog kratkog pregleda opravdano zapitati koja je praktična implikacija postavljanja α, planiranja veličine uzorka i očekivanja učinaka specifičnih veličina? Možda ne izravna praktična implikacija, ali zasigurno mogući tijek postupanja je provođenja analize statističke snage kao alata u planiraju istraživanja i u nekim slučajevima daljnje elaboracije dobivenih rezultata.
Statistička snaga
"Statistička snaga testiranja statističke značajnosti je dugoročna vjerojatnost, s obzirom na populacijsku veličinu učinka, α i N, odbacivanja H0." (Cohen, 1992b, str. 156; O’Keefe, 2007). "Za bilo su koji statistički model, njihovi odnosi takvi da je svaki funkcija preostala tri." (Cohen, 1992b, str. 156; slobodan prijevod).
Kada je riječ o "kategorijama" ili "tipovima" statističke snage, koriste se različiti i nerijetko zbunjujući izrazi. "Izbjegavajte oznake poput 'post hoc' snage, 'opažene' snage, 'retrospektivne' snage, 'postignute' snage, 'prospektivne' snage i 'a priori' snage. Ovi su izrazi potencijalno zbunjujuće skraćenice koje ne potiču specifikaciju konkretnih vrijednosti koje se nalazi u podlozi izračunate statističke snage. Ako izračuni snage koriste opaženu veličinu učinka kao temelj populacijskog učinka, neka se tako kaže; izračun ne treba nazivati post hoc snagom." (O’Keefe, 2007, str. 298). Ono što se obično previdi je to da je izračun statističke snage, sam po sebi, uvijek post hoc izračun; jer se temelji na ranije utvrđenim vrijednostima (vidjeti Cohen, 1992b), neovisno o tome je li riječ o vrijednostima koje su implicitne (pretpostavljene ili preuzete temeljem rezultata ranijih istraživanja) ili izmjerene (vrijednosti dobivene u trenutnom istraživanju). Time se dovodi u pitanje smislenost korištenja izraza a priori i post hoc u kontekstu statističke snage. Sve skupa postaje još kompleksnije s obzirom da izračun potrebne veličine uzorka (dominantna uporaba izračuna statističke snage) može biti učinjen korištenjem bilo pretpostavljene bilo ranije utvrđene (retrospektivne) statističke snage. Tako bismo umjesto razlikovanja tipova analize statističke snage, radi pojmovne jasnoće, mogli govoriti u terminima načina uporabe analize statističke snage. Prema Cohenu (1992a) dva su oblika analize statističke snage koja se najčešće koriste: a) planiranje istraživanja, radi određivanja "veličine uzorka koja je nužna da bi se dobio specificirani stupanj snage potreban za detekciju značajnosti (za određeni α) i hipotetsku veličinu učinka." (Cohen, 1992, str. 98); i b) metaanalitički pregled istraživačkih područja, radi "(…) utvrđivanja snage detekcije hipotetske veličine učinka (za određenu viličnu uzorka i α)" (Cohen, 1992a, str. 98).
Ipak, za potrebe odgovora na ispitno pitanje u nastavku razmatram dva tipa analize statističke snage: 1) a priori, prospektivna analiza statističke snage; i 2) aposteriori, retrospektivna analiza statističke snage.
A priori, prospektivna analiza statističke snage
A priori ili prospektivna analiza statističke snage se koristi prilikom izračuna (u naprijed) veličine uzorka koja je potreba da bi se detektirao (kao statistički značajan) učinak koji se mjeri. Veličina uzorka se računa na temelju veličine učinka, statističke snage i α; te iako je riječ o vrlo jednostavnom (posebice s obzirom na dostupnost programskih rješenja) postupku, "Istraživači paradoksalno preferiraju vjerojatni gubitak vremena, novca i energije naspram eksplicitnog izračuna snage." (Sedlmeier i Gigerenzer, 1989, str. 310). Korištenjem prospektivne analize statističke snage kao alata za planiranje istraživanja, moguće je u naprijed napraviti procjenu isplativosti i smislenosti njegova provođenja i to u terminima: magnitude (značenja) učinaka koji se mjere (s obzirom na ranija istraživanja) – tj. ima li uopće smisla slijediti dani smjer istraživanja; troška (veličine uzorka potrebnog da bi se osigurala prihvatljiva vjerojatnost dobivanja statistički značajnog rezultat). Ovakve analize ujedno štite istraživača i od drugog ekstrema "čuvajući vrijeme i trud od nepotrebnog (tj. presnažnog) prikupljanja podataka" (Mone, Mueller i Mauland, 1996, str. 116).
Prema Cohenu (1992b, str. 156) "Istraživačima je definiranje veličine učinka najteži dio analize snage". To dolazi kao posljedica "(…) niske razine poznavanja magnitude fenomena, a koja karakterizira većinu psihologije" (Cohen, 1992b, str. 156). Zato se moguće voditi se nekoliko preporuka. Istraživač može ili napraviti procjenu očekivane veličine učinka: koristeći veličine učinka dobivene u ranijima istraživanjima (imajući na umu da je obično riječ o precijenjenim populacijskim veličinama učinaka, vidjeti Sedlmeier i Gigerenzer, 1989; Cohen, 1994); ili koristeći se procjenom populacijskih veličinama učinaka dobivenih preko meta-analiza; ili pak napraviti osobnu procjenu jesu li učinci koje mjeri male ili srednje veličine (pretpostavljam da ako očekujemo da su učinci koje ćemo mjeriti veliki nema puno prostora za dilemu; jer sjetimo se već su i srednje veličine učinka reprezentacija učinaka koji bi trebali biti vidljivi "golim okom").
Kada govorimo o željenoj veličini statističke snage, Cohen (1990) predlaže vrijednost od .80 kao optimalnu, jer ne zahtjeva preveliku uzorak, a istovremeno osigurava razumnu vjerojatnost dobivanja statistički značajnih rezultata (bitno veću od čistog slučaja iliti nešto niže od 50% šanse koja je vidljiva u različitim pregledima postignute statističke snage psihologijskih istraživanja).
Sve skupa otvara mogućnost promišljanja koja idu izvan razine razumijevanja znanstvene metodologije prosječnog istraživača – koji se nerijetko okreće pronalasku sigurne luke u krutosti i slijepom pridržavanju "da-ne" hodograma – što u svom sarkastičnom komentaru naglašava i sam Cohen (1990, str. 1310) "Kao što je obično slučaj, ova je veličina uzorka van tvojih resursa, razmisli o mogućnosti smanjenja očekivane snage ili, možda veličine učinka, ili možda (neka nam nebesa pomognu) povećanju razine alfa".
Alternativno (ironičan sam) i dobrodošlo, postoji i mogućnost korištenja pouzdanijih mjera, pronalaženja načina nošenja sa ne sustavnim varijabilitetom, unaprjeđenja (promjene) korištenog nacrta ili unapređenja eksperimentalne manipulacije (u slučaju eksperimentalnih nacrta), maksimalizirajući efikasnost samog mjerenja i kvalitete dobivenih podataka – čime se smanjuje (općenito) varijabilitet rezultata, preklapanje distribucija, pogreška Tipa II, moguće je dakle točnije izmjeriti veličinu učinka i povećava se statistička snaga.
Osobno korištenje: A priori ili prospektivnu analizu statističke snage bih koristio u svrhu predviđanja veličine uzorka, a s obzirom na raniju procjene veličine učinka na populacijskoj razini (metaanalize veličine učinaka) ili na temelju veličine učinaka pojedinačnih ranijih istraživanja uz željenu statističku snagu na razini od .80, neovisno o istraživačkom nacrtu (eksperimentalni ili ne-eksperimentalni). S time da bi naravno, korisnost i uštede resursa bile značajnije u slučaju eksperimentalnih nacrta i u slučaju ne-eksperimentalnih istraživanja ako je riječ o longitudinalnim istraživanjima gdje se očekuju bitna osipanja sudionika). Nakon procjene potrebne veličine uzorka bih razmotrio raspolažem li s resursima (vrijeme, novac, socijalni kapital) potrebnim za provođenje istraživanja.
Iako Coen (1988) specificira kako računati statističku snagu i potrebnu veličinu uzorka neovisno o tipu istraživačkog nacrta, prema metodi obrade podataka – oboje za univarijatne i multivarijatne metode, u ovom se trenutku ne bih osjećao sigurno samostalno izrađivati detaljne analize statističke snage u slučaju korištenja multivarijatnih analiza, volio bih u međuvremenu pročitati dodatnu literaturu.
A posteriori, retrospektivna analiza statističke snage
Većina kontroverzi oko analize statističke snage se veže uz a posteriori, retrospektivnu analiza statističke snage i način njezina korištenja. Lenth (2007) upozorava da su pristupi retrospektivnoj analizi statističke snage brojni (primarno se odnosi na odluku o uporabi statistika/parametara kao ulaznih jedinica), npr. korištenje "opažene veličine učinka, neovisne veličine učinka, populacijske veličine učinka, itd." (str. 1). Međutim, ono oko čega se većina autora slaže je to da retrospektivna analiza statističke snage ne "dodaje informacije analizi" (Lenth, 2007, str. 10) i to zato jer je statistička snaga "funkcija p vrijednosti testa" (Lenth, 2001 prema Lenth, 2007, str. 2; Hoenig i Heisey, 2001). Moguće je da je rezervacija prema retrospektivnoj analizi statističke snage dijelom motivirana njezinom pogrešnom uporabom (vidjeti O’Keefe, 2007).
Statistički neznačajni rezultati i planiranje daljih istraživanja
Dok Cohen (1992), pod dojmom sveprisutnog trenda provođenja psihologijskih istraživanja koja ne postižu zadovoljavajući razinu statističke snage (vidjeti. Cohen, 1962; Cohen, 1990; Mone i sur., 1996; Lenth, 2007;) predlaže korištenje analize statističke snage već provedenih istraživanja, posebice u slučajevima statistički neznačajnih rezultata, tj. provjeru je li veličina uzorka bila dovoljna da bi se statistička značajnost uopće postigla (također vidjeti. Sedlmeier i Gigerenzer, 1989; Hoenig i Heisey, 2001); procjenu "(…) potrebe povećanja veličine učinaka ili uvođenjem alternativnih mjera i istraživačkih nacrta" (vidjeti. Mone, Mueller i Mauland, 1996, str. 116); ili davanje "(...) većeg naglasak na istraživačev odabir hipoteza i interpretaciju intervala pouzdanosti." (Hoenig i Heisey, 2001, str. 2); korištenje retrospektivne analize statističke snage, kao što je ranije spomenuto, se ponekad koristi kao strategija "opravdavanja" statističke neznačajnosti dobivenih rezultata (vidjeti. Hoenig i Heisey, 2001; O’Keefe, 2007; Lenth, 2007). O’Keefe (2007) stoga predlaže oprez pri korištenju retrospektivne analize statističke snage, s naglaskom na korištenje populacijske veličine učinka nezavisnih uzoraka.
Izvještavanje o statističkoj snazi kao elaboracija
Druga predložena uporaba retrospektivne analize statističke snage je u didaktičke svrhe. Statistička snaga može se koristiti kao elaboracija (Lenth, 2007), tj. kao eksplicitacija vjerojatnosti (dugoročne) dobivanja statistički značajnog rezultata. Međutim, čak i u tim slučajevima, predlaže se korištenje intervala pouzdanosti (O’Keefe, 2007), a koji su, nažalost, još uvijek zanemareni u psihološkim publikacijama (vidjeti. Cohen, 1994; O’Keefe, 2007).
Izvještavanje o statističkoj snazi u svrhu izračuna i izvještavanja veličine učinaka
Nastavno na ranija promišljanja o važnosti izračuna statističke snage u kontekstu skretanja pažnje na veličine učinaka (vidjeti Cohen, 1992a)., u ovom slučaju retrospektivnog izračuna statističke snage, isti iznova možemo promatrati kao poticaj za izračun i izvještavanje o veličinama učinaka, a koje predstavljaju (ili bi barem trebale predstavljati) izrazito bitnu komponentnu razmatranja dobivenih rezultata, njihovih teorijskih i praktičnih implikacija.
Osobno korištenje: U ovom bih trenutku bio izrazito oprezan u korištenju retrospektivnih analiza (izračuna) statističke snage. Iako bi mi bilo zanimljivo uključiti se u misaoni eksperiment promišljanja što bi moglo biti u pozadini statističkih neznačajnih rezultata koje sam dobio, npr. koju sam vjerojatnost postizanja statističke značajnosti uopće imao; ne vidim za shodno raditi retrospektivni izračun statističke snage ako sam već prije samog provođenja istraživanja napravio prospektivnu analizu statističke snage te ako sam kao dio rezultata istraživanja izračunao i prikazao dobivenu veličinu učinka i njezine intervale pouzdanosti.
Cohen, J. (1962). The statistical power of abnormal-social psychological research: A review. The Journal of Abnormal and Social Psychology, 65(3), 145-153. https://dx.doi.org/10.1037/h0045186
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2 ed). London: Routledge. https://isbnsearch.org/isbn/0805802835
Cohen, J. (1990). Things I Have Learned (So Far). American Psychologist, 45(12), 1304-1312. https://dx.doi.org/10.1037/0003-066X.45.12.1304
Cohen, J. (1992a). Statistical Power Analysis. Current Directions in Psychological Science, 1(3), 98-101. http://dx.doi.org/10.1111/1467-8721.ep10768783
Cohen, J. (1992b). A Power Primer. Psychological Bulletin, 112(1), 155-159. http://dx.doi.org/10.1037/0033-2909.112.1.155
Cohen, J. (1994). The Earht Is Round (p < .05). American Psychologist, 49(12), 997-1003. http://dx.doi.org/10.1037/0003-066X.49.12.997
Hoenig, J. M., & Heisey, D. M. (2001). The Abuse of Power: The Pervasive Fallacy of Power Calculations for Data Analysis. The American Statistician, 55(1), 1-6. https://dx.doi.org/10.1198/000313001300339897
Kruger, J., & Dunning, D. (1999). Unskilled and Unaware of It: How Difficulties in Recognizing One's Own Incompetence Lead to Inflated Self-Assessments. Journal of Personality and Social Psychology, 77(6), 1121-1134. https://dx.doi.org/10.1037/0022-3514.77.6.1121
Lenth, R. V. (2007). Post Hoc Power: Tables and Commentary [Technical Report No. 378]. Iowa, IA: The University of Iowa.
Mone, M. A., Mueller, G. C., & Mauland, W. (1996). The Perceptions and Usage of Statistical Power in Applied Psychology and Management Research. Personnel Psychology, 49(1), 103-120. http://dx.doi.org/10.1111/j.1744-6570.1996.tb01793.x
O’Keefe, D. J. (2007). Post Hoc Power, Observed Power, A Priori Power, Retrospective Power, Prospective Power, Achieved Power: Sorting Out Appropriate Uses of Statistical Power Analyses. Communication Methods and Measures, 1(4), 291-299. https://dx.doi.org/10.1080/19312450701641375
Sedlmeier, P., & Gigerenzer, G. (1989). Do Studies of Statistical Power Have an Effect on the Power of Studies?. Psychological Bulletin, 105(2), 309-316. https://dx.doi.org/10.1037/0033-2909.105.2.309