Literature DB >> 34267792

P-value and effect-size in clinical and experimental studies.

Anna Carolina Miola1, Hélio Amante Miot1.   

Abstract

Entities:  

Year:  2021        PMID: 34267792      PMCID: PMC8256876          DOI: 10.1590/1677-5449.210038

Source DB:  PubMed          Journal:  J Vasc Bras        ISSN: 1677-5449


× No keyword cloud information.
The complex nature of biological systems causes a certain degree of sample variation in many experiments. Moreover, most biomedical interventions promote moderate effects that do not have an obvious dose-response slope. As a result, when statistics are used to determine the difference between samples, the combination of large measurement variations and modest differences between groups compromises their analytical power (type II error). This means it is imperative to interpret p-values (statistical significance) and effect sizes with great care when making inferences from the results of studies that make comparisons between groups, although these concepts are also applicable to analyses of correlation, agreement, survival, and diagnostic tests, among others.1-5 According to frequentist statistics, two or more samples may be drawn from the same population, but nevertheless show a certain variability in some of their characteristics. The greater the similarity between the samples, the greater the likelihood that they will be of the same nature; while the flip side is that samples that are very different will be less likely to have been chosen at random, from within the same population. Statisticians have developed a series of mathematical models that estimate the probability that samples belong to the same population and the differences observed between them in an experiment have occurred by chance. As a general rule, the p-value of a statistical test reflects the theoretical probability that values more extreme than those observed are the result of chance, as long as the groups tested are truly equal (H0 is true).6,7 It is the researchers’ responsibility to define a cutoff point beyond which they can consider that the p-value denotes a low enough probability that the groups can be assumed to be different. The choice of this significance level (level α) and the decision on the direction of analysis (one-tailed or two-tailed), should be based on theoretical principles and should be defined before the analysis. This is of fundamental importance, because every cutoff point chosen has the potential to sacrifice conclusions derived from results very close to this limit. For example, if the cutoff point chosen is p < 0.05, p = 0.04, it is overvalued in detriment to p = 0.06.8 In tests comparing groups, the p-value is influenced by the difference between the means (or proportions), but also by the variance of the data and by the dimensions of the sample. Figure 1 illustrates three different situations, in which samples with variation in standard deviations and sample size are compared. Samples with the same mean and standard deviation have different p-values, depending on the sample sizes (Figure 1 A vs. B). In turn, samples with the same mean and sample size have different p-values if they differ only in terms of their standard deviation (Figure 1 A vs. C).
Figure 1

Hypothetical examples of (bidirectional) comparisons between two treatment groups (G1 and G2), all with the same means and medians. (A) Sample with 15 participants per group (p = 0.08); (B) Sample with 30 participants per group and the same standard deviation as in example A (p = 0.02); (C) Sample with 15 participants per group and a smaller standard deviation than example A (p = 0.04).

By convention, researchers adopt significance levels in the region of 5% (p ≤ 0.05) for analysis of small samples (n < 50) and, by so doing, accept the risk that the result observed occurs by chance at least once in every 20 times the experiment is run.9 Adoption of more stringent significance levels (for example, p < 0.01) increases the reproducibility of studies, but penalizes them with larger type II errors. However, since the sample size and the number of variables involved in the analysis (number of comparisons) influence the p-value, this should be carefully weighed up when choosing the significance level. Use of very large samples (n > 1,000) makes finding low p-values by chance more likely, so it is recommended that more stringent significance levels be used, such as p ≤ 0.001. Modern genetic experiments simultaneously compare thousands of variables, making detection of small p-values by chance more likely, so it is recommended that significance levels of the order of p < 5x10-8 should be adopted.10,11 The p-values produced by a statistical test should be reported as their exact values, with a number of decimal places compatible with the magnitude that is being evaluated. For example, p = 0.032 should be reported, rather than p < 0.05 or p = 0.032016.12,13 Increasing the number of decimal places is not proof that the results are more important or reliable. Moreover, marginal p-values, that are borderline to the significance level (for example, p = 0.067), should not be interpreted as a “trend” to rejection of the null hypothesis, since expanding the sample does not guarantee that the difference between groups will be maintained.14 It is, therefore, important that the p-value should not be used as a measure of the validity of a result or of the strength of an association.15 Neither should p-values larger than the significance level (for example, p > 0.1) be interpreted as showing that the samples are identical.7 One additional measure for understanding the relationship between the groups sampled is provided by estimators of effect size.16 Assuming that the samples are adequately representative of a population (randomized collection), their statistics can be used to estimate parameters of that population, enabling inferences to be made about the behavior of the variables studied. Effect size is an indicator that quantifies the difference between samples, and an estimation of its 95% confidence interval (95%CI) provides a measure of the uncertainty of the behavior of that parameter in the population from which the sample was drawn, providing more valuable information about the true behavior of the phenomenon studied than the p-value offers.17,18 Table 1 lists the most important indicators of effect size used in epidemiological studies, which should be presented together with the p-value in the results of statistical tests, although the independent meaning of each of them is beyond the scope of this text.19 There are other estimators of effect size, which are more often used in experimental studies and which are less intuitive to interpret. These include Cohen’s “d” coefficient “, R2, and omega and “eta” squared (ω2 and η2), which may require help from an experienced statistician.18,20
Table 1

Principal measures of effect according to the type of epidemiological study.

Type of study Effect size
DiagnosticSensitivity, specificity, positive (or negative) predictive value, likelihood ratio, area under the ROC curve
EcologicalCorrelation coefficients (r or rho)
Case-controlOdds ratio, prevalence ratio
SurvivalHazard ratio
Clinical trial/cohort studyRelative risk, attributable risk, reduction in relative risk, absolute risk reduction, number needed to treat (or to harm), absolute difference between groups (percentages or means).

ROC = receiver operating characteristic.

ROC = receiver operating characteristic. Every statistical test should be presented (and interpreted) according to its p-value, an effect size, and its 95%CI.12,13,21,22 An experiment that results in a large effect size and a p-value = 0.06 is undoubtedly more relevant than a result with a small effect size but p < 0.01.23-25 For example, a recent study that assessed the effectiveness of compression stockings for improving occupational edema found a result with p < 0.0001.26 However, the non-availability of reduction values as an effect size (for example, reduction in the diameter of the ankle in the evening, or VEINES scores) makes it difficult to interpret the data and their inferences with a view to clinical use. Furthermore, particularly when dealing with larger samples, detection of low p-values may not indicate a clinically sensitive effect that leads to changes to medical paradigms. In an important systematic review conducted by Martinez-Zapata et al.27 on the subject of phlebotonics for venous insufficiency, it was suggested that phlebotonics are superior, on the basis of their statistical significance (p < 0.05), but the effect size observed was the result of a mean reduction of just 4.27 mm (95%CI 2.93–5.61 mm) in ankle circumference in 2,010 participants (15 studies), which, although true, does not indicate an evident benefit for patients with edema of the lower limbs. Occasionally, there may be a discrete divergence between the amplitude of the effect size and the p-value. For example, a relative risk of 0.70 (95%CI 0.36–1.01) and a p-value = 0.045. However, this should not be considered an error, since the estimates originate from different calculations and tend to converge as sample sizes increase. There is a recent academic movement in favor of total abolition of p-values and of the term “statistically significant” from scientific publications, giving preference to exclusively reporting the effect size of a test, because it is more informative and allows generalization of results.28 Undoubtedly, studies that base their conclusions entirely on the p-value are more susceptible to non-reproducibility, in addition to encouraging researchers to pursue statistical significance in detriment to the relevance of the result (“p-hacking”).23,28-31 However, this is still an incipient movement among researchers, since a campaign for correct interpretation of p-values analyzed in conjunction with effect sizes is a more correct option than abolishing p-values.32,33 Finally, comparisons between groups can be assessed either unidirectionally or bidirectionally (one-tailed or two-tailed). A test is usually called a difference study if we are assessing the behavior of a variable that can be larger or smaller between samples. However, many assessments are by their nature unidirectional, such as a comparison of the number of cases of a disease between people who have been vaccinated and those who have not; or a test of non-inferiority comparing two treatments.34 In these examples, the possibility that the result could be considered bidirectionally is not part of the research hypothesis. However, use of one-tailed analyses is not consensus among epidemiologists, because, although they have greater statistical power and need smaller sample sizes, they increase the chance of type I error.35-37 These analyses require supervision by an experienced statistician to calculate the one-tailed p-value and 95%CI. While the size of the p-value can inform a reader whether there is a significant effect, it does not reveal the extent of the impact of this effect on the variables studied.38 Researchers must therefore be cautious about the results of statistical tests, in the sense that the p-value should be interpreted in conjunction with the effect size, in particular as estimated by the 95% confidence interval, since the pragmatic significance of an experiment is an information that is independent of its statistical significance. A natureza complexa dos sistemas biológicos faz com que muitos experimentos apresentem certa variabilidade amostral. Ainda, grande parte das intervenções biomédicas promove efeitos moderados e sem um evidente gradiente dose-resposta. Contudo, ao passo que se emprega a estatística para concluir quanto à diferença entre amostras, a maior variabilidade das medidas e a modesta diferença entre grupos comprometem o poder analítico (erro tipo II). Esse detalhe exige uma cuidadosa interpretação do p-valor (significância estatística) e da dimensão do efeito na inferência resultante de estudos de comparação entre grupos, apesar desses conceitos se aplicarem também a análises de correlação, concordância, sobrevivência, testes diagnósticos, entre outros1-5. Segundo a estatística frequentista, duas ou mais amostras podem ser originárias de uma mesma população, porém, apresentam certa variabilidade em algumas características. Quanto mais similares forem as amostras, maior a chance de terem a mesma natureza; por outro lado, amostras que se apresentam de forma muito diferente têm menor chance de terem sido selecionadas ao acaso, dentro da mesma população. Os estatísticos desenvolveram uma série de modelos matemáticos que estimam a probabilidade de que amostras pertençam a uma mesma população e que suas diferenças constatadas no experimento tenham ocorrido ao acaso. De forma geral, o p-valor de um teste estatístico retorna à probabilidade teórica de que valores mais extremos do que os encontrados sejam frutos do acaso, desde que os grupos testados sejam realmente iguais (H0 verdadeira)6,7. Cabe ao pesquisador definir o ponto de corte a partir do qual ele considera, para o p-valor, uma probabilidade baixa o suficiente para assumir que os grupos sejam diferentes. A decisão desse nível de significância (nível α), assim como a direção da análise (uni ou bicaudal), devem ser baseadas em princípios teóricos e definidas previamente à análise. Isso é de fundamental importância, porque toda escolha de um ponto de corte pode sacrificar conclusões derivadas de resultados muito próximos a esse limite. Por exemplo, não se deve sobrevalorizar p = 0,04 em detrimento de p = 0,06, quando o ponto de corte escolhido for p < 0,058. Em testes de comparação entre grupos, o p-valor é influenciado pela diferença entre as médias (ou proporções), mas também pela variância dos dados e pela dimensão da amostra. A Figura 1 mostra três situações diferentes, em que se comparam amostras com variação nos desvios-padrão e tamanho amostral. Amostras com mesma média e desvio padrão apresentam p-valores diferentes, de acordo com o tamanho amostral (Figura 1 A vs. B). Já amostras com a mesma média e tamanho amostral apresentam p-valores distintos se diferirem apenas quanto ao desvio padrão (Figura 1 A vs. C).
Figura 1

Exemplos hipotéticos de comparações (bidirecionais) de dois grupos de tratamento (G1 e G2), todos com mesma média e mediana. (A) Amostra com 15 participantes por grupo (p = 0,08); (B) Amostra com 30 participantes por grupo e mesmo desvio padrão que o Exemplo A (p = 0,02); (C) Amostra com 15 participantes por grupo e menor desvio padrão que o exemplo A (p = 0,04).

Convencionalmente, pesquisadores adotam níveis de significância na faixa de 5% (p ≤ 0,05) para a análise de pequenas amostras (n < 50) e, com isso, assumem o risco de o resultado encontrado ocorrer ao acaso em pelo menos uma vez a cada 20 execuções do experimento9. A adoção de níveis de significância mais restritos (por exemplo, p < 0,01) aumenta a reprodutibilidade dos estudos, porém, deve penalizá-los com maiores erros do tipo II. Contudo, como o tamanho amostral e o número de variáveis envolvidas na análise (número de comparações) influenciam o p-valor, isso deve ser cuidadosamente ponderado na decisão do nível de significância. O emprego de amostras vultosas (n > 1.000) favorece o encontro ocasional de p-valores pequenos, sendo recomendado utilizar níveis de significância mais restritos, como p ≤ 0,001. As modernas explorações genéticas comparam, simultaneamente, milhares de variáveis, favorecendo o encontro casual de p-valores diminutos, sendo recomendados níveis de significância da ordem de p < 5x10-8.10,11 Os p-valores resultantes de um teste estatístico devem ser apresentados como sua medida exata e com um número de decimais compatível com a grandeza que se propõe avaliar. Por exemplo, deve-se referir p = 0,032 em vez de p < 0,05 ou de p = 0,03201612,13. O acréscimo de decimais não é contraprova de maior importância ou fidedignidade dos resultados. Ainda, p-valores marginais ao nível de significância (por exemplo, p = 0,067) não devem ser interpretados como uma “tendência” para rejeitar a hipótese nula, uma vez que a ampliação da amostra não garante que a diferença entre os grupos seja mantida14. É, pois, importante que o p-valor não seja utilizado como medida de validade de um resultado ou da força de uma associação15. Tampouco p-valores maiores que o nível de significância (por exemplo, p > 0,1) devem ser interpretados como identidade entre as amostras7. Uma medida adicional para a compreensão da relação entre os grupos amostrados são os estimadores chamados de dimensão do efeito16. Desde que as amostras representem adequadamente uma população (coleta aleatorizada), suas estatísticas podem estimar parâmetros dessa mesma população, permitindo realizar inferências sobre o comportamento das variáveis estudadas. A dimensão do efeito é um indicador que quantifica a diferença entre as amostras, e a estimativa do seu intervalo de confiança de 95% (IC95%) dimensiona a incerteza do comportamento do parâmetro na população de origem, retornando uma informação mais valiosa que o p-valor quanto ao real comportamento do fenômeno estudado17,18. A Tabela 1 apresenta os principais indicadores de dimensão de efeito utilizados em estudos epidemiológicos e que devem acompanhar o p-valor nos resultados de testes estatísticos, contudo, o significado independente de cada um deles ultrapassa o escopo do texto19. Há, ainda, outros estimadores de dimensão de efeito, mais empregados em estudos experimentais, cuja interpretação é menos intuitiva; entre eles, estão o coeficiente “d” de Cohen, R2, o ômega e o “eta” quadrado (ω2 e η2), que podem requerer suporte de um estatístico experiente18,20.
Tabela 1

Principais dimensões de efeito de acordo com o tipo do estudo epidemiológico.

Tipo de estudo Dimensão do efeito
DiagnósticoSensibilidade, especificidade, valor preditivo positivo (ou negativo), razão de verossimilhança, área sob a curva ROC
EcológicoCoeficientes de correlação (r ou rho)
Caso-controleRazão de chances, razão de prevalência
SobrevivênciaRazão de risco
Ensaio clínico/coorteRisco relativo, risco atribuível, redução do risco relativo, redução absoluta do risco, número necessário para o tratamento (ou para dano), diferença absoluta entre os grupos (percentual ou médias).

ROC = característica de operação do receptor.

ROC = característica de operação do receptor. Todo teste estatístico deve ser apresentado (e interpretado) de acordo com o p-valor, uma dimensão do efeito, e seu IC95%12,13,21,22. Um experimento que resulte em grande dimensão de efeito e p-valor = 0,06 é certamente mais relevante que um resultado que exiba pequena dimensão do efeito e p < 0,0123-25. Um estudo recente que avaliou a efetividade de meias de compressão na melhora do edema ocupacional resultou em p < 0,000126, todavia, a indisponibilidade dos valores de redução como dimensão do efeito (por exemplo, redução do diâmetro vespertino do tornozelo, ou escore VEINES) dificulta a interpretação dos dados e sua inferência visando a indicação clínica. Por outro lado, especialmente, em amostragens mais vultosas, o encontro de p-valores reduzidos pode não representar em um efeito clinicamente sensível que leve à mudança de paradigmas médicos. Na importante revisão sistemática de Martinez-Zapata et al.27 sobre ventonônicos em insuficiência venosa, foi sugerida a superioridade de drogas venotônicas devido a sua significância estatística (p < 0,05), porém, a dimensão do efeito encontrada resultou em uma redução média de apenas 4,27 mm (IC95% 2,93–5,61 mm) na circunferência do tornozelo de 2.010 participantes (15 estudos), o que, apesar de verdadeiro, não representa um benefício evidente para o paciente com edema dos membros inferiores. Excepcionalmente, pode haver uma discreta divergência entre a amplitude da dimensão de efeito e o p-valor, por exemplo, como um resultado de risco relativo 0,70 (IC95% 0,36–1,01) e p-valor = 0,045, porém, isso não deve ser considerado um erro, já que são estimativas oriundas de cálculos diferentes e que tendem a convergir com o aumento amostral. Há um recente movimento acadêmico para a completa abolição do p-valor e do termo “estatisticamente significante” nas publicações científicas, em preferência pela representação exclusiva da dimensão de efeito de um teste, por ser mais informativa e permitir a generalização dos resultados28. Realmente, estudos que baseiam suas conclusões unicamente no p-valor são mais susceptíveis à não reprodutibilidade, além de estimularem os pesquisadores a perseguirem a significância estatística em detrimento à relevância do resultado (p-hacking)23,28-31. Contudo, esse ainda é um movimento incipiente entre os pesquisadores, e uma campanha para a interpretação correta do p-valor analisado em combinação com a dimensão do efeito constitui uma alternativa mais acertada que sua abolição32,33. Finalmente, as comparações entre grupos podem ser avaliadas de forma uni ou bidirecional (uni/bicaudal). Convenciona-se chamar de estudo de diferença quando avaliamos se o comportamento de uma variável pode ser superior ou inferior entre as amostras. Entretanto, muitas avaliações são, por natureza, unidirecionais, como a comparação do número de casos de uma doença entre vacinados e não vacinados; ou em testes de não inferioridade entre duas terapias34. Nesses exemplos, não faz parte da hipótese de pesquisa a possibilidade de que o resultado seja contemplado de forma bidirecional. O emprego de análises unicaudais, todavia, não é consensual entre os epidemiologistas, porque, apesar de apresentarem maior poder estatístico e demandarem menor amostragem, aumentam a chance de erro tipo I35-37. Tais análises exigem supervisão de um estatístico experiente para o cálculo do p-valor e do IC95% unicaudais. Enquanto a dimensão do p-valor pode informar ao leitor se há algum efeito significativo, o mesmo não revela a extensão do impacto desse efeito nas variáveis estudadas38. Portanto, o pesquisador deve estar atento aos resultados dos testes estatísticos, no sentido de que sua interpretação deva contemplar o p-valor em conjunto com a dimensão do efeito, especialmente estimada pelo seu intervalo de confiança de 95%, já que o significado pragmático do experimento é uma informação independente da sua significância estatística.
  32 in total

1.  The use of one- versus two-tailed tests to evaluate prevention programs.

Authors:  Chris Ringwalt; M J Paschall; Dennis Gorman; James Derzon; Alan Kinlaw
Journal:  Eval Health Prof       Date:  2010-12-07       Impact factor: 2.651

2.  Statistics notes. Interaction 2: Compare effect sizes not P values.

Authors:  J N Matthews; D G Altman
Journal:  BMJ       Date:  1996-09-28

3.  Basic statistical reporting for articles published in biomedical journals: the "Statistical Analyses and Methods in the Published Literature" or the SAMPL Guidelines.

Authors:  Thomas A Lang; Douglas G Altman
Journal:  Int J Nurs Stud       Date:  2014-09-28       Impact factor: 5.837

4.  Journals unite for reproducibility.

Authors: 
Journal:  Nature       Date:  2014-11-06       Impact factor: 49.962

Review 5.  Alternatives to P value: confidence interval and effect size.

Authors:  Dong Kyu Lee
Journal:  Korean J Anesthesiol       Date:  2016-10-25

6.  The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research.

Authors:  Valentin Amrhein; Fränzi Korner-Nievergelt; Tobias Roth
Journal:  PeerJ       Date:  2017-07-07       Impact factor: 2.984

7.  P-values - a chronic conundrum.

Authors:  Jian Gao
Journal:  BMC Med Res Methodol       Date:  2020-06-24       Impact factor: 4.615

8.  Evaluation of the effectiveness of wearing compression stockings for prevention of occupational edema in hairdressers.

Authors:  Claudia Guimarães Agle; Cloud Kennedy Couto de Sá; Dejean Sampaio Amorim; Marcondes Antonio de Medeiros Figueiredo
Journal:  J Vasc Bras       Date:  2020-03-06

9.  Use of ROC curves in clinical and experimental studies.

Authors:  Tatiana Cristina Figueira Polo; Hélio Amante Miot
Journal:  J Vasc Bras       Date:  2020-12-11

10. 

Authors:  Hélio Amante Miot
Journal:  J Vasc Bras       Date:  2016 Apr-Jun
View more
  3 in total

1.  Development and Validation of a Dermoscopic Severity Score for Female Pattern Hair Loss.

Authors:  Mariana Álvares Penha; Paulo Müller Ramos; Vinícius de Souza; Helio Amante Miot
Journal:  Skin Appendage Disord       Date:  2021-12-14

2.  Comparing categorical variables in clinical and experimental studies.

Authors:  Anna Carolina Miola; Hélio Amante Miot
Journal:  J Vasc Bras       Date:  2022-04-01

3.  Factors associated with COVID-19 mortality in municipalities in the state of São Paulo (Brazil): an ecological study.

Authors:  Rafaela Caroline de Souza; Ettore Rafael Mai Almeida; Carlos Magno Castelo Branco Fortaleza; Hélio Amante Miot
Journal:  Rev Soc Bras Med Trop       Date:  2022-04-08       Impact factor: 1.581

  3 in total

北京卡尤迪生物科技股份有限公司 © 2022-2023.