Literature DB >> 34211532

Analysis of ordinal data in clinical and experimental studies.

Hélio Amante Miot1.   

Abstract

Entities:  

Year:  2020        PMID: 34211532      PMCID: PMC8217997          DOI: 10.1590/1677-5449.200185

Source DB:  PubMed          Journal:  J Vasc Bras        ISSN: 1677-5449


× No keyword cloud information.
Certain phenomena are represented by qualitative data in which each category has a hierarchical relationship to the others (for example, educational level, functional class, phototype, and severity of symptoms). These data are known as ordinal data and should not be interpreted in the same manner as qualitative nominal data assigned to categories that are completely independent of each other (for example, marital status, gender, ABO typing, type of amputation, or type of aneurysm),1 but also cannot be interpreted in the same manner as quantitative data (for example, age, weight, blood pressure, and arterial flow), since there is not necessarily a fixed quantitative scale separating one category from another.2 Variables represented by ordinal data are very common in biomedical research and relate to clear concepts of a continuum of the intensity of effects, ordered according to a logical monotonic sequence, but not necessarily proportionally. These characteristics demand specific statistical techniques and if such techniques are not employed, analytical errors can occur that compromise the conclusions of analyses.3,4 Ordinal data provide less precise information than their quantitative alternatives, reducing analytical power. This has even more influence on the results if a study’s dependent variable is an ordinal variable. From a pragmatic perspective, all categorizations result in arbitrary reductionism and original data should therefore be collected as quantitative variables, which can be converted to ordinal data later. Moreover, collapsing categories together (for example, stage I vs. II vs. III + IV) or dichotomization of ordinal categories (for example, improvement vs. deterioration) penalizes information even further, making type II errors more likely.5,6 Thus, except for presentation of results or discussion of concepts, there is no clear analytical advantage to be gained from categorizing quantitative data and results that only attain significance through analysis of categorized data should be interpreted with caution, with awareness of the risk of type I error.7 Table 1 lists common ordinal variables used in clinical research and quantitative alternatives, which should be preferred in the exploratory phase of a study.
Table 1

Ordinal variables commonly used in clinical and experimental studies with their quantitative alternatives for data collection.

Variable Ordinal categories Quantitative alternative
Functional classI, II, III, IVN.A.
Educational levelIlliterate, primary, secondary, higher educationFull years in education
American Society of Anesthesiologists anesthetic riskI, II, III, IV, VN.A.
Age groupChildren, adolescents, adults, seniorsAge in years
Cancer stagingI, II, III, IVN.A.
Body compositionUnderweight, healthy weight, overweight, obese, morbidly obeseBody mass index
Pallor0, 1+, 2+, 3+, 4+Hematocrit
Pulse amplitude0, 1+, 2+, 3+, 4+Plethysmography
Histopathological grading0, 1+, 2+, 3+, 4+Percentage of cells
SatisfactionVery unsatisfied, fairly unsatisfied, neutral, satisfied, very satisfiedN.A.
Economic statusClasses A, B, C, DFamily income

N.A. = none available.

N.A. = none available. It is the researcher’s decision to present or analyze ordinal variables, whether because there is no quantitative equivalent (for example, cancer staging, satisfaction, relief from symptoms, level of amputation), because they offer a more appropriate representation of a concept related to a phenomenon (for example, surgical mortality in the morbidly obese compared with patients of a healthy weight), or even because the desired outcome is linked to an ordinal category (for example, achieving normal blood pressure is more important than a mean quantitative reduction of 10 mmHg in blood pressure).8 During the ordinal data description step, researchers should be aware that, since the categories are independent, expressing results for a sample as means and standard deviations may not adequately describe them, whether because the distribution is not unimodal, because it is neither a normal distribution nor a symmetrical distribution, or even simply because the mean does not equate to any of the categories (for example, mean cancer stage = 2.5; mean pulse amplitude = 3.2 +). In such cases, it is preferable to describe the percentage frequencies of each category (for example, 10% stage I, 30% II, 40% III, and 20% IV), and illustrate them graphically using frequency plots (Figure 1).9,10 In cases in which there are several ordinal categories (≥ 5), the median should be given followed by the categories in which the quartiles fall (p25-p75), as long as the sample is unimodal, for example, a visual analog pain scale (VAS), or the American Society of Anesthesiologists anesthetic risk classification (ASA).11-15
Figure 1

Graph illustrating frequencies of the ordinal variable skin phototype (I to VI) of melasma cases and controls from the Hospital das Clínicas de Botucatu (n = 238).9

Analysis of the difference between ordinal data distributed across two or more categories should prefer use of techniques that incorporate the direction of the effect inflicted by the ordering of the categories. Options for comparison of two ordinal categories are the chi-square test for trend (preferable for few ordinal categories) and the Mann-Whitney test; while the Kruskall-Wallis test can be used to compare more groups. Ordinal regression (logit or probit) can be used to compare several categories and also enables adjustment for covariates (such as sex, age, or comorbidities), offering the possibility of multivariate analysis of ordinal data.4,13,15-19 Table 2 illustrates an analysis of frequency by educational level, using these ordinal methods. Analyzing the same data with the chi-square test of independence (multinomial data) returns χ2 = 5.33 (p = 0.135), showing the importance of considering the ordinal nature of data in the analysis.
Table 2

Data from a hypothetical sample comparing frequency of a disease by educational level (n = 60).

Primary education (n = 18) Secondary education (n = 24) Higher education (n = 18) Total (n = 60)
Sick – n (%) 12 (67)12 (50)6 (33)30 (50)
Healthy – n (%) 6 (33)12 (50)12 (67)30 (50)

Chi-square test for trend (χ2 = 3.93; p = 0.046). Mann-Whitney test (U = 324.00; p = 0.047). Ordinal logistic regression (χ2 = 4.07; p = 0.043).

Chi-square test for trend (χ2 = 3.93; p = 0.046). Mann-Whitney test (U = 324.00; p = 0.047). Ordinal logistic regression (χ2 = 4.07; p = 0.043). When the behavior of a quantitative variable is compared with ordinal categories (for example, age of students by social class), comparisons for normal and homoscedastic distributions should be made using analysis of variance (ANOVA) with linear contrast, which incorporates the ordinal nature of the categories and enables group trends to be inferred. For other conditions, its non-parametric alternative can be used: the Jonckheere-Terpstra test.14,20 Analysis of correlations that involve at least one variable with ordinal data should be conducted using the Spearman’s rho (ρ) or Kendall’s tau-b coefficients.21 Correlation between two ordinal variables with a small number of ordinal categories (< 5), as in quality of life questionnaire items, is a special case. In such cases, polychoric correlation should be preferred because it produces a less biased estimator. In turn, analyses of agreement can be performed using the weighted kappa test, which offers a similar estimate to the Intraclass Correlation Coefficient (for full agreement), or with the Kendall-W test.22-24 Longitudinal studies involving ordinal data can be analyzed using non-parametric models for dependent data (for example, the Wilcoxon and Friedman tests).25 However, when there are subgroups to be compared over time, temporal differences can be compared on the basis of changes to each category as a function of each observation (using, for example, the Mann-Whitney test or ordinal logistic regression) or, in a more sensitive manner, using multilevel models, such as generalized estimating equations or generalized linear mixed-effects models, weighted for ordinal distributions. These last two options demand supervision by an experienced statistics professional.26-29 Measurement instruments comprising items with ordinal scores (for example, quality of life surveys) should be assessed for dimensionality and can be more adequately analyzed using models based on item response theory for ordinal data.30,31 Finally, there is a certain degree of controversy with relation to exclusive use of ordinal statistical technique (non-parametric methods) for all cases, because of their lower statistical power compared to parametric techniques. Even using exact techniques (such as Monte Carlo methods, for example) for estimating p-values, non-parametric variants return more conservative results in terms of rejection of the null hypothesis. Indeed, in unimodal and symmetrical ordinal distributions, as the sample size increases (for example, n > 30), the number of ordinal categories increases (for example, n ≥ 5), and where the intervals between categories are relatively constant (for example, age groups or seasons of the year), parametric statistical techniques offer adequate inferential performance for analysis of ordinal data. This argument is based on the central limit theorem6,32,33 and in the example in Table 2 (n = 60), Student’s t test results t = 2.03 (p = 0.046). However, because of the peculiar discontinuous and finite characteristics of ordinal values, the use of parametric techniques (which assume values that are continuous and infinite bilaterally) can increase type I error.3,8,19,34,35 The decision to use ordinal variables in a study demands detailed description in the methodology covering both the reasons why quantitative variables are categorized and the descriptive and analytical strategies adopted.36 Há fenômenos que são representados por certos dados qualitativos em que cada categoria mantém uma dependência hierárquica em relação a outra (por exemplo, escolaridade, classe funcional, fototipo, gravidade dos sintomas). Esses dados são chamados ordinais e não devem ser interpretados como dados qualitativos nominais, que se caracterizam por categorias completamente independentes entre si (por exemplo, estado civil, gênero, tipagem ABO, tipo de amputação, tipo de aneurisma)1, tampouco como dados quantitativos (por exemplo, idade, peso, pressão arterial, fluxo arterial), já que não existe necessariamente uma escala quantitativa fixa que separa uma categoria de outra2. As variáveis representadas por dados de natureza ordinal são muito comuns em pesquisa biomédica e retornam conceitos claros sobre um continuum de intensidade do efeito, ordenados segundo uma sequência lógica monotônica, mas não são necessariamente proporcionais. Por essa razão, suas características demandam técnicas estatísticas específicas, cuja inobservância leva a equívocos analíticos que podem prejudicar as conclusões3,4. Dados ordinais apresentam menor precisão da informação do que suas alternativas quantitativas, reduzindo o poder da análise. Isso se torna ainda mais sensível para os resultados quando a variável ordinal é a variável dependente do estudo. De forma pragmática, toda categorização resulta de um reducionismo arbitrário; assim, os dados devem ser originalmente coletados como variáveis quantitativas, podendo se optar pela sua ordenação posterior. Além disso, a fusão de grupos (por exemplo, o estadiamento I vs. II vs. III + IV) ou a dicotomização dessas categorias ordenadas (por exemplo, melhora vs. piora) penitencia ainda mais a informação, favorecendo o erro tipo II5,6. Dessa forma, exceto para a apresentação dos resultados ou a discussão de conceitos, não há clara vantagem analítica na ordenação de dados quantitativos, e os resultados que mostram significância apenas pela análise dos dados categorizados devem ser interpretados com cautela sob o risco de erro tipo I7. A Tabela 1 apresenta as principais variáveis ordinais empregadas em pesquisa clínica, assim como suas alternativas quantitativas, preferidas na fase exploratória do estudo.
Tabela 1

Variáveis de natureza ordinal comumente utilizadas em estudos clínicos e experimentais e suas alternativas quantitativas para coleta dos dados.

Variável Categorias ordinais Alternativa quantitativa
Classe funcionalI, II, III, IVN.D.
EscolaridadeAnalfabeto, fundamental, médio, superiorAnos de estudo completos
Risco anestésico da American Society of Anesthesiologists (ASA)I, II, III, IV, VN.D.
Faixa etáriaInfância, adolescência, adulto, idosoIdade em anos
Estadiamento do câncerI, II, III, IVN.D.
Composição físicaMagro, eutrófico, sobrepeso, obeso, obeso mórbidoÍndice de massa corporal
Palidez0, 1+, 2+, 3+, 4+Hematócrito
Amplitude de pulso0, 1+, 2+, 3+, 4+Pletismografia
Marcação histopatológica0, 1+, 2+, 3+, 4+Percentual de células
SatisfaçãoMuito insatisfeito, um pouco insatisfeito, neutro, satisfeito, muito satisfeitoN.D.
Status econômicoClasse A, B, C, DRenda familiar

N.D. = não disponível.

N.D. = não disponível. É critério do pesquisador representar ou analisar variáveis ordinais, seja porque não haja equivalente quantitativo (por exemplo, estadiamento do câncer, satisfação, alívio de sintomas, nível de amputação), porque representam mais adequadamente um conceito relacionado ao fenômeno (por exemplo, mortalidade em cirurgias de obesos mórbidos em comparação a eutróficos) ou mesmo porque o desfecho desejado está ligado a uma categoria ordinal (por exemplo, tornar-se normotenso é mais importante que uma redução quantitativa média de 10 mmHg da pressão arterial)8. Na etapa de descrição de dados ordinais, deve-se atentar que, como as categorias são independentes, a representação da amostra como média e desvio padrão pode não permitir sua adequada caracterização, seja porque a distribuição não é unimodal, por não ter distribuição normal nem simétrica ou mesmo pelo ponto médio não representar nenhuma das categorias (por exemplo, estadiamento médio = 2,5; pulso médio = 3,2 cruzes). Dessa forma, deve-se preferir a descrição das frequências percentuais de cada categoria (por exemplo, 10% estadiamento I, 30% II, 40% III e 20% IV), e sua representação gráfica como diagrama de frequências (Figura 1)9,10. Em casos com numerosas categorias ordinais (≥ 5), deve-se optar pela mediana seguida pelas categorias que representam os quartis (p25-p75), desde que a amostra seja unimodal, por exemplo, escala visual analógica de dor (VAS), ou a classificação de risco anestésico da American Society of Anesthesiologists (ASA)11-15.
Figura 1

Diagrama de frequências da variável ordinal fototipo de pele (I a VI) de casos de melasma e controles provenientes do Hospital das Clínicas de Botucatu (n = 238)9.

A análise da diferença entre dados ordinais em duas ou mais categorias deve priorizar o uso de técnicas que incorporem a direção do efeito infligida pela ordenação das categorias. As opções para a comparação de duas categorias ordinais são o teste do qui-quadrado de tendência (preferível para poucas categorias ordinais) e o teste de Mann-Whitney; enquanto o teste de Kruskall-Wallis permite comparar mais grupos. A regressão ordinal (logit ou probit), além de possibilitar a comparação de várias categorias, permite o ajuste por covariáveis (como sexo, idade, comorbidades), possibilitando a análise multivariada de dados ordinais4,13,15-19. A Tabela 2 apresenta uma análise de frequência segundo a escolaridade, de acordo com esses métodos ordinais. A análise desses mesmos dados pelo teste do qui-quadrado de independência (dados multinomiais) retorna um χ2 = 5,33 (p = 0,135), valorizando a importância de se considerar a ordenação na análise.
Tabela 2

Dados de uma amostra hipotética que compara a frequência de uma doença de acordo com o nível de escolaridade (n = 60).

Fundamental (n = 18) Médio (n = 24) Superior (n = 18) Total (n = 60)
Doentes – n (%) 12 (67)12 (50)6 (33)30 (50)
Não doentes – n (%) 6 (33)12 (50)12 (67)30 (50)

Qui-quadrado de tendência (χ2 = 3,93; p = 0,046). Teste de Mann-Whitney (U = 324,00; p = 0,047). Regressão logística ordinal (χ2 = 4,07; p = 0,043)

Qui-quadrado de tendência (χ2 = 3,93; p = 0,046). Teste de Mann-Whitney (U = 324,00; p = 0,047). Regressão logística ordinal (χ2 = 4,07; p = 0,043) Quando se compara o comportamento de uma variável quantitativa de acordo com categorias ordinais (por exemplo, a idade dos alunos segundo a classe social), a comparação para distribuições normais e homocedásticas deve ser feita pelo teste de análise de variância (ANOVA) com contraste linear, que incorpora a ordenação das categorias e permite a inferência quanto à tendência dos grupos. Para as outras condições, pode ser utilizada sua alternativa não-paramétrica: o teste de Jonckheere-Terpstra14,20. A análise de correlações que envolvam ao menos uma variável com dados ordinais deve ser realizada através do coeficiente rho (ρ) de Spearman ou de Kendall tau-b21. Um caso especial é a correlação entre duas variáveis ordinais com pequeno número de categorias ordinais (< 5), como acontece nos itens de questionários de qualidade de vida. Nesses casos, a correlação policórica deve ser preferida por produzir um estimador menos enviesado. Já as análises de concordância podem ser conduzidas pelo teste kappa com pesos, que oferece estimativa semelhante ao coeficiente de correlação intraclasse (CCI) para completa concordância, ou pelo teste Kendall-W22-24. Estudos longitudinais que envolvam dados ordinais podem ser analisados a partir de modelos não-paramétricos para dados dependentes (por exemplo, testes de Wilcoxon e de Friedman)25. Porém, quando há subgrupos para serem comparados em função do tempo, as diferenças temporais podem ser comparadas quanto às mudanças de cada categoria em função de cada observação (por exemplo, teste de Mann-Whitney ou regressão logística ordinal) ou de forma mais sensível, utilizando modelos multiníveis como equações de estimativas generalizadas (GEE) ou modelos lineares generalizados de efeitos mistos, ponderados para distribuições ordinais. Esses últimos requerem a supervisão de um profissional estatístico experiente26-29. Os instrumentos de medida compostos por itens com escores ordinais (por exemplo, inquéritos de qualidade de vida) devem ser avaliados quanto à dimensionalidade e podem ser analisados de forma mais adequada a partir de modelos que utilizem a teoria de resposta ao item (TRI) para dados ordinais30,31. Finalmente, há certa controvérsia sobre o uso exclusivo de técnicas estatísticas ordinais (não-paramétricas) para todos os casos, visto o menor poder estatístico comparado às técnicas paramétricas. Mesmo com o uso de técnicas exatas (por exemplo, o método de Monte Carlo) para a estimativa do p-valor, as variantes não-paramétricas apresentam resultados mais conservadores quanto à rejeição da hipótese nula. De fato, em distribuições ordinais unimodais e simétricas, à medida que a amostra se torna mais numerosa (por exemplo, n > 30), o número de categorias ordinais aumenta (por exemplo, n ≥ 5) e haja intervalos relativamente constantes entre as categorias (por exemplo, faixas etárias, estações do ano), as técnicas estatísticas paramétricas apresentam desempenho inferencial adequado para a análise de dados ordinais. Esse argumento se fundamenta no teorema do limite central6,32,33 e no exemplo da Tabela 2 (n = 60), o teste t de Student resulta em t = 2,03 (p = 0,046). Entretanto, devido à característica própria da descontinuidade e finitude dos valores ordinais, o uso de técnicas paramétricas (que os consideram valores contínuos e infinitos bilateralmente) pode levar ao inflacionamento do erro tipo I3,8,19,34,35. A decisão de empregar variáveis ordinais na pesquisa exige descrição minuciosa na metodologia tanto dos motivos que levaram a categorizar variáveis quantitativas quanto das estratégias descritiva e analítica empregadas36.
  2 in total

1.  Comparing categorical variables in clinical and experimental studies.

Authors:  Anna Carolina Miola; Hélio Amante Miot
Journal:  J Vasc Bras       Date:  2022-04-01

2.  Interpretations about gender in the epidemiology of cutaneous melanoma.

Authors:  Anna Carolina Miola; Juliano Vilaverde Schmitt; Hélio Amante Miot
Journal:  An Bras Dermatol       Date:  2022-03-21       Impact factor: 2.113

  2 in total

北京卡尤迪生物科技股份有限公司 © 2022-2023.