Objective To evaluate the inter- and intraobserver agreement regarding the Walch classification system for shoulder arthritis. Methods Computed tomography scans of the shoulder joint of adult patients were selected between 2012 and 2016, and they were classified by physicians with different levels of expertise in orthopedics. The images were examined at three different times, and the analyses were evaluated by the Fleiss Kappa index to verify the intra- and interobserver agreement. Results The Kappa index for the intraobserver agreement ranged from 0.305 to 0.545. The inter-observer agreement was very low at the end of the three evaluations (κ = 0.132). Conclusion The intraobserver agreement regarding the modified Walch classification varied from moderate to poor. The interobserver agreement was low.
Objective To evaluate the inter- and intraobserver agreement regarding the Walch classification system for shoulder arthritis. Methods Computed tomography scans of the shoulder joint of adult patients were selected between 2012 and 2016, and they were classified by physicians with different levels of expertise in orthopedics. The images were examined at three different times, and the analyses were evaluated by the Fleiss Kappa index to verify the intra- and interobserver agreement. Results The Kappa index for the intraobserver agreement ranged from 0.305 to 0.545. The inter-observer agreement was very low at the end of the three evaluations (κ = 0.132). Conclusion The intraobserver agreement regarding the modified Walch classification varied from moderate to poor. The interobserver agreement was low.
Entities:
Keywords:
osteoarthritis/classification; reproducibility of results; shoulder joint
Osteoarthritis (OA) is defined as joint degeneration of primary and secondary origin. Such a limitation causes difficulty to perform daily activities, and can become disabling.Shoulder arthrosis can affect up to 20% of the elderly population.
1
The primary form is insidious, with no previous shoulder disorders, and it usually affects other joints. In the secondary form, however, there is a previous history.
1The initial treatment for OA is based on clinical and drug management. The surgical treatment is frequently indicated to patients with impairments to perform their daily activities who did not respond to the medical treatment.The number of shoulder arthroplasties and hemiarthroplasties has been growing over the past few decades. Previous studies show a 10.6% and 6.7% increase in the number of shoulder total arthroplasties and hemiarthroplasties respectively, between 1993 and 2007.
2Imaging scans aid in the diagnosis and staging of the disease, as well as in the indication of the treatment. Radiographs are routinely used in three views – the anteroposterior, scapular and axillary views.
1
The main objective of computed tomography (CT) scans is to show glenoid anteversion and to provide a detailed view of joint involvement.
3The main purpose of the classifications is to enable the communication among professionals studying a certain disease, in order to standardize diagnoses and treatments in clinical research. Thus, a good classification must be reproducible and have the ability to predict the prognosis of a particular condition.
4One method to evaluate the reproducibility of a classification system is the analysis of the intra- and interobserver agreement. Intraobserver agreement refers to the concordance in the observations made by the same observer in different observation intervals, whereas interobserver agreement refers to the concordance between different observers.There are several classifications for shoulder OA. The most used OA classification system was proposed by Walch et al
3
in 1999, which was modified in 2016.
4
This system stages and assesses the progression of shoulder OA based on CT scans of the patients' joints. It considers glenoid morphology, its retroversion angle, and its relationship with the humeral head. These data enable the determination of the best type of arthroplasty to be performed to treat the condition.However, there is little information on reproducibility and agreement, especially regarding the 2016 modification.The present study aims to evaluate the intra- and interobserver agreement regarding the modified Walch classification for shoulder OA.
Materials and Methods
The present is a retrospective, cross-sectional, analytical study of the agreement regarding classifications. The research project was approved by the Ethics in Research Committee of Plataforma Brasil (under C.A.A.E n∘ 66863817.3.0000.5505).
Results
There was no correct answer, just the observation of intra- and interobserver agreement (the greatest agreement and greatest disagreement).Figure 1
shows the Kappa index for the intraobserver agreement at three distinct assessments using seven levels (A1, A2, B1, B2, B3, C and D). The best result revealed a moderate agreement (κ = 0.545).
Fig. 1
Mean intraobserver agreement at the end of the three evaluations. Abbreviations: ELE1 and ELE2, expert level examiners; ALE, advanced-level examiner; BLE, basic level examiner; UMS, undergraduate medical student.
Mean intraobserver agreement at the end of the three evaluations. Abbreviations: ELE1 and ELE2, expert level examiners; ALE, advanced-level examiner; BLE, basic level examiner; UMS, undergraduate medical student.Figure 2
shows the Kappa index for the interobserver agreement for separate assessments, as well as the overall agreement at the completion of the three assessments using the same seven levels. The best agreement was obtained at the first evaluation, but it was deemed small (κ = 0.214). After the three assessments, there was very little interobserver agreement (κ = 0.132).
Fig. 2
Interobserver agreement regarding the three evaluations and at general agreement evaluation.
Interobserver agreement regarding the three evaluations and at general agreement evaluation.The agreement calculations were made using only the four basic levels of the Walch classification (A, B, C, and D). Images rated as A1 and A2 were grouped as A; images classified as B1, B2 and B3 were grouped as B.Figure 3
shows the Kappa index for the intraobserver agreement using only the four basic levels. In this scenario, the best result was substantial, a virtually perfect agreement (κ = 0.798).
Fig. 3
Mean intraobserver agreement using four levels. Abbreviations: ELE1 and ELE2, expert level examiners; ALE, advanced level examiner; BLE, basic level examiner; UMS, undergraduate medical student.
Mean intraobserver agreement using four levels. Abbreviations: ELE1 and ELE2, expert level examiners; ALE, advanced level examiner; BLE, basic level examiner; UMS, undergraduate medical student.F
igure 4
presents the comparison of the interobserver Kappa indices when the seven levels (A1, A2, B1, B2, B3, C and D) were used, after the grouping regarding the four basic levels. Although the classification system was simplified, the best interobserver agreement remained very small (κ = 0.172).
Fig. 4
Comparison of the interobserver agreement at each of the three evaluations and general agreement evaluation using seven and four levels.
Comparison of the interobserver agreement at each of the three evaluations and general agreement evaluation using seven and four levels.
Discussion
The Walch classification was chosen because it is widely used by orthopedists to determine shoulder joint involvement in patients with primary arthrosis. Intra- and interobserver agreement is very important to the evaluation of any orthopedic classification system.The Kappa index regarding the intraobserver agreement ranged from 0.305 (ELE1) to 0.545 (BLE), showing that there was small to moderate agreement for the same evaluator. The wide variation between the results probably results from the complexity of this classification system. Professional experience did not have the expected effect on intra-observer agreement, since the highest index was obtained by the BLE, and the lowest index was obtained by the ELE1.Interobserver agreement was very low at the completion of the three evaluations (κ = 0.132). The index decreased between the three evaluation moments. This reduction showed that time and familiarization with the classification system had no relevant effect at the end of the evaluations; in addition, the training performed prior to the first evaluation may have influenced the results.Our work showed lower Kappa indices compared to studies assessing the agreement regarding different classification systems, as well as lower intra- and interobserver agreement concerning the Walch classification when compared to other studies. Matsunaga et al,
8
analyzing the Mason classification for proximal radial fractures, demonstrated satisfactory intra- (κ = 0.582) and interobserver (κ = 0.429–0.560) agreement.The use of the four basic levels of assessment resulted in a better intraobserver agreement, with substantial values obtained for most evaluators. This finding highlights the difficulty in evaluating the Walch classification subdivisions, and it shows that a simplification of the classification leads to a better agreement.Belotti et al
9
demonstrated that intra- and interobserver agreement for distal radial classifications was higher if there were fewer variables. This fact is in line with the present study, in which there was an increase in agreement when fewer variables were used.Our results reveal an important difference compared to those reported by Bercik et al,
4
who demonstrated very good interobserver and virtually perfect intraobserver agreement. This difference may be explained by the use of specialized software to determine the version angle of the glenoid and three-dimensional (3D) reconstructions of CT scans in the abovementioned studies, which were not employed by us.The use of 3D reconstruction images seems to improve the understanding of glenoid morphology. Osteoarthritis can cause bone degeneration in the sagittal, coronal and axial planes, thus presenting itself as a 3D defect that is difficult to see in two-dimensional images.Scalise et al
10
and Budge et al
11
used CT with 3D reconstruction. Both showed that there was a better morphological understanding of the glenoid and, thus, a better agreement between the evaluators when 3D images were analyzed.It is worth noting that the present study was limited to evaluating the opinions of the examiners; it did not have the goal of establishing a correct answer for each scan evaluated. Therefore, the accuracy of each observer was not assessed. This would require analyzing each observer's responses and comparing them with a golden standard method (with high specificity and sensitivity) for diagnosis.
Conclusion
The intraobserver agreement of the modified Walch classification varied from moderate to poor. The interobserver agreement, however, was low.
x-ray computed tomographyIntrodução
A osteoartrose (OA) é definida como degeneração articular tanto de origem primária quanto secundária. Tal limitação gera dificuldade para realizar atividades diárias, e pode se tornar incapacitante.Na população idosa, a artrose do ombro pode acometer até 20% dos indivíduos.
1
A forma primária se apresenta de maneira insidiosa, sem afecções prévias no ombro, geralmente com acometimento de outras articulações. Em contrapartida, na secundária há relato de histórico prévio.
1Seu tratamento inicial se baseia em medidas clínicas e medicamentosas. A indicação de tratamento cirúrgico é frequente para pacientes com prejuízo das atividades de vida diária e que não responderam ao tratamento não cirúrgico.O número de artroplastias e hemiartroplastias do ombro tem crescido nos últimos anos. Estudos prévios mostram um aumento de 10,6% no número de artroplastias totais, e de 6,7% de hemiartroplastias do ombro, entre 1993 e 2007.
2Os exames de imagem são métodos de auxílio no diagnóstico e estadiamento da doença, e também contribuem para a indicação do tratamento. Rotineiramente são usadas radiografias em três incidências: anteroposterior, perfil escapular, e perfil axilar.
1
A tomografia computadorizada tem como principal objetivo evidenciar a anteversão da glenoide e proporcionar visão detalhada do acometimento articular.
3As classificações têm o objetivo principal de permitir a comunicação entre os profissionais envolvidos no estudo de determinada doença, e de padronizar diagnósticos e tratamentos nas pesquisas clínicas. Assim, uma boa classificação deve ser reprodutível e ter a capacidade de prever o prognóstico de determinada afecção.
4Um método usado para a avaliação da reprodutibilidade de uma classificação é a análise da concordância intra e interobservador. Concordância intraobservador é a correspondência entre observações feitas pelo mesmo observador em diferentes intervalos de observação. O acordo entre observadores define a concordância interobservador.Existem diversas classificações para a OA do ombro, e a mais usada mundialmente é a de Walch et al,
3
proposta em 1999 e modificada em 2016,
4
que estadia e avalia a progressão da OA do ombro baseada em cortes tomográficos da articulação dos pacientes. Tal estudo leva em consideração a morfologia da glenoide, seu ângulo de retroversão, e sua relação com a cabeça umeral. A partir desses dados, é proposto o melhor tipo de artroplastia a ser empregado no tratamento dessa afecção.Contudo, são escassas as informações quanto à reprodutibilidade e concordância, principalmente referentes à modificação feita em 2016.O objetivo deste estudo é avaliar a concordância intra e interobservador da classificação de Walch modificada para artrose da articulação do ombro.
Materiais e Métodos
Este é um estudo analítico transversal retrospectivo de concordância para classificações. O projeto de pesquisa foi aprovado pelo Comitê de Ética em Pesquisa da Plataforma Brasil (C.A.A.E n∘ 66863817.3.0000.5505).
Cálculo amostral
Inicialmente, foi determinado o número de 62 tomografias necessárias para obter valores de Kappa maiores do que 0,70, por meio de teste com nível de significância de 5% e poder de 80%.
Seleção da amostra
As imagens selecionadas foram obtidas entre 2012 e 2016, no setor de Cirurgia de Ombro e Cotovelo. Foram incluídos exames feitos em adultos com idade ≥ 18 anos que apresentassem OA do ombro. Os exames foram selecionados por dois ortopedistas que não participaram do processo de classificação da doença, de forma a incluir exames de boa qualidade.Foram excluídas imagens de pacientes com fraturas da região proximal do úmero, fraturas da glenoide, fraturas do corpo da escápula, e luxações da articulação do ombro, assim como todos os pacientes que apresentavam qualquer material de síntese nas imagens.Inicialmente, 62 tomografias do ombro foram analisadas. Após serem submetidas aos critérios de exclusão, dez exames foram excluídos do estudo. Assim, 52 tomografias foram usadas para a avaliação e classificação da OA do ombro.
Processo de classificação das imagens
Os exames foram classificados por cinco examinadores com diferentes níveis de experiência.Dois examinadores de nível
expert
(ENE1 e ENE2, com mais de seis anos de experiência como ortopedista especialista em ombro e cotovelo), um examinador de nível avançado (ENA, com um ano de experiência como ortopedista especialista em ombro e cotovelo), um examinador de nível básico (ENB, médico residente em ortopedia), e um graduando de medicina (GM).Com a finalidade de minimizar o viés devido às dificuldades de interpretação e inexperiência com a classificação, os observadores tiveram um treinamento prévio sobre o sistema de classificação usado. Além disso, durante o processo de classificação, o participante teve à sua disposição a brochura com toda a classificação de Walch.As imagens foram organizadas em um arquivo digital fechado. As classificações foram feitas pelos observadores em três momentos, com um intervalo de três semanas entre uma avaliação e outra. Na primeira avaliação (T1), as imagens foram visualizadas em ordem numérica. Na segunda avaliação (T2), três semanas depois, houve randomização da sequência das imagens, assim como na terceira (T3). A sequência das imagens em cada avaliação foi randomizada por uma pessoa alheia às avaliações, não ligada diretamente ao estudo, e essa sequência foi revelada somente na análise final estatística.Cada um dos avaliadores classificou independentemente as imagens. Não houve limite de tempo para a avaliação.Os participantes foram instruídos a não discutir os sistemas até o fim da fase de classificação. Além disso, não houve acesso ao histórico dos pacientes ou a qualquer dado clínico deles.
Análise estatística
A análise estatística dos resultados obtidos foi feita por um profissional especializado da área de estatística médica. Usou-se o teste Kappa de Fleiss para avaliar a concordância intra e interobservador para cada escala. O uso do coeficiente Kappa de Fleiss é considerado o mais apropriado para análise de situações em que múltiplos examinadores estão envolvidos ou várias avaliações são feitas, e quando a escala avaliada apresenta muitas categorias.
5O teste foi interpretado de acordo com Altman
6
como “concordância proporcional com correção do acaso”. Kappa é o coeficiente de concordância cujo valor varia de +1 (concordância perfeita), passa por 0 (concordância igual ao acaso), e vai até -1 (discordância completa). Não há definições quanto aos níveis de concordância aceitos, mas alguns estudos sugerem que resultados entre 0 e 0,2 apresentam uma concordância muito pequena; de 0,21 a 0,40, uma concordância pequena; de 0,41 a 0,60, uma concordância moderada; e de 0,61 a 0,80, uma concordância substancial. Para um valor acima de 0,80, considera-se que a concordância foi praticamente perfeita.
6
7
Sistema de classificação de artrose do ombro
Segundo a classificação de Walch, a OA da articulação do ombro é dividida em quatro tipos, com subdivisões:(A) artrose com a cabeça umeral centralizada (sem deslocamento); (A1) erosão pequena; (A2) erosão grande; (B) artrose com subluxação posterior da cabeça umeral; (B1) diminuição do espaço articular, com presença de osteófitos e esclerose subcondral; (B2) retroversão da glenoide e acometimento do lábio posterior (glenoide bicôncava); (B3) retroversão > 14∘, com ou sem subluxação; (C) retroversão da glenoide > 25∘ independente da erosão; e (D) anteversão da glenoide e/ou subluxação anterior da cabeça umeral.
4
Resultados
Não foi estabelecida uma resposta correta, mas observou-se a concordância intra e interobservador (maior concordância e maior discordância).A
Figura 1
mostra o índice Kappa para a concordância intraobservador entre as três avaliações distintas, com o uso de sete níveis (A1, A2, B1, B2, B3, C e D). O melhor resultado rvelou uma concordância moderada (κ = 0,545).
Fig. 1
Média da concordância intraobservador feita ao término das três avaliações. Abreviaturas: ENE1 e ENE2, examinadores de nível
expert
; ENA, examinador de nível avançado; ENB, examinador de nível básico; GM, graduando de medicina.
Média da concordância intraobservador feita ao término das três avaliações. Abreviaturas: ENE1 e ENE2, examinadores de nível
expert
; ENA, examinador de nível avançado; ENB, examinador de nível básico; GM, graduando de medicina.A
Figura 2
mostra o índice Kappa para a concordância interobservador em cada avaliação separadamente, e a concordância geral no fim das três avaliações, com o uso dos mesmos sete níveis. A melhor concordância foi obtida na primeira avaliação, mas foi uma concordância pequena (κ = 0,214). Após as três avaliações, a concordância interobservador foi muito pequena (κ = 0,132).
Fig. 2
Concordância interobservador nas três avaliações distintas e avaliação geral da concordância.
Concordância interobservador nas três avaliações distintas e avaliação geral da concordância.Foram feitos cálculos de concordância com o uso somente dos quatro níveis básicos da classificação de Walch (A, B, C e D). Imagens classificadas como A1 e A2 foram agrupadas como A; imagens classificadas como B1, B2 e B3 foram agrupadas como B.A
Figura 3
mostra o índice Kappa para a concordância intraobservador quando usados somente os quatro níveis básicos. Nesse cenário, o melhor resultado obteve concordância substancial, quase perfeita (κ = 0,798).
Fig. 3
Média da concordância intraobservador, com o uso de quatro níveis. Abreviaturas: ENE1 e ENE2, examinadores de nível
expert
; ENA, examinador de nível avançado; ENB, examinador de nível básico; GM, graduando de medicina.
Média da concordância intraobservador, com o uso de quatro níveis. Abreviaturas: ENE1 e ENE2, examinadores de nível
expert
; ENA, examinador de nível avançado; ENB, examinador de nível básico; GM, graduando de medicina.A
Figura 4
apresenta a comparação do índice Kappa interobservador quando usados os sete níveis (A1, A2, B1, B2, B3, C e D), e após o agrupamento para os quatro níveis básicos. Nota-se que, mesmo após a simplificação do sistema de classificação, a melhor concordância interobservador se manteve muito pequena (κ = 0,172).
Fig. 4
Comparação da concordância interobservador nas três avaliações distintas e avaliação geral da concordância, com o uso de sete e quatro níveis.
Comparação da concordância interobservador nas três avaliações distintas e avaliação geral da concordância, com o uso de sete e quatro níveis.
Discussão
A classificação de Walch foi escolhida por se tratar de um método bastante usado por ortopedistas para determinar o acometimento da articulação do ombro em pacientes com artrose primária. A concordância intra e interobservador tem grande importância para a avaliação de qualquer classificação ortopédica.O índice Kappa na concordância intraobservador variou de 0,305 (ENE1) a 0,545 (ENB), o que revela que houve pouca ou moderada concordância para um mesmo avaliador. A grande variação entre os resultados decorre, provavelmente, da complexidade da classificação. A experiência profissional não teve o efeito esperado na concordância intraobservador, visto que o maior índice foi obtido pelo ENB, e o menor, pelo ENE1.A concordância interobservador se mostrou muito baixa no fim das três avaliações (κ = 0,132). Houve diminuição do índice entre os três momentos de avaliação. Isso mostrou que o tempo e a familiarização com a classificação não tiveram efeito relevante no fim das avaliações, além do fato de que houve treinamento prévio à primeira avaliação, o que pode ter influenciado os resultados.Quando comparado a estudos que avaliaram a concordância de outras classificações, o presente estudo demonstrou índices Kappa inferiores aos demais, e evidenciou menor concordância intra e interobservador da classificação de Walch em relação às demais. Matsunaga et al
8
demonstraram uma concordância satisfatória para a classificação de Mason para fraturas da porção proximal do rádio, tanto intra (κ = 0,582) quanto interobservador (κ = 0,429–0,560).Ao usar quatro níveis básicos de avaliação, notou-se melhor concordância intraobservador, e obteve-se concordância substancial para a maioria dos examinadores. Esse resultado evidencia a dificuldade de avaliar as subdivisões dos tipos da classificação de Walch, e o fato de que simplificar a classificação faz com que melhores concordâncias sejam alcançadas.Belotti et al
9
demonstraram em seu estudo que a concordância intra e interobservador para classificações da porção distal do rádio foi maior em classificações com menor número de variáveis. Tal fato corrobora o presente estudo, no qual houve aumento da concordância quando usado menor número de variáveis.Os resultados deste estudo revelam uma diferença importante em comparação com os relatados do estudo de Bercik et al,
4
que demonstraram uma concordância muito boa interobservador e praticamente perfeita intraobservador. Essa diferença possivelmente se explica pelo uso de softwares especializados para a determinação do ângulo de versão da glenoide, e pelo uso de imagens com reconstrução tridimensional (3D) das tomografias nos estudos supracitados, que não foram usadas nas avaliações do presente estudo.O uso de imagens com reconstrução 3D parece melhorar o entendimento da morfologia da glenoide. A OA pode causar degeneração óssea nos planos sagital, coronal e também no axial, e, assim, apresentar-se como um defeito 3D de difícil visualização em imagens bidimensionais.Scalise et al
10
e Budge et al
11
fizeram estudos que usaram a tomografia com reconstrução 3D. Ambos demonstraram que houve melhor entendimento morfológico da glenoide e, assim, melhor concordância interobservador quando as imagens 3D foram oferecidas.É importante mencionar que o presente estudo se limitou a avaliar as opiniões dos observadores; não foi estabelecida uma resposta correta para cada exame de imagem avaliado. Portanto, não foi avaliada a acurácia de cada observador. Para tanto, seriam necessárias a avaliação das respostas de cada observador e a comparação com um método que fosse padrão-ouro (alta especificidade e sensibilidade) para o diagnóstico.
Conclusão
A concordância intraobservador da classificação de Walch modificada mostrou-se variável, entre moderada e pouca. Já a concordância interobservador mostrou-se baixa.
Authors: Judd S Day; Edmund Lau; Kevin L Ong; Gerald R Williams; Matthew L Ramsey; Steven M Kurtz Journal: J Shoulder Elbow Surg Date: 2010-06-15 Impact factor: 3.019
Authors: Matthew D Budge; Gregory S Lewis; Eric Schaefer; Stephanie Coquia; Donald J Flemming; April D Armstrong Journal: J Shoulder Elbow Surg Date: 2011-02-16 Impact factor: 3.019
Authors: Jason J Scalise; Michael J Codsi; Jason Bryan; John J Brems; Joseph P Iannotti Journal: J Bone Joint Surg Am Date: 2008-11 Impact factor: 5.284
Authors: João Carlos Belloti; Marcel Jun Sugawara Tamaoki; Carlos Eduardo da Silveira Franciozi; João Baptista Gomes dos Santos; Daniel Balbachevsky; Eduardo Chap Chap; Walter Manna Albertoni; Flávio Faloppa Journal: Sao Paulo Med J Date: 2008-05-01 Impact factor: 1.044
Authors: Fabio T Matsunaga; Marcel J S Tamaoki; Eduardo F Cordeiro; Anderson Uehara; Marcos H Ikawa; Marcelo H Matsumoto; João B G dos Santos; João C Belloti Journal: BMC Musculoskelet Disord Date: 2009-10-01 Impact factor: 2.362