Literature DB >> 32725055

Reliability of questionnaire The International Fitness Scale: a systematic review and meta-analysis.

Débora de Almeida Pereira¹, Jânio Luiz Correia Júnior², Nelson Carvas Junior³, Ricardo de Freitas-Dias¹.

Abstract

Objective To perform a systematic literature review and meta-analysis to investigate the reliability of The International Fitness Scale questionnaire for assessing overall physical fitness and related components. Methods PubMed®, BIREME, SciELO, EMBASE, SPORTDiscus, LILACS and Cochrane databases were searched using the following search terms: "The International Fitness Scale", "International Fitness Scale" and "IFIS". Article selection and data extraction were performed according to the following eligibility criteria: reliability and/or validity study of the measure tools of The International Fitness Scale; adoption of the The International Fitness Scale as a reference criterion (gold standard) and being an original article. Quality of the study was considered based on Assessment of Reliability Studies. Data analysis used Kappa coefficient of agreement, Cochran and the Higgins I2 test. Sensitivity analysis was conducted using the withdrawal model. Results A total of seven articles were included in the analysis. Test-retest reliability coefficients ranged from 0.40 to 0.99, with most studies achieving values ≥0.60, indicative of moderate to substantial reliability. Conclusion In spite of appropriate test-retest scores attributed to most reliability indicators, heterogeneity among the studies remained high. Therefore, further studies with low risk of bias are needed to support the reliability of the self-reported The International Fitness Scale.

Entities: Chemical Disease Gene Species

Mesh：

Year: 2020 PMID： 32725055 PMCID： PMC7394011 DOI： 10.31744/einstein_journal/2020rw5232

Source DB: PubMed Journal: Einstein (Sao Paulo) ISSN： 1679-4508

INTRODUCTION

Physical fitness is a predictor of health problems. Satisfactory fitness levels contribute to health problem prevention and functional capacity maintenance and improvement, and limit the development of chronic degenerative dysfunctions, leading to better quality of life.( Direct physical fitness measurement methods are considered gold standard. However, these methods have limitations, such as need for laboratories, high costs of equipment, need for a specialized team and difficult interpretation of findings.( Questionnaires are therefore an alternative for epidemiological studies, particularly in developing countries,( due to their user-friendly nature, low cost, reliability and reproducibility.( Multicenter research investigating adolescent lifestyle in Europa has led to the development of the International Fitness Scale (IFIS) self-reported questionnaire for assessing overall physical fitness and related components (cardiorespiratory fitness, muscle strength, speed/agility and flexibility).( This questionnaire was originally validated in the English language for adolescents aged 12 to 17 years,( then adapted and translated into nine languages (German, Austrian German, Greek, Flemish, French, Hungarian, Italian, Spanish and Swedish)( and validated for use in different populations (male and female children, youngsters and adults).( Results derived from IFIS revealed associations with risk factors for cardiovascular diseases and metabolic syndrome.( The IFIS has been employed in several international research studies. Still, instruments with accurate psychometric properties, capable of reproducing a given outcome consistently within time and space, or across different observers (reliability), are required for studies aimed to estimate physical fitness, identify associated risk factors, analyze relations with different outcomes, and assess effectiveness of training programs.( Given the significance of physical fitness measurement using reliable, user-friendly instruments, and the growing interest in this field, this study set out to conduct a systematic review and meta-analysis of the available literature, in order to determine whether IFIS is a reliable tool for assessing overall physical fitness and related components.

METHODS

Protocol and registration

This systematic review was conducted in compliance with Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) recommendations. The review protocol was registered in the International Prospective Register of Systematic Reviews (PROSPERO), under no. CRD42018117472.

Search strategy

Literature search included articles published up to September 2019 and listed in the following data bases: MEDLINE via PubMed®, BIREME, Scientific Electronic Library Online (SciELO), EMBASE, SPORTDiscu s , LILACS and Cochrane Central, regardless of type of study, population, language, participant age and sex, and publication date. Studies were searched using the following descriptors : “Physical Fitness” and “Self-report” (controlled) and “ The International Fitness Scale ”; “ International Fitness Scale ”; “IFIS” (non-controlled). Terms were combined using the Boolean operator (OR). The [TIAB] field code was used to limit exhibition to articles containing selected terms in the title and abstract ( Table 1 ).

Table 1

Search strategy

Data bases PubMed^®, BIREME, SciELO, EMBASE, SPORTDiscus, LILACS and Cochrane: The International Fitness Scale [TIAB] OR [TIAB] International Fitness Scale [TIAB] OR IFIS [TIAB]

EMBASE (interface does not allow use of the [TIAB] field code): The International Fitness Scale OR International Fitness Scale [TIAB] OR IFIS.

Study selection

An assessment form developed based on inclusion and exclusion criteria and calibrated prior to screening was used for study selection. Inclusion criteria were as follows: studies addressing reliability and/or validity of the IFIS measurement instrument; original research articles involving human beings; publication in journals indexed in the selected databases. Review articles were excluded. The Mendeley Reference Manager Software (https://www.mendeley.com/) was used to ensure independent selection and assessment across reviewers. Duplicate studies were excluded. Two blinded, independent reviewers selected studies in two steps: title and abstract screening and full text reading. In the first step, titles and abstracts were examined according to predefined eligibility criteria for identification of relevant studies. Studies selected by at least one reviewer were included in the subsequent step. These were then read in full and examined by reviewers based on eligibility criteria, using an evaluation form. Articles selected for full text reading were submitted to cross-reference search for identification of relevant studies that might not have come up in electronic search.

Data extraction

Data extraction was performed according to the Cochrane Handbook for Systematic Reviews of Interventions.( Data extracted from studies satisfying eligibility criteria were entered into an electronic Excel spreadsheet (Microsoft Excel software ; Microsoft Corporation, WA, USA). The following pieces of data were extracted: first author, title and year of publication; type of study; descriptive (overall sample size, sample size per sex, age group and country where the study was conducted, and sampling procedures) and reliability (Kappa values and 95%CI) data. Two independent raters extracted descriptive and outcome data from selected articles. The GRADE System was used to examine overall quality of evidence.( Unresolved discrepancies between raters were examined by a third rater. Prior to data extraction, raters received training in calibration to ensure inter-rater consistency and data extraction spreadsheet refinement.

Methodological quality assessment: risk of bias

Methodological quality of selected studies was assessed using the Quality Appraisal of Reliability Studies (QAREL). This instrument includes 11 items in the following domains: items 1 and 2 – sampling bias, participants and rater representativeness; items 3 to 7 – blinding of raters; item 8 – variations in order of examination; item 9 – appropriate time intervals between repeated measures; item 10 – correct test application and interpretation; item 11 – appropriate statistical analysis. Items may be answered with “yes”, “no”, “unclear” or “not applicable” (items 3, 4, 5, 6 and 8); “yes” and “no” suggest good and poor study quality, respectively.( Inconsistencies in this study were discussed among authors and a final decision reached by consensus, according to Cochrane Handbook for Systematic Reviews recommendations.( In the absence of consensus, a third author was consulted, reasons for article exclusion examined, and a decision made.

Data analysis

Reliability was tested using the Kappa coefficient of agreement; sample size was used for grouped Kappa calculation. The random effects model was chosen over the fixed effects model due to varying levels of physical fitness among individuals, which may have reflected the impacts of physical activity during childhood and adolescence on adult life.( Kappa coefficients of agreement were interpreted as follows: none <0.00; slight, 0.00 to 0.20; fair, 0.21 to 0.40; moderate, 0.41 to 0.60; substantial, 0.61 to 0.80; almost perfect, 0.81 to 1.00.( Statistical heterogeneity was investigated using the Cochran Q test (level of significance, p<0.10). Statistical inconsistency was investigated using the Higgins I2test,( as follows: ≤40%, low heterogeneity; 30% to 60%, moderate heterogeneity; >50% to 90%, substantial heterogeneity; and >75% to 100%, considerable heterogeneity.( Whenever I2 >50% and tau squared (𝛕2) >1, in the presence of statistical significance (p<0.10), heterogeneity was rated significant and reasons investigated. Statistical analyses were performed using software (R package meta; R 3.5.1).

Sensitivity analysis

Subgroup analysis was conducted to explain study heterogeneity. Effects were divided by study population and sampling bias, then meta-regression calculation performed.

RESULTS

A total of 1,999 articles were found in the selected databases. Of these, 871 (duplicates) were excluded. Title/abstract screening and full text reading included 1,128 and 23 articles respectively, with 99.2% agreement between raters. Seven of these articles satisfied eligibility criteria and were included in the quantitative narrative analysis of this meta-analysis ( Figure 1 ).

Figure 1

Study selection flowchart

IFIS: The International Fitness Scale.

Study selection flowchart

IFIS: The International Fitness Scale.

Study characteristics

Narrative and quantitative summary in this meta-analysis comprised seven studies.( Selected articles were published between 2011 and 2019. Sample size ranged from 89 to 413. Overall, five studies( included participants of both sexes; male sex prevailed in three studies,( one study was based exclusively on women( and one study did not describe sex distribution of the sample.( The recruitment process consisted primarily of random sampling,( with two studies involving convenience sampling.( Mean participant age varied widely among studies, ranging from 3 to 65 years. This sample included five observational test-retest reliability studies,( one cluster randomized trial,( and one cross-sectional study( ( Table 2 ).

Table 2

Summary and characteristics of findings of studies investigating reliability of The International Fitness Scale instrument for physical fitness assessment

Author	Type of study	Sample size	Characteristics of participants	Interval between applications	IFIS Application
Ortega et al.⁽²⁾	Observational, test-retest reliability study	n=277	Sex: female (51%) and male (49%). Age group: 12.5 to 17.5 years. Countries: Grece, Germany, Belgium, France, Hungary, Austria, Italy, Sweden and Spain. Health status: free from acute infection of any kind or long standing disease <1 week prior to inclusion in the study	2 weeks	Not reported
Ramírez-Velez et al.⁽³⁾	Observational, test-retest reliability study	n=229	Sex: female (45.85%) and male (54.15%). Age group: 9 to 17.9 years. Country: Colombia. Health status: no clinical diagnosis of cardiovascular disease and/or type 1 or 2 diabetes mellitus , not pregnant, no consumption of alchool or other drugs	1 week	Not reported
Ortega et al.⁽⁶⁾	Observational, test-retest reliability study	n=181	Sex: female (73.48%) and male (27.52%). Age group: 18 to 43 years. Country: Spain	2 weeks	Not reported
Álvarez-Gallardo et al.⁽⁷⁾	Cross-sectional study	n=413	Sex: female. Age group: 37 to 65 years. Country: Spain. Health status: affected with fibromyalgia	1 week	Not reported
Sánchez-López et al.⁽⁸⁾	Cluster randomized trial	n=245	Sex: female (54%) and male (46%). Age group: 9 to 12 years. Country: Spain	2 weeks	Not reported
Olivares et al.⁽¹⁶⁾	Observational, test-retest study	n=89	Sex: female (37.8%) and male (62.2%). Age group: 12 to 18 years. Country: Chile	2 weeks	During physical education class Examiners graduated in Education in Physical Education and previously trained
De Moraes et al.⁽¹⁷⁾	Observational, test-retest reliability study	n=190 children and n=110 adolescents	Sex distribution of adolescent participants not reported by authors. Children aged 3 to 10 years (mean 6.7±2.1 years) and adolescents aged 11 to 17 years (14.6±1.8 years). Country: Brazil	15 days	Data collected over the course of 5 visits: (1) Project explanation and ICF handed out to parents; (2) Handing out of self-report questionnaire; (3) collection of filled out questionnaire; (4) second application; (5) collection of filled out questionnaire

IFIS: International Fitness Scale; ICF: Informed Consent Form.

IFIS: International Fitness Scale; ICF: Informed Consent Form. Studies in this sample reported test-retest reliability estimates based on Kappa agreement coefficients. Time intervals between examinations ranged from 1 to 2 weeks, with 2-week intervals used in most studies( and 1-week intervals limited to two studies.(

Risk of bias

Inter-rater agreement regarding risk of bias was 94.8% (4 inconsistencies across 77 items examined). Overall, study participants( were representative of those to whom the authors intended the results to be applied (QAREL item Q2) and intervals between repeated measurements of the target variable (QAREL item Q9) were reported. As regards primary sources of bias, blinding of raters to findings of other raters or to their own previous findings, to results of the reference standard accepted for the target variable, to clinical information, to additional cues and to order of examination was not reported in any of the studies. In two studies,( tests were conducted by raters who were representative of those to whom the authors intended the results to be applied. Finally, correct test application and appropriate interpretation, as well as appropriate statistical analysis, were performed in studies in this sample ( Table 3 ).

Table 3

Methodological quality assessment according to Quality Assessment of Reliability Studies checklist

Study	Q1	Q2	Q3	Q4	Q5	Q6	Q7	Q8	Q9	Q10	Q11
Ortega et al.⁽²⁾	Y	Y	NC	NC	NC	NC	NC	NC	Y	Y	Y
Ramírez-Vélez et al.⁽³⁾	Y	NC	NC	NC	NC	NC	NC	NC	Y	Y	Y
Ortega et al.⁽⁶⁾	Y	NC	NC	NC	NC	NC	NC	NC	Y	Y	Y
Álvarez-Gallardo et al.⁽⁷⁾	Y	NC	NC	NC	NC	NC	NC	NC	Y	Y	Y
Sánchez-López et al.⁽⁸⁾	Y	Y	NC	NC	NC	NC	NC	NC	Y	Y	Y
Olivares et al.⁽¹⁶⁾	Y	NC	NC	NC	NC	NC	NC	NC	Y	Y	Y
De Moraes et al.⁽¹⁷	Y	NC	NC	NC	NC	NC	NC	NC	Y	Y	Y

Q1: Was the test evaluated in a sample of subjects who were representative of those to whom the authors intended the results to be applied?; Q2: Was the test performed in a sample of subjects who were representative of those to whom the authors intended the results to be applied?; Q3: Were raters blinded to the findings of other raters during the study?; Q4: Were raters blinded to their own prior findings of the test under evaluation?; Q5: Were raters blinded to the results of the reference standard for the target variable being evaluated?; Q6: Were raters blinded to clinical information that was not intended to be provided as part of the testing procedure or study design?; Q7: Were raters blinded to additional cues that were not part of the test?; Q8: Was the order of examination varied?; Q9: Was the time interval between repeated measurements compatible with the stability (or theoretical stability) of the variable being measured?; Q10: Was the test applied correctly and interpreted appropriately?; Q11: Were appropriate statistical measures used?; Y: yes; NC: not clear.

Summary of reliability findings

According to Kappa coefficients, overall test-retest reliability ranged from 0.73 to 0.81 (substantial to almost perfect agreement). When all items assessed in selected studies were accounted for, reliability ranged from 0.40 to 0.99 (fair to almost perfect), with more than 50% (26 out of 40 items) achieving values ≥0.60 or moderate to substantial level of reliability - and 30% (12 out of 40 items) achieving almost perfect reliability as per Landis et al.( Kappa coefficients attributed to IFIS domains in selected studies were as follows: overall physical fitness - moderate, substantial and almost perfect agreement in two, four and two articles, respectively; cardiorespiratory fitness - moderate, substantial and almost perfect agreement in three articles, respectively; muscle strength - moderate, substantial, fair and almost perfect agreement in three, two, one and two articles, respectively; speed/agility - moderate, substantial and almost perfect agreement in four, one and three articles, respectively; flexibility – substantial, moderate and almost perfect agreement in three, three and two articles, respectively ( Figure 2 ).

Figure 2

Comparative test-retest reliability of International Fitness Scale items among studies

95%CI: 95% confidence interval.

Comparative test-retest reliability of International Fitness Scale items among studies

95%CI: 95% confidence interval. Lower Kappa coefficients attributed to the adult population compared to other subgroups in all domains suggest moderate agreement in that population ( Table 4 ). Risk of sampling bias across studies may significantly affect agreement in overall fitness (p<0.001), cardiorespiratory fitness (p<0.001), muscle strength (p=0.022) and flexibility (p<0.001) IFIS domains ( Table 5 ).

Table 4

Subgroup analysis

Population	Children (k=1)	Adolescents (k=2)	Adults (k=5)	Test for subgroup differences
IFIS Domains	Kappa (95%CI)	Kappa (95%CI)	Kappa (95%CI)	p value
Overall fitness	0.90 (0.98-0.99)	0.76 (0.60-0.85)	0.55 (0.33-0.72)	<0.001
I²	-	95.0%	90.5%
Cardiorespiratory fitness	0.98 (0.97-0.98)	0.80 (0.59-0.91)	0.51 (0.39-0.62)	<0.001
I²	-	97.7%	70.5%
Muscle strength	0.95 (0.93-0.96)	0.73 (0.53-0.85)	0.46 (0.32-0.59)	<0.001
I²	-	96.2%	75.3%
Speed/agility	0.98 (0.97-0.98)	0.76 (0.62-0.86)	0.53 (0.38-0.65)	<0.001
I²	-	94.5%	79.0%
Flexibility	0.93 (0.91-0.95)	0.73 (0.57-0.83)	0.62 (0.57-0.67)	<0.001
I²	-	94.3%	0.0%

IFIS: International Fitness Scale; 95%CI: 95% confidence interval.

Table 5

Subgroup analysis

Risk of bias Q2_QAREL	Yes (k=2)	No (k=2)	Not clear (k=4)	Test for subgroup differences
IFIS domains	Kappa (95%CI)	Kappa (95%CI)	Kappa (95%CI)	p value
Overall physical fitness	0.67 (0.62-0.72)	0.97 (0.83-0.99)	0.63 (0.41-0.77)	<0.001
I²	8.1%	98.5%	94.8%
Cardiorespiratory fitness	0.63 (0.52-0.72)	0.98 (0.96-0.98)	0.66 (0.43-0.81)	<0.001
I²	72.0%	65.1%	95.8%
Muscle strength	0.62 (0.45-0.75)	0.94 (0.92-0.96)	0.56 (0.32-0.74)	0.022
I²	86.9%	51.1%	94.9%
Speed/agility	0.71 (0.46-0.86)	0.95 (0.73-0.99)	0.64 (0.37-0.81)	0.097
I²	95.3%	98.3%	96.5%
Flexibility	0.61 (0.56-0.66)	0.92 (0.88-0.94)	0.66 (0.52-0.76)	<0.001
I²	0.0%	57.6%	89.3%

IFIS: The International Fitness Scale; Q2_QAREL: Quality Assessment of Reliability Studies checklist; 95%CI: 95% confidence interval.

IFIS: International Fitness Scale; 95%CI: 95% confidence interval. IFIS: The International Fitness Scale; Q2_QAREL: Quality Assessment of Reliability Studies checklist; 95%CI: 95% confidence interval. More strict studies regarding risk of bias assessment as per Q2 had lower Kappa coefficients compared to other subgroups. As regards heterogeneity, meta-regression revealed that both subgroups (population and risk of bias as per Q2_QAREL) explained 85.99% of overall heterogeneity among studies (Tables 4 and 5). Summarized findings and GRADE quality classifications are presented in table 6 .

Table 6

Summarized findings

IFIS compared to test-retest for physical fitness measurement
Population: children, adolescents, adults and women with fibromyalgia
Context: IFIS application to measure physical fitness
Intervention: IFIS
Comparison: test-retest

Outcomes	Potential absolute effects* (95%CI)		Relative effect (95%CI)	Number of participants (studies)	Certainty of evidence (GRADE)	Comments

	Reliability with test-retest	Reliability with IFIS

Physical fitness as per IFIS Follow-up: 1 week to 2 weeks	-	Kappa 0.8 (0.56-0.92)	-	1,734 (7 observational studies)	⨁ ◯ ◯ ◯Very low^*	-
Cardiorespiratory fitness as per IFIS Follow-up: 1 week to 2 weeks	-	Kappa 0.81 (0.59-0.92)	-	1,734 (7 observational studies)	⨁ ◯ ◯ ◯ Very low^*	-
Muscle strength as per IFIS Follow-up: 1 week to 2 weeks	-	Kappa 0.73 (0.53-0.86)	-	1,734 (7 observational studies)	⨁ ◯ ◯ ◯ Very low^*	-
Speed/agility as per IFIS Follow-up: 1 week to 2 weeks	-	Kappa: 0.79 (0.57-0.9)	-	1,734 (7 observational studies)	⨁ ◯ ◯ ◯ Very low^*	-
Flexibility as per IFIS Follow-up: 1 week to 2 weeks	-	Kappa 0.74 (0.61-0.84)	-	1,734 (7 observational studies)	⨁ ◯ ◯ ◯ Very low^*	-

* Reduction of two levels of evidence for reliability due to the unexplained substantial heterogeneity, and reduction of level of evidence for reliability due to the indirect evidence. A difference was observed in population profile in the studies.

IFIS: International Fitness Scale; 95%CI: 95% confidence interval.

⨁ Very low; ⨁⨁ Moderate; ⨁⨁⨁ High and ⨁⨁⨁⨁ Very high.

Physical fitness as per IFIS Follow-up: 1 week to 2 weeks Cardiorespiratory fitness as per IFIS Follow-up: 1 week to 2 weeks Muscle strength as per IFIS Follow-up: 1 week to 2 weeks Speed/agility as per IFIS Follow-up: 1 week to 2 weeks Flexibility as per IFIS Follow-up: 1 week to 2 weeks * Reduction of two levels of evidence for reliability due to the unexplained substantial heterogeneity, and reduction of level of evidence for reliability due to the indirect evidence. A difference was observed in population profile in the studies. IFIS: International Fitness Scale; 95%CI: 95% confidence interval. ⨁ Very low; ⨁⨁ Moderate; ⨁⨁⨁ High and ⨁⨁⨁⨁ Very high.

DISCUSSION

Global organizations, such as the World Health Organization (WHO) and the American College of Sports Medicine (ACSM) currently recommend regular practice of moderate to vigorous physical activity for 150 minutes per week for overall physical fitness improvement.( A retrospective cohort study following up on 122,007 patients revealed that cardiorespiratory fitness is inversely associated with long term mortality.( Combined with findings of that study, a meta-analysis involving 2,525,827 adults revealed progressive decline in health parameters and increased obesity and related comorbidity rates as cardiorespiratory fitness decreases.( Physical fitness is a health problem predictor and a modifiable indicator. It should therefore be assessed via gold-standard tests, such as cardiorespiratory fitness (ergospirometry),( muscle strength (isokinetic test),( speed/agility (20/40 m sprint test using photocell systems)( and flexibility (inclinometer, goniometer, Leighton flexometer, fleximeter and imaging methods, like radiography and photogrammetry).( However, application of aforementioned tests in scarce financial resource settings, or when specialized personnel is lacking, is not feasible and may preclude large scale studies.( Hence the interest in alternative, user-friendly, low-cost tool development by public health organizations and researchers working in developing countries. This is the first systematic review and meta-analysis investigating IFIS reliability – or consistency over time – based on test-retest, which is a significant aspect of any assessment tool. Low test-retest reliability tools are not able to detect true score changes over time.( Overall, findings of this study revealed that test-retest reliability of IFIS domains determined using Kappa coefficients of agreement is valid for assessing overall physical fitness and related components (cardiorespiratory fitness, muscle strength, speed/agility and flexibility), given the low variability in reliability measures and moderate to substantial scores attributed to most domains. In this study, steps were controlled via a systematic approach and strict protocol. Comprehensive search with no restrictions regarding study type, population, language, age, sex and date of publication was also conducted. Besides other advantages of questionnaires, IFIS has significant clinical applicability, once findings are associated with directly measured cardiorespiratory fitness and risk factors for cardiovascular disease, such as adiposity and metabolic syndrome, in different populations.( Physical fitness assessment is also a critical indicator for ideal, personalized prescription of physical exercise.( In spite of acceptable Kappa coefficient values, results of this meta-analysis involve potential risk of bias and overestimation. This heterogeneity was in part attributed to test-retest reliability dispersion across different populations. Some authors reported high test-retest reliability among measures in children, whereas others reported medium and low values in adolescents and adults, respectively. Low methodological quality (QAREL items Q4-Q7) may also have compromised reliability, as selected studies in this sample failed to satisfy these criteria.( Also, the IFIS version used by De Moraes et al.,( has not been validated for the Brazilian population. High heterogeneity among items detected in sensitivity analysis indicates that health status, age group, blinding of raters, test-retest time intervals, questionnaire application instructions and understanding by volunteers( may impact study findings. Therefore, interpretation and generalization of findings reported here must be done with caution, since this meta-analysis excluded grey literature and the few studies investigating IFIS reliability were of low methodological quality and involved high statistical heterogeneity according to grouped Kappa coefficients. Finally, the fact that IFIS is available in nine languages must be emphasized. Should it be applied without previous adaptation and testing in samples with different characteristics from those accounted for in instrument construction and testing, cultural bias may occur. In order not to compromise findings of future Brazilian studies, application of the Portuguese version of IFIS and reference to Guidelines for Reporting Reliability and Agreement Studies (GRRAS)( and QAREL checklist( are recommended.

CONCLUSION

Documentary corpus in this meta-analysis revealed high heterogeneity among studies, in spite of almost perfect agreement in 30% of items and appropriate item test-retest scores in most cases, which suggests moderate to substantial reliability according to Kappa coefficients. Hence, further studies with low risk of bias and investigating instrument reliability and health status in different populations are needed to support the reliability of the self-reported International Fitness Scale questionnaire as an alternative tool for large scale physical fitness assessment or follow-up and an alternative ancillary test.

INTRODUÇÃO

A aptidão física é um dos preditores dos problemas de saúde e, quando em níveis satisfatórios, favorece a prevenção, a manutenção e a melhoria da capacidade funcional, além de reduzir o desenvolvimento de disfunções crônico-degenerativas, aumentando a qualidade de vida do indivíduo.( Métodos de mensuração direta da aptidão física considerados padrão-ouro apresentam limitações, devido à necessidade de laboratórios, ao elevado custo de equipamentos, à equipe especializada e à difícil interpretação dos resultados.( Entretanto, os questionários são alternativas para estudos epidemiológicos, principalmente em países em desenvolvimento,( devido à facilidade de aplicação, ao baixo custo, à fidedignidade e à reprodutibilidade.( Pesquisas multicêntricas relacionadas ao estilo de vida de adolescentes na Europa, desenvolveram o questionário The International Fitness Scale (IFIS) para avaliação autorrelatada da aptidão física geral e de seus componentes (capacidade cardiorrespiratória, força muscular, velocidade/agilidade e flexibilidade).( Ele foi originalmente validado no idioma inglês, para adolescentes de 12 a 17 anos.( Posteriormente, foi adaptado e traduzido para nove idiomas (alemão, alemão austríaco, grego, flamengo, francês, húngaro, italiano, espanhol e sueco)( e validado em diferentes populações (crianças, jovens e adultos de ambos os sexos).( Seus resultados apresentaram associação com fatores de risco de doenças cardiovasculares e síndrome metabólica.( Apesar do IFIS ser utilizado em várias pesquisas internacionais, estudos que buscam estimar a aptidão física, identificar fatores de risco associados, analisar sua relação com diferentes desfechos e avaliar a efetividade de programas de treinamento necessitam que seus instrumentos apresentem propriedades psicométricas acuradas, capazes de reproduzir determinado resultado de forma consistente no tempo e no espaço, ou a partir de observadores diferentes (confiabilidade).( Considerando a importância de mensurar a aptidão física e o interesse crescente nesta área, utilizando instrumentos de boa confiabilidade e fácil aplicação, optou-se realizar uma revisão sistemática e metanálise da literatura, para verificar se o IFIS é uma ferramenta que apresenta boa confiabilidade para avaliar a aptidão física geral e seus componentes.

MÉTODOS

Protocolo e registro

Esta revisão sistemática seguiu as recomendações dos Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA), e o protocolo de revisão foi registrado no International Prospective Register of Systematic Reviews (PROSPERO) sob o número CRD42018117472.

Estratégia de busca

A busca bibliográfica foi realizada até o mês de setembro de 2019 nas bases de dados MEDLINE via PubMed®, BIREME, Scientific Electronic Library Online (SciELO), EMBASE, SPORTDiscu s , LILACS e Cochrane Central, sem restrição de tipo de estudo, população, idioma, idade e sexo do participante, e data de publicação. Para identificação dos estudos, foram realizadas buscas utilizando descritores controlados “Physical Fitness” e “Self-report”, e não controlados : “ The International Fitness Scale ”; “ International Fitness Scale ”; “IFIS”. Para combinar os termos, utilizou-se o operador booleano ( OR ) e, para exibir somente artigos que tinham os termos no título e resumo, utilizou-se a chave [TIAB] ( Tabela 1 ).

Tabela 1

Estratégia de busca

Nas bases de dados PubMed^®, BIREME, SciELO, EMBASE, SPORTDiscus, LILACS e Cochrane: The International Fitness Scale [TIAB] OR [TIAB] International Fitness Scale [TIAB] OR IFIS [TIAB]

Na EMBASE, como não é permitido utilizar a chave [TIAB]: The International Fitness Scale OR International Fitness Scale [TIAB] OR IFIS.

Seleção de estudos

Para a seleção dos estudos, foi desenvolvido um formulário de avaliação, com base nos critérios de inclusão e exclusão, sendo realizada sua calibração antes da triagem. Os critérios de inclusão foram ser estudo de confiabilidade e/ou validade do instrumento de medida do IFIS; ser artigo original de pesquisa desenvolvida com seres humanos; e ter sido publicado em periódico indexado nas bases utilizadas. Foram excluídos artigos de revisão. Para garantir a seleção e a avaliação independente entre os revisores, foi utilizado o Mendeley Reference Manager Software (https://www.mendeley.com/). Após a exclusão dos estudos duplicados, dois revisores, de forma cega e independente, realizaram a seleção dos estudos em duas etapas: triagem de títulos e resumos, e leitura na íntegra. Na primeira etapa, todos os títulos e resumos encontrados foram avaliados, a partir dos critérios de elegibilidade predefinidos para identificação de estudos relevantes. Caso pelo menos um dos avaliadores incluísse um estudo durante esta etapa, o mesmo era incluído na etapa subsequente. De posse dos artigos selecionados, seguiu-se à leitura completa dos textos, sendo utilizado, pelos avaliadores, um formulário de avaliação, com base nos critérios de elegibilidade. Objetivando identificar algum estudo relevante que não tinha sido encontrado na busca eletrônica, efetuou-se a busca cruzada, a partir da análise das referências dos artigos selecionados para a leitura na íntegra.

Extração dos dados

A extração de dados foi conduzida de acordo com a orientação do Manual Cochrane de Revisões Sistemáticas de Intervenções.( Para todos os estudos que atendiam aos critérios de elegibilidade, foram tabuladas em uma planilha eletrônica do software Microsoft Excel (Microsoft Corporation, WA, EUA) as seguintes informações: primeiro autor do estudo, título e ano de publicação; tipo de estudo; dados descritivos (número da amostra total e por sexo, faixa etária, país onde foi realizado o estudo, procedimento de seleção da amostra) e dados de confiabilidade (valores Kappa e IC95%). Dois avaliadores extraíram, de forma independente, os dados descritivos e o desfecho de cada artigo incluído. Para avaliar a qualidade geral da evidência, utilizou-se o Sistema GRADE.( Todas as discrepâncias que não puderam ser resolvidas por consenso entre os dois avaliadores foram julgadas por um terceiro avaliador. Antes do processo de extração, os avaliadores passaram por um treinamento de calibração, para garantir a consistência entre os revisores e o refinamento da planilha de extração dos dados.

Avaliação da qualidade metodológica dos estudos: risco de viés

A qualidade dos estudos incluídos foi avaliada pela ferramenta Quality Appraisal of Reliability Studies (QAREL), que contém 11 itens divididos nos seguintes domínios: itens 1 e 2 levam em consideração o viés de amostragem, os participantes e a representatividade do avaliador; itens 3 a 7 incluem o cegamento do avaliador; o item 8 pergunta se a sequência do teste variou; o item 9 leva em conta se o intervalo de tempo entre as medidas foi suficiente; o item 10 analisa se o teste foi realizado e interpretado corretamente; e o item 11 leva em consideração a adequação das análises estatísticas. Cada item pode ser respondido com “sim”, “não”, “impreciso” e “não aplicável” (itens 3, 4, 5, 6 e 8), sendo uma resposta “sim” sugestiva de um recurso de boa qualidade do estudo, e uma resposta “não” de um recurso de má qualidade.( Quando ocorreu discordância em qualquer etapa deste trabalho, os autores discutiram suas razões, e a decisão final foi feita por consenso, conforme recomendações do Handbook para revisões sistemáticas da colaboração Cochrane.( Na ausência de consenso, a arbitragem de um terceiro autor era solicitada, sendo julgadas e resolvidas as razões para a exclusão dos artigos.

Análise dos dados

Para a confiabilidade, utilizou-se o coeficiente de concordância de Kappa, e o tamanho amostral foi usado para calcular o Kappa agrupado. O modelo de efeitos aleatórios foi escolhido sobre o de efeito fixo, devido à variação do nível de aptidão física entre os indivíduos, podendo ser explicada pelo nível de atividade física durante a infância e a adolescência, o qual influencia na vida adulta.( Para interpretação dos coeficientes de concordância de Kappa, foram utilizadas as seguintes categorias: nenhum <0,00; leve, de 0,00 a 0,20; pequena, de 0,21 a 0,40; moderada, de 0,41 a 0,60; substancial, de 0,61 a 0,80; e quase perfeita, de 0,81 a 1,00.( A heterogeneidade estatística foi avaliada por meio do teste Cochran Q (adotando o nível de significância p<0,10), e a inconsistência foi avaliada pelo I2de Higgins,( com valores de ≤40% indicando baixa heterogeneidade; 30% a 60%, heterogeneidade moderada; >50% a 90%, heterogeneidade substancial; e >75% a 100%, heterogeneidade considerável.( Quando I2>50% e tau squared (𝛕2) >1, acompanhado pela significância estatística (p<0,10), considerou-se que havia heterogeneidade significativa, e a razão disso foi investigada. Todas as análises foram realizadas no software estatístico programa R versão 3.5.1 utilizando o pacote meta.

Análise de sensibilidade

Para explicar a heterogeneidade dos estudos, realizou-se a análise de subgrupos, dividindo os efeitos pela população estudada e pelo risco de viés da representação da amostra, seguido do cálculo da metaregressão.

RESULTADOS

Foram encontrados 1.999 artigos nas bases de dados, dos quais 871 foram eliminados por estarem duplicados. Para a triagem do título/resumo, foram analisados 1.128 artigos e, para texto completo, 23 artigos, obtendo 99,2% de concordância entre os avaliadores. Dentre eles, sete artigos científicos foram incluídos na análise quantitativa e narrativa desta metanálise, por terem analisado e apresentado os dados de confiabilidade ( Figura 1 ).

Figura 1

Fluxograma da seleção dos estudos

IFIS: The International Fitness Scale .

Fluxograma da seleção dos estudos

IFIS: The International Fitness Scale .

Características do estudo

Para a síntese narrativa e quantitativa desta metanálise, foram incluídos sete estudos.( O período de publicação desses artigos selecionados variou entre 2011 e 2019, e o tamanho amostral entre 89 e 413. No geral, cinco estudos( incluíram participantes de ambos os sexos, sendo o sexo masculino predominante em três estudos,( um estudo utilizou amostra exclusiva de mulheres( e um estudo que não informou a distribuição do sexo da amostra.( O processo de recrutamento das amostras foi principalmente por amostragem aleatória,( e dois deles realizaram amostragem por conveniência.( Relativo à idade dos participantes, foi verificada grande heterogeneidade entre os estudos, no qual sua média variou de 3 a 65 anos. Quanto ao tipo do estudo, cinco eram observacionais do tipo confiabilidade teste-reteste,( um ensaio randomizado em cluster, ( e um estudo transversal( ( Tabela 2 ).

Tabela 2

Síntese e características dos resultados dos estudos de confiabilidade do instrumento The International Fitness Scale para a medida da aptidão física

Autor	Tipo de estudo	Tamanho amostral	Características dos participantes	Intervalo entre as aplicações	Aplicação do IFIS
Ortega et al.⁽²⁾	Observacional do tipo confiabilidade teste-reteste	n=277	Sexo: feminino (51%) e masculino (49%). Faixa etária: 12,5 a 17,5 anos. Países: Grécia, Alemanha, Bélgica, França, Hungria, Áustria, Itália, Suécia e Espanha. Condição de saúde: livre de qualquer infecção aguda ou doença duradoura <1 semana antes da inclusão no estudo	2 semanas	Não relatou
Ramírez-Velez et al.⁽³⁾	Observacional do tipo confiabilidade teste-reteste	n=229	Sexo: feminino (45,85%) e masculino (54,15%). Faixa etária: 9 a 17,9 anos. País: Colômbia. Condição de saúde: não possuir diagnóstico clínico de doença cardiovascular e/ou diabetes mellitus tipos 1 ou 2, não estar grávida, e consumir álcool ou outras drogas	1 semana	Não relatou
Ortega et al.⁽⁶⁾	Observacional do tipo confiabilidade teste-reteste	n=181	Sexo: feminino (73,48%) e masculino (27,52%). Faixa etária: 18 a 43 anos. País: Espanha	2 semanas	Não relatou
Álvarez-Gallardo et al.⁽⁷⁾	Estudo transversal	n=413	Sexo: feminino. Faixa etária: 37 a 65 anos. País: Espanha. Condição de saúde: portadoras de fibromialgia	1 semana	Não relatou
Sánchez-López et al.⁽⁸⁾	Ensaio randomizado em cluster	n=245	Sexo: feminino (54%) e masculino (46%). Faixa etária: 9 a 12 anos. País: Espanha	2 semanas	Não relatou
Olivares et al.⁽¹⁶⁾	Observacional do tipo teste-reteste	n=89	Sexo: feminino (37,8%) e masculino (62,2%). Faixa etária: 12 a 18 anos. País: Chile	2 semanas	Realizado durante a aula de educação física Os aplicadores eram licenciados em Pedagogia em Educação Física Os aplicadores foram treinados previamente
De Moraes et al.⁽¹⁷⁾	Observacional do tipo confiabilidade teste-reteste	n=190 crianças e n=110 adolescentes	A distribuição do sexo dos adolescentes participantes não foi informada pelos autores. Crianças com faixa etária de 3 a 10 anos (média 6,7±2,1 anos) e adolescentes com faixa etária de 11 a 17 anos (14,6±1,8 anos). País: Brasil	15 dias	A coleta dos dados foi realizada em 5 visitas: (1) Explicação do projeto e entrega do TCLE aos pais; (2) Entrega do questionário para autorrelato; (3) coleta do questionário preenchido; (4) segunda aplicação; (5) coleta do questionário preenchido

IFIS: International Fitness Scale ; TCLE: Termo de Consentimento Livre Esclarescido.

IFIS: International Fitness Scale ; TCLE: Termo de Consentimento Livre Esclarescido. Os resultados dos estudos apresentaram medidas de confiabilidade mediante o procedimento teste-reteste, estimado pelo coeficiente de concordância de Kappa. O intervalo de tempo entre as aplicações variou de 1 a 2 semanas, sendo 2 semanas o período mais utilizado,( porém, dois estudos utilizaram 1 semana de intervalo.(

Risco de viés

A concordância entre os dois avaliadores quanto ao risco de viés foi de 94,8% (4 discordâncias em 77 itens avaliados). No geral, todos os estudos( incluíram participantes representativos da população, no qual os autores consideravam que os resultados fossem aplicados (item Q2 do QAREL) e também informaram o intervalo de medida da variável avaliada (item Q9 do QAREL). Relativo às fontes primárias de viés, nenhum estudo relatou o cegamento dos avaliadores para as conclusões de outros avaliadores, para suas próprias descobertas anteriores do teste em avaliação, para os resultados do padrão de referência aceito para a variável avaliada, para informações clínicas, para outras avaliações de avaliadores e ordem da avaliação. Dois estudos( realizaram o teste com avaliadores representativos daqueles a quem os autores pretendiam que os resultados fossem aplicados. Por fim, todos os estudos analisados, aplicaram e interpretaram corretamente o teste, bem como realizaram a análise estatística correta ( Tabela 3 ).

Tabela 3

Avaliação da qualidade metodológica utilizando o Quality Assessment of Reliability Studies checklist

Estudo	Q1	Q2	Q3	Q4	Q5	Q6	Q7	Q8	Q9	Q10	Q11
Ortega et al.⁽²⁾	S	S	NC	NC	NC	NC	NC	NC	S	S	S
Ramírez-Vélez et al.⁽³⁾	S	NC	NC	NC	NC	NC	NC	NC	S	S	S
Ortega et al.⁽⁶⁾	S	NC	NC	NC	NC	NC	NC	NC	S	S	S
Álvarez-Gallardo et al.⁽⁷⁾	S	NC	NC	NC	NC	NC	NC	NC	S	S	S
Sánchez-López et al.⁽⁸⁾	S	S	NC	NC	NC	NC	NC	NC	S	S	S
Olivares et al.⁽¹⁶⁾	S	NC	NC	NC	NC	NC	NC	NC	S	S	S
De Moraes et al.⁽¹⁷	S	NC	NC	NC	NC	NC	NC	NC	S	S	S

Q1: O teste foi avaliado em uma amostra de sujeitos que foram representativos daqueles a quem os autores pretendiam que os resultados fossem aplicados?; Q2: O teste foi realizado em amostras representativas daqueles a que os autores pretendiam que os resultados fossem aplicados?; Q3: Os avaliadores foram cegados para as conclusões de outros avaliadores durante o estudo?; Q4: Os avaliadores foram cegados para suas próprias descobertas anteriores do teste em avaliação?; Q5: Os avaliadores foram cegados para os resultados do padrão de referência aceito para a variável que está sendo avaliada?; Q6: Os avaliadores foram cegados para informações clínicas que não se destinavam fazer parte do procedimento de teste ou desenho do estudo?; Q7: Os avaliadores foram cegados para sugestões adicionais que não fazem parte do teste?; Q8: A ordem do exame foi variada?; Q9: O intervalo de tempo entre as medidas repetidas foi compatível com a estabilidade (ou estabilidade teórica) da variável que está sendo medida?; Q10: O teste foi aplicado corretamente e interpretado adequadamente?; Q11: Foram utilizadas medidas estatísticas apropriadas?; S: sim; NC: não claro.

Síntese dos resultados de confiabilidade

No geral, o coeficiente total de confiabilidade teste-reteste a partir do Kappa variou de 0,73 a 0,81, representando nível de substancial a quase perfeito. De acordo com todos os itens dos estudos, houve variação de 0,40 a 0,99 (pequeno a quase perfeito), sendo mais de 50% (26 de 40 itens) com valores ≥0,60, que é considerado de moderado a substancial nível de confiabilidade, e 30% (12 de 40 itens) representados por nível quase perfeito, segundo os parâmetros descritos por Landis et al.( Referente ao coeficiente de concordância de Kappa dos domínios avaliados pelo IFIS, dos artigos analisados, dois apresentaram nível moderado, quatro substancial e dois quase perfeito para a aptidão física geral; três apresentaram nível moderado, dois substancial e três quase perfeito para capacidade cardiorrespiratória; três apresentaram nível moderado, dois substancial, um pequeno e dois quase perfeito para força muscular; quatro apresentaram nível moderado, um substancial e três quase perfeito para velocidade/agilidade; e três apresentaram nível substancial, três moderado e dois quase perfeito para flexibilidade ( Figura 2 ).

Figura 2

Comparação da confiabilidade teste-reteste dos itens do The International Fitness Scale entre os estudos

IC95%: intervalo de confiança 95%.

Comparação da confiabilidade teste-reteste dos itens do The International Fitness Scale entre os estudos

IC95%: intervalo de confiança 95%. Pode-se observar que a população adulta apresenta valores de coeficiente de concordância de Kappa mais baixos que os outros subgrupos em todos os domínios, sugerindo concordância moderada para esta população ( Tabela 4 ). O risco de viés na representatividade da amostra entre os estudos pode afetar significativamente a concordância do IFIS nos domínios aptidão geral (p<0,001), capacidade cardiorrespiratória (p<0,001), força muscular (p=0,022) e flexibilidade (p<0,001) ( Tabela 5 ).

Tabela 4

Análise de subgrupos

População	Crianças (k=1)	Adolescentes (k=2)	Adultos (k=5)	Teste para diferença de subgrupos
Domínios do IFIS	Kappa (IC95%)	Kappa (IC95%)	Kappa (IC95%)	Valor de p
Aptidão geral	0,90 (0,98-0,99)	0,76 (0,60-0,85)	0,55 (0,33-0,72)	<0,001
I²	-	95,0%	90,5%
Capacidade cardiorrespiratória	0,98 (0,97-0,98)	0,80 (0,59-0,91)	0,51 (0,39-0,62)	<0,001
I²	-	97,7%	70,5%
Força muscular	0,95 (0,93-0,96)	0,73 (0,53-0,85)	0,46 (0,32-0,59)	<0,001
I²	-	96,2%	75,3%
Velocidade/agilidade	0,98 (0,97-0,98)	0,76 (0,62-0,86)	0,53 (0,38-0,65)	<0,001
I²	-	94,5%	79,0%
Flexibilidade	0,93 (0,91-0,95)	0,73 (0,57-0,83)	0,62 (0,57-0,67)	<0,001
I²	-	94,3%	0,0%

IFIS: The International Fitness Scale ; IC95%: intervalo de confiança 95%.

Tabela 5

Análise de subgrupos

Risco de viés Q2_QAREL	Sim (k=2)	Não (k=2)	Não está claro (k=4)	Teste para diferença de subgrupos
Domínios do IFIS	Kappa (IC95%)	Kappa (IC95%)	Kappa (IC95%)	Valor de p
Aptidão geral	0,67 (0,62-0,72)	0,97 (0,83-0,99)	0,63 (0,41-0,77)	<0,001
I²	8,1%	98,5%	94,8%
Capacidade cardiorrespiratória	0,63 (0,52-0,72)	0,98 (0,96-0,98)	0,66 (0,43-0,81)	<0,001
I²	72,0%	65,1%	95,8%
Força muscular	0,62 (0,45-0,75)	0,94 (0,92-0,96)	0,56 (0,32-0,74)	0,022
I²	86,9%	51,1%	94,9%
Velocidade/agilidade	0,71 (0,46-0,86)	0,95 (0,73-0,99)	0,64 (0,37-0,81)	0,097
I²	95,3%	98,3%	96,5%
Flexibilidade	0,61 (0,56-0,66)	0,92 (0,88-0,94)	0,66 (0,52-0,76)	<0,001
I²	0,0%	57,6%	89,3%

IFIS: The International Fitness Scale ; Q2_QAREL: Quality Assessment of Reliability Studies checklist; IC95%: intervalo de confiança 95%.

IFIS: The International Fitness Scale ; IC95%: intervalo de confiança 95%. IFIS: The International Fitness Scale ; Q2_QAREL: Quality Assessment of Reliability Studies checklist; IC95%: intervalo de confiança 95%. Os estudos mais rigorosos referentes à avaliação do risco de viés Q2 apresentaram valores de coeficiente de concordância de Kappa mais baixos que os outros subgrupos. Quanto à heterogeneidade, a metarregressão revelou que ambos os subgrupos (população e risco de viés na Q2_QAREL) explicam 85,99% da heterogeneidade total entre os estudos (Tabelas 4 e 5). A tabela 6 fornece o resumo dos resultados e a classificações de qualidade GRADE.

Tabela 6

Sumário de resultados

O IFIS comparado a teste-reteste para medir o nível de aptidão física
População: crianças, adolescentes, adultos e mulheres portadoras de fibromialgia
Contexto: aplicação do IFIS para medir o nível de aptidão física
Intervenção: o IFIS
Comparação: teste-reteste

Desfechos	Efeitos absolutos potenciais^*(IC95%)		Efeito relativo (IC95%)	Número de participantes (estudos)	Certainty of the evidence (GRADE)	Comentários

	Confiabilidade com teste-reteste	Confiabilidade com o IFIS

Aptidão física avaliada com IFIS Seguimento: variação 1 semana para 2 semanas	-	Kappa 0,8 (0,56-0,92)	-	1.734 (7 estudos observacionais)	⨁ ◯ ◯ ◯ Muito baixa^*	-
Capacidade cardiorrespiratória avaliada com IFIS Seguimento: variação 1 semana para 2 semanas	-	Kappa 0,81 (0,59-0,92)	-	1.734 (7 estudos observacionais)	⨁ ◯ ◯ ◯ Muito baixa^*	-
Força muscular avaliada com IFIS Seguimento: variação 1 semana para 1 semanas	-	Kappa 0,73 (0,53-0,86)	-	1.734 (7 estudos observacionais)	⨁ ◯ ◯ ◯ Muito baixa^*	-
Velocidade/agilidade avaliada com IFIS Seguimento: variação 1 semana para 2 semanas	-	Kappa 0,79 (0,57-0,9)	-	1.734 (7 estudos observacionais)	⨁ ◯ ◯ ◯ Muito baixa^*	-
Flexibilidade avaliada com: IFIS Seguimento: variação 1 semana para 2 semanas	-	Kappa 0,74 (0,61-0,84)	-	1.734 (7 estudos observacionais)	⨁ ◯ ◯ ◯ Muito baixa^*	-

* Redução de dois níveis na certeza da evidência devido a heterogeneidade substancial não explicada e redução de um nível na certeza da evidência devido a evidência indireta. Houve diferença no perfil populacional entre os estudos.

IFIS: The International Fitness Scale ; IC95%: intervalo de confiança de 95%.

⨁ Muito baixa; ⨁⨁ Moderada; ⨁⨁⨁ Alta e ⨁⨁⨁⨁ Muito alta.

Aptidão física avaliada com IFIS Seguimento: variação 1 semana para 2 semanas Capacidade cardiorrespiratória avaliada com IFIS Seguimento: variação 1 semana para 2 semanas Força muscular avaliada com IFIS Seguimento: variação 1 semana para 1 semanas Velocidade/agilidade avaliada com IFIS Seguimento: variação 1 semana para 2 semanas Flexibilidade avaliada com: IFIS Seguimento: variação 1 semana para 2 semanas * Redução de dois níveis na certeza da evidência devido a heterogeneidade substancial não explicada e redução de um nível na certeza da evidência devido a evidência indireta. Houve diferença no perfil populacional entre os estudos. IFIS: The International Fitness Scale ; IC95%: intervalo de confiança de 95%. ⨁ Muito baixa; ⨁⨁ Moderada; ⨁⨁⨁ Alta e ⨁⨁⨁⨁ Muito alta.

DISCUSSÃO

Atualmente, as instituições mundiais, como a Organização Mundial da Saúde (OMS) e American College of Sports Medicine (ACSM), recomendam a prática regular de 150 minutos por semana de atividade física em intensidade moderada a vigorosa, acarretando melhores níveis de aptidão física geral.( Um estudo de coorte retrospectivo que acompanhou 122.007 pacientes verificou que a capacidade cardiorrespiratória é inversamente associada à mortalidade a longo prazo.( Associado a este estudo, os resultados de uma metanálise, que avaliou 2.525.827 adultos, verificaram que conforme ocorre redução da capacidade cardiorrespiratória, observam-se também declínio progressivo dos parâmetros gerais de saúde e aumento da obesidade e suas comorbidades.( Sabendo que a aptidão física é um dos preditores de problemas de saúde e indicador modificável, recomenda-se sua avaliação por meio de testes considerados padrão-ouro, como capacidade cardiorrespiratória (ergoespirometria);( força muscular (teste isocinético);( velocidade/agilidade (teste de 20/40m utilizando o sistema de fotocélulas)( e flexibilidade (inclinômetro, goniômetro, flexômetro de Leighton e flexímetro, juntamente das análises de imagens, como radiografia e fotogrametria).( Porém, a aplicação dos testes supracitados em locais que dispõem de recurso financeiro escasso e deficit de profissionais especializados inviabiliza estudos em larga escala.( Portanto, é de interesse das organizações de saúde pública e pesquisadores de países subdesenvolvidos e em desenvolvimento buscar instrumentos alternativos, de fácil acesso e baixo custo. Esta é a primeira revisão sistemática e metanálise a avaliar a confiabilidade do IFIS, que significa a consistência de medição ao longo do tempo, a partir do teste-reteste, representando um aspecto importante de instrumentos que propõem avaliar algo. Se um instrumento tem baixa confiabilidade teste-reteste, indica que não consegue distinguir mudanças reais nas pontuações ao longo do tempo.( De forma abrangente, os resultados mostraram que a confiabilidade dos domínios avaliados pelo IFIS mediante o procedimento teste-reteste, estimado pelo coeficiente de concordância de Kappa, é considerada válida para avaliar a aptidão física geral e seus componentes (capacidade cardiorrespiratória, força muscular, velocidade/agilidade e flexibilidade), principalmente por apresentar pequena variabilidade na medida de confiabilidade e, pelos domínios apresentarem, no geral, escores de moderado a substancial. Neste estudo, foi seguida uma abordagem sistemática, utilizando protocolo rigoroso, que controlou suas etapas, além de ter sido realizada pesquisa abrangente, sem restrição para o tipo de estudo, população, idioma, idade, sexo e data de publicação. Além das vantagens dos questionários, o IFIS apresenta importante papel na aplicabilidade clínica, pois seus resultados são associados à capacidade cardiorrespiratória medida diretamente e aos fatores de risco de doenças cardiovasculares, como adiposidade e síndrome metabólica, em diferentes populações.( Ademais, a avaliação da aptidão física é um indicador fundamental para individualizar a prescrição ideal de exercícios físicos.( Apesar dos valores aceitáveis do coeficiente de concordância de Kappa, há possibilidade de viés e superestimação nos resultados da metanálise. Parte dessa heterogeneidade foi atribuída à dispersão da confiabilidade teste-reteste entre as diferentes populações. Enquanto alguns autores encontraram confiabilidade teste-reteste elevada entre as medidas para as crianças, outros mostraram valores médios para adolescentes e baixos para os adultos. Outro fator que pode comprometer é a baixa qualidade metodológica referente às questões Q4-Q7 do QAREL, visto que nenhum estudo cumpriu estes critérios,( e a falta de padronização do estudo de De Moraes et al.,( que utilizou uma versão do IFIS não validada para a população brasileira. Seguida da análise da sensibilidade, os itens apresentaram elevada heterogeneidade, indicando que condição de saúde, faixa etária, cegamento dos avaliadores, intervalo de tempo entre o teste-reteste, instrução da aplicação do questionário e entendimento dos voluntários( podem influenciar no efeito entre os estudos. Portanto, deve-se ter cautela na interpretação e na generalização destes resultados, já que esta metanálise não realizou a busca em literatura cinzenta, e os poucos estudos que avaliaram a confiabilidade do IFIS são de baixa qualidade e elevada heterogeneidade estatística, quando realizado o agrupamento dos coeficientes de concordância. Por fim, é importante destacar que o IFIS está disponível em nove idiomas e, caso ele seja aplicado sem adaptação e testagem prévias em amostras com características distintas das quais eles foram desenvolvidos e avaliados, existe a possibilidade de ocorrência de viés cultural. Para evitar o comprometimento dos resultados de estudos futuros realizados no Brasil, recomendamos a utilização dos Guidelines for Reporting Reliability and Agreement Studies (GRRAS),( do check-list QAREL( para a avaliação da qualidade metodológica e da versão em português brasileiro do instrumento IFIS.

CONCLUSÃO

Conclui-se com o corpus documental desta metanálise, que, apesar de a maioria dos itens apresentar escore adequado para o teste-reteste, indicando de moderada a substancial confiabilidade para o coeficiente de concordância Kappa, além de 30% dos itens apresentarem nível quase perfeito, a heterogeneidade entre os estudos permaneceu elevada. Portanto, necessita-se de mais pesquisas, com baixo risco de viés, que testem a confiabilidade em diferentes populações e condições de saúde, para que o questionário autorrelatado The International Fitness Scale seja considerado alternativa confiável, podendo ser utilizado em larga escala para avaliação ou acompanhamento da aptidão física e fazer parte de exames complementares.

19 in total

Review 1. Measuring inconsistency in meta-analyses.

Authors: Julian P T Higgins; Simon G Thompson; Jonathan J Deeks; Douglas G Altman
Journal: BMJ Date: 2003-09-06

Review 2. [Evolution of the epidemiological research on physical activity in Brazil: a systematic review].

Authors: Pedro Curi Hallal; Samuel de Carvalho Dumith; Juliano Peixoto Bastos; Felipe Fossati Reichert; Fernando Vinholes Siqueira; Mario Renato Azevedo
Journal: Rev Saude Publica Date: 2007-06 Impact factor: 2.106

3. The development of a quality appraisal tool for studies of diagnostic reliability (QAREL).

Authors: Nicholas P Lucas; Petra Macaskill; Les Irwig; Nikolai Bogduk
Journal: J Clin Epidemiol Date: 2010-01-13 Impact factor: 6.437

Review 4. Hand-held dynamometry correlation with the gold standard isokinetic dynamometry: a systematic review.

Authors: Timothy Stark; Bruce Walker; Jacqueline K Phillips; René Fejer; Randy Beck
Journal: PM R Date: 2011-05 Impact factor: 2.298

5. [Recommendations for physical activity and health: consensus, controversies, and ambiguities].

Authors: Dartel Ferrari de Lima; Renata Bertazzi Levy; Olinda do Carmo Luiz
Journal: Rev Panam Salud Publica Date: 2014-09

6. Validity of the International Fitness Scale "IFIS" in older adults.

Authors: Eugenio Merellano-Navarro; Daniel Collado-Mateo; Javier García-Rubio; Narcís Gusi; Pedro R Olivares
Journal: Exp Gerontol Date: 2017-05-02 Impact factor: 4.032

7. Psychometric properties in instruments evaluation of reliability and validity.

Authors: Ana Cláudia de Souza; Neusa Maria Costa Alexandre; Edinêis de Brito Guirardello
Journal: Epidemiol Serv Saude Date: 2017 Jul-Sep

Review 8. Field-based fitness assessment in young people: the ALPHA health-related fitness test battery for children and adolescents.

Authors: Jonatan R Ruiz; José Castro-Piñero; Vanesa España-Romero; Enrique G Artero; Francisco B Ortega; Magdalena M Cuenca; David Jimenez-Pavón; Palma Chillón; María J Girela-Rejón; Jesús Mora; Angel Gutiérrez; Jaana Suni; Michael Sjöström; Manuel J Castillo
Journal: Br J Sports Med Date: 2010-10-19 Impact factor: 13.800

9. Self-reported and measured cardiorespiratory fitness similarly predict cardiovascular disease risk in young adults.

Authors: F B Ortega; M Sánchez-López; M Solera-Martínez; A Fernández-Sánchez; M Sjöström; V Martínez-Vizcaino
Journal: Scand J Med Sci Sports Date: 2012-03-15 Impact factor: 4.221

10. Construct validity and test-retest reliability of the International Fitness Scale (IFIS) in Spanish children aged 9-12 years.

Authors: M Sánchez-López; V Martínez-Vizcaíno; A García-Hermoso; D Jiménez-Pavón; F B Ortega
Journal: Scand J Med Sci Sports Date: 2014-06-18 Impact factor: 4.221

2 in total

1. Self-reported (IFIS) versus measured physical fitness, and their associations to cardiometabolic risk factors in early pregnancy.

Authors: Maria Henström; Marja H Leppänen; Pontus Henriksson; Emmie Söderström; Johanna Sandborg; Francisco B Ortega; Marie Löf
Journal: Sci Rep Date: 2021-11-22 Impact factor: 4.379

2. Reliability and validity of the Healthy Fitness Measurement Scale Version 1.0 (HFMS V1.0) in Chinese people.

Authors: Heng Qiu; Chen Huang; Qian Liu; Lijie Jiang; Yunlian Xue; Weixuan Wu; Zhuomin Huang; Jun Xu
Journal: BMJ Open Date: 2021-12-07 Impact factor: 2.692

2 in total