Literature DB >> 34761281

[Clinical studies in trauma surgery and orthopedics: read, interpret and implement].

Dirk Stengel¹, Wolf Mutschler², Luzi Dubs³, Stephan Kirschner⁴, Tobias Renkawitz⁵.

Abstract

Informative, participatory clinical decision-making needs to combine both skills and expertise as well as current scientific evidence. The flood of digital information makes it difficult in everyday clinical practice to keep up to date with the latest publications. This article provides assistance for coping with this problem. A basic understanding of prior and posterior probabilities as well as systematic error (bias) makes it easier to weigh up the benefits and risks, e.g. of a (surgical) intervention compared to a nonsurgical treatment. Randomized controlled trials (RCT, with all modern modifications) deliver undistorted results but in orthopedic and trauma surgery can lead to a heavily selected nonrepresentative sample and the results must be confirmed or refuted by further, independent RCTs. Large-scale observational data (e.g. from registries) can be modelled in a quasi-experimental manner and accompany RCTs in health technology assessment.

Entities: Chemical

Keywords: Bias; Confidence intervals; Probability; Randomized controlled trial; Scientific misconduct

Mesh：

Year: 2021 PMID： 34761281 PMCID： PMC8579904 DOI： 10.1007/s00113-021-01101-8

Source DB: PubMed Journal: Unfallchirurg ISSN： 0177-5537 Impact factor: 1.000

Medicine is a science of uncertainty and an art of probability. (William Osler, 1849–1919) [1]

Lernziele

Nach der Lektüre dieses Beitrags … können Sie Studienergebnisse besser mit Ihrem Erfahrungs- und Praxiswissen kombinieren, und diese im Patient(inn)en- und Angehörigengespräch umsetzen, sind Sie wachsamer im Hinblick auf Datenmanipulation und Forschungsbetrug, die die Glaubwürdigkeit wissenschaftlicher Ergebnisse in der Bevölkerung schwächen, wissen Sie mehr über systematische Fehler (Bias), und wie diese in klinischen Studien vermieden werden können.

Einleitung

Technologischer Fortschritt und Informationsexplosion

Praxis, Forschung und Lehre in Unfallchirurgie und Orthopädie haben sich seit Beginn des neuen Jahrtausends grundlegend gewandelt. Auf der Technologie‑, Struktur- und Prozessebene haben u. a. biologische und augmentierte Osteosyntheseverfahren, minimal-invasive Zugangswege, Navigation und Robotik [2, 3, 4], individualisierte Interventionen und Implantate [5], „Fast-track“-Konzepte [6], evidenzbasierte, partizipative Entscheidungsfindung [7], „value-based medicine“ [8] und Maßnahmen zur Patientensicherheit [9] Einzug in den klinischen Alltag gehalten. Bei geschätzt etwa 3 Mio. Veröffentlichungen in der Biomedizin pro Jahr ist es nahezu unmöglich, dass alle Ärztinnen und Ärzte, Beschäftigte im Pflege- und Therapiesektor, aber auch politische Entscheider(innen) im Gesundheitswesen jederzeit auf dem aktuellen Stand des Wissens sind. Evidenz- und konsensbasierte Leitlinien der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF), Cochrane-Reviews sowie nicht zuletzt klinische Entscheidungsunterstützungssysteme („clinical decision support systems“, CDSS) bündeln und gewichten das aktuelle Wissen. Sie können die Therapieplanung begründen und auch zu einer vertrauensvollen Kommunikation zwischen professionellen Teams, Patient(inn)en und ihren Angehörigen beitragen. Zur Beantwortung konkreter medizinisch-wissenschaftlicher Fragen und Probleme bedarf es unverändert der Suche nach und der Interpretation von aktuellen Forschungsergebnissen in individuellen Publikationen. Verpflichtende Vorgaben zu Planung, Durchführung und Berichterstattung klinischer Studien und Prüfungen umfassen u. a. die International Conference on Harmonisation – Good Clinical Practice (ICH-GCP) Guideline, Regelwerke der US-amerikanischen Food and Drug Administration (FDA), der European Medicines Agency (EMA), des Bundesinstituts für Arzneimittel und Medizinprodukte (BfArM), des Paul-Ehrlich-Instituts (PEI) sowie Empfehlungen des Committee on Publication Ethics (COPE), des International Committee of Medical Journal Editors (ICMJE) und des Enhancing the Quality and Transparency of Health Research (EQUATOR) Network. Propädeutische Serien in Zeitschriften wie Journal of the American Medical Association (JAMA, [10]) und Deutsches Ärzteblatt [11], semiquantitative Instrumente zur Bestimmung des Risikos für systematische Fehler wie das Cochrane Risk-of-Bias Tool Version 2.0 (RoB-2) und Grading of Recommendations Assessment, Development and Evaluation (GRADE) können Kliniker(innen) und Methodiker(innen) unterstützen, um die wissenschaftliche Informationsflut zu strukturieren.

Merke

Eine wissenschaftlich begründete klinische Entscheidungsfindung beinhaltet die gemeinsame Abstimmung zwischen Behandlern und Betroffenen und vereint ärztliche Expertise, wissenschaftliche Daten und Präferenz.

Fallbeispiel.

In der Rettungsstelle stellt sich die resolute 69-jährige Margaret M. vor, die in Nordengland lebt und gerade ihre Tochter und Enkel in Deutschland besucht. Im Haus der Familie ist sie auf dem glatten Küchenboden ausgerutscht und auf die rechte ausgestreckte Hand gefallen. Röntgenaufnahmen zeigen eine intraartikuläre distale Radiusfraktur vom Typ AO/OTA 23C2. Das betroffene Handgelenk ist mäßig geschwollen. Margaret ist schlank, Rechtshänderin, Nichtraucherin, fährt Fahrrad, malt und bestellt einen großen Garten. Bis zu ihrer Pensionierung hat sie als Allgemeinmedizinerin („general practitioner“, GP) in Großbritannien praktiziert. Sie hat vor, noch wenigstens 3 Wochen in Deutschland bei ihrer Familie zu verbringen. Sie möchte konkret wissen, ob man ihre Fraktur operativ stabilisieren muss, ob es Alternativen gibt, und was die beste wissenschaftliche Evidenz vorschlägt. Sie möchte möglichst rasch wieder nach Hause, um die Zeit mit ihren Angehörigen vollends genießen zu können – aber natürlich auch keine Langzeitschäden davontragen.

Systematische Fehler – deren Quellen und Vermeidung

Wenn Sie aus einer Papierakte den Wert 3,41 in eine elektronische Datei übertragen und 3,14 eingeben, dürfte dies Ihrer Unaufmerksamkeit geschuldet sein. Dies entspricht (mit sprachlicher Unschärfe) dem englischen Fehlerbegriff des „mistake“ oder „error“, eher aber einem zufälligen Ereignis. Wenn Sie in 10/10.000 Fällen 4,13, 1,43, 3,14 oder 1,34 statt 3,41 eintragen, dürfte dies immer noch dem Zufall entsprechen. Würde in einer Datei hingegen regelhaft 3,14 statt 3,41 erscheinen, stimmt irgendetwas nicht. Müssten Sie eine Längenmessung mithilfe eines Zollstocks vornehmen, könnte es sein, dass dieser durch einen Produktionsfehler 0,27 Längeneinheiten zu kurz ist. Sie würden in diesem Fall die Distanz immer als 0,27 Längeneinheiten zu hoch notieren.

Cave

Systematische Fehler resultieren entweder aus einer kontinuierlichen Fehleinschätzung des/der Messenden oder einer unzureichenden Kalibrierung des Messinstruments. Um die Bedeutung einer wissenschaftlichen Veröffentlichung für die klinische Praxis beurteilen zu können, müssen Sie das Risiko für systematische Fehler (Bias) kennen. Weder vor zufälligen Fehlern (Mistake/error) noch bewusster Datenmanipulation und Forschungsbetrug („fraud“) sind wir gefeit – hierzu später. Sie können Studienergebnissen am meisten vertrauen, wenn die Wahrscheinlichkeit einer Verzerrung durch systematische Fehler gering ist. zufälligen Fehlern bewusster Datenmanipulation Forschungsbetrug Wenn Sie einem wissenschaftlichen Manuskript auf den Grund gehen wollen, sollten Sie sich mit zwei zentralen Fragen auseinandersetzen: Sind die Ergebnisse der Studie valide? Stimmt es, was die Autor(inn)en behaupten? Hierzu gehört u. a. die Frage, ob die berichteten Resultate mithilfe der gewählten Methoden generiert werden konnten, und ob sie mit den Zielstellungen bzw. Hypothesen vereinbar sind. Sind die Ergebnisse der Studie wichtig, im Hinblick auf den medizinischen Nutzen für Patient(inn)en und die Gesellschaft? Sind die Effektstärken der untersuchten Zielparameter so groß (oder eben auch so minimal), dass sie klinische Entscheidungen in die eine oder andere Richtung beeinflussen können oder sollten? Ein Studienergebnis kann wissenschaftlich bedeutsam sein, weil es ein neues Prinzip vorschlägt oder unterstützt („proof of principle“) oder dieses widerlegt. Es kann den Weg für weitere Untersuchungen bahnen und erleichtern. Diese Situation ist weitaus häufiger anzutreffen, als dass eine neue Studie unmittelbar eine Abkehr von bzw. eine Änderung bisheriger Behandlungsstandards („standard of care“) nach sich zieht. Sprunginnovationen wie etwa die Entdeckung bzw. Erfindung des Penizillins, der Röntgendiagnostik oder der Marknagelosteosynthese sind selten [12]. Wir leben von und mit Schrittinnovationen – so wird ein neues Platten‑, Nagel- oder Endoprothesendesign bei ansonsten unveränderten biologischen Rahmenbedingungen funktionelle und andere patientenzentrierte Endpunkte voraussichtlich nicht beeinflussen können. Erwarten Sie in der orthopädisch-unfallchirurgischen Literatur geringe Effektstärken. Je größer die berichteten Ergebnisunterschiede zwischen Behandlungsgruppen sind, umso intensiver sollten Sie sich mit methodischen Details auseinandersetzen, die die beobachteten Effekte beeinflusst haben könnten. Systematische Fehler führen eher zu einer Über- als Unterschätzung von Therapieeffekten.

Redlichkeit in der Wissenschaft

Der 19 Leitlinien umfassende Kodex zur Sicherung guter wissenschaftlicher Praxis der Deutschen Forschungsgemeinschaft stellt das für alle Wissenschaftlerinnen und Wissenschaftler verbindliche Regelwerk für die klinische Forschung in Deutschland dar [13]. Das Dokument betont redliches Denken und Handeln, Integrität und die Selbstverpflichtung aller Forschenden als Grundlage vertrauenswürdiger Wissenschaft – und damit deren Akzeptanz in der Bevölkerung. Die durch die „coronavirus disease 2019“ (COVID-19) ausgelöste Pandemie hat eindrucksvoll gezeigt, wie stark wissenschaftliche Informationen gesellschaftlich einschneidende Maßnahmen bestimmen und auch polarisieren können. verbindliche Regelwerk Spektakuläre Fälle von Forschungsbetrug und Datenfabrikation in der Medizin sind selten, führten in der Vergangenheit aber zu spektakulären Konsequenzen wie z. B. den Rücktritt von Vertretern des Nobelpreis-Komitees am schwedischen Karolinska-Institut. Einen Überblick über zurückgezogene Publikationen und wissenschaftliche Hintergründe liefert z. B. die Webplattform Retraction Watch [14]. Datenfabrikationen lassen sich leicht aufdecken – Menschen sind schlechte Zufallsgeneratoren [15]. Wenn z. B. Mittelwerte aus kategoriellen Daten abgeleitet werden, zeigt das verblüffende Prinzip der Granularity-Related Inconsistency of Means (GRIM), dass es schlichtweg unmögliche Nachkommastellen gibt [16]. Fragen Sie z. B. 7 Proband(inn)en nach der Anzahl ihrer Kinder, können Mittelwerte wie 1,51 oder 2,02 nicht auftreten. Die unabhängige, verblindete Begutachtung wissenschaftlicher Manuskripte („peer review“) durch internationale Expert(inn)en sichert Qualität. Die Vorabveröffentlichung von Beiträgen auf Preprint-Servern wie medRxiv erwies sich im Zuge der COVID-19-Pandemie als Fluch und Segen zugleich [17]. Einerseits konnten so Forschungsergebnisse frühzeitig der wissenschaftlichen Gemeinschaft barrierefrei zur Verfügung gestellt werden. Andererseits drangen auch ungesicherte Informationen zu den Medien und in die sozialen Netzwerke.

Neue Informationen entkräften oder bestärken unsere Vorannahmen

Nehmen Sie an, dass Sie nachts aufwachen und vor Ihrem Fenster ein blaues, blinkendes Licht wahrnehmen. Je nach Ihrer individuellen Erfahrung und Faktenkenntnis (X) würden Sie die Interpretation (D), dass das Licht durch ein außerirdisches Raumschiff hervorgerufen wird, einem bestimmten Wahrheitsgehalt zuordnen. Sie werden wahrscheinlich zuerst an einen Polizei- oder Feuerwehreinsatz und erst danach an ein unidentifiziertes Luftraumphänomen als Lichtquelle denken. Die statistische Notation wäre P(D|X), entsprechend der konditionalen Wahrscheinlichkeit P für das Zutreffen eines Ereignisses, einer Beobachtung oder eines bestimmten Sachverhaltes D in Abhängigkeit von Ihrer Wahrnehmung, Ihrem Hintergrundwissen oder der bisherigen verfügbaren Evidenz X [18]. individuellen Erfahrung Faktenkenntnis Analog zur Blinklichtsituation richtet sich auch Ihr Alltag nach der Vorwahrscheinlichkeit („prior probability“) über die Wirksamkeit einer medizinischen oder operativen Intervention für eine bestimmte Erkrankung P(θ). Diese ergibt sich aus der Summe aus individuellem Wissen und bisheriger wissenschaftlicher Evidenz. Nun tritt eine neue Studie hinzu und beeinflusst die sog. Likelihood-Funktion P(y|θ). Die Posteriorwahrscheinlichkeit (P(θ|y) resultiert aus der Vortestwahrscheinlichkeit (Prior) und verschiedenen zusätzlichen Informationen; Abb. 1).

Vorwahrscheinlichkeit Posteriorwahrscheinlichkeit Einfach ausgedrückt, verschiebt die Information aus einer Studie Ihr eigenes, aber auch das Vorwissen der klinisch-wissenschaftlichen Gemeinschaft über die Wirksamkeit einer Maßnahme in die eine oder andere Richtung. Diese Form des Erkenntnisgewinns wurde durch den presbyterianischen Pfarrer, Mathematiker, Statistiker und Philosophen Thomas Bayes (1701–1761) vorgeschlagen und entwickelt. Wenn die Ergebnisse außerordentlich und unerwartet (im Sinne sehr starker Therapieeffekte) sind, wird sich die Posterior probability stärker verschieben als bei einem „Wir-nehmen-es-zur-Kenntnis“-Resultat. Der Extremfall würde eintreten, wenn eine bisher nichtbehandelbare oder fatale Erkrankung bzw. Verletzungsfolge (z. B. ein traumatischer Hirnschaden oder eine Querschnittlähmung) durch eine neuartige Behandlung plötzlich therapierbar würde. Thomas Bayes In diesem Zusammenhang sollten Sie auch das von Sir Karl Raimund Popper (1902–1994) geprägte Falsifikationsprinzip kennen, nach dem keine Hypothese bewiesen werden kann, weil wir nicht unendlich viele Informationen über die Vergangenheit, Gegenwart und Zukunft besitzen. Wir können Hypothesen widerlegen und uns mit einer alternativen Erklärung anfreunden. Letztere müssen wiederum durch weitere Untersuchungen belegt werden. Falsifikationsprinzip

Was unsere klinische Entscheidungsfindung beeinflusst

Ein einzelnes noch so beeindruckendes Studienergebnis macht (wie die berühmte Schwalbe) noch keinen Sommer

Sie treffen als Ärztin oder Arzt jeden Tag Entscheidungen auf der Basis Ihrer Intuition. Dies bezeichnet man auch als Heuristik (Bauchentscheidung, [19]). In den chirurgischen Fächern führt die Konfrontation mit einer Akutsituation oder einem intraoperativen Situs zu einer oftmals nichterklärbaren (manuellen) Handlung [20]. Je größer die Erfahrung und das handwerkliche Geschick, umso eher wird die unbewusste Reaktion selbst auf eine unerwartete Gegebenheit zu einem günstigen Behandlungsergebnis beitragen. Erfahrungswissen unterliegt jedoch der Apoptose und wird oftmals durch neue wissenschaftliche Fakten entkräftet – mit anderen Worten: Die Expertise ist relativ und kurzlebig. Heuristik

Klinisch-wissenschaftliches Beispiel

In der randomisierten Studie Open reduction and internal fixation versus casting for highly comminuted and intra-articular fractures of the distal radius (ORCHID) wurden vor einigen Jahren das funktionelle Outcome und die Lebensqualität nach der Versorgung einer intraartikulären Fraktur des distalen Radius (AO/OTA-Typ 23C) bei Patient(inn)en ≥65 Jahren untersucht. Es wurde gezeigt, dass die in Deutschland vorwiegend stationär durchgeführte volare winkelstabile Plattenosteosynthese („open reduction and internal fixation“, ORIF) 12 Monate nach dem Unfallereignis nicht zu einem besseren Outcome als eine geschlossene Reposition und ambulante Ausbehandlung im Gipsverband führt [21]. Aufgrund der Häufigkeit der Verletzung in der alternden Bevölkerung ist es wichtig, Betroffenen und ihren Angehörigen darzulegen, dass der Verzicht auf eine invasivere Therapie nicht notwendigerweise schlechtere Behandlungsergebnisse im Mittel- und im Langzeitverlauf mit sich bringt. Eine bewusste und gezielte nichtoperative Behandlung und Rehabilitation häufiger Verletzungen können zu ähnlich guten Ergebnissen wie eine operative Therapie führen – beide Modalitäten können sich im klinischen Alltag und in der nationalen Gesundheitsversorgung behaupten, solange sie qualitätsgesichert trainiert und umgesetzt werden. Die Studie ORCHID musste aufgrund schleppender Rekrutierung vor Erreichung der Zielfallzahl von 252 Teilnehmer(inne)n abgebrochen werden und schloss in der „Intention-to-treat“(ITT)-Analyse (also der Population, in der Teilnehmer so ausgewertet werden, wie sie randomisiert wurden – egal, ob sie tatsächlich die per Zufall zugeloste Therapie erhielten oder nicht) 149 Patient(inn)en ein. Die Ergebnisse wurden in der deutschen klinisch-wissenschaftlichen Gemeinschaft kontrovers aufgenommen – international lieferten sie u. a. die Grundlage für die unten erörterte Combined randomised and observational study of surgery for fractures in the distal radius in the elderly (CROSSFIRE, [22]). Eine winkelstabile Plattenosteosynthese hatte sich im britischen Distal radius acute fracture fixation (DRAFFT) trial mit 461 Teilnehmenden gegenüber der Kirschner-Draht-Osteosynthese als nichtüberlegen erwiesen [23]. Es lag also nah, die chirurgischen Extremvarianten (d. h., ORIF vs. geschlossene Reposition und Gipsstabilisierung) per Zufallszuteilung zu untersuchen – dies war ethisch gerechtfertigt, da zum Zeitpunkt der Studieninitiierung in Ermangelung wissenschaftlicher Daten therapeutische Unsicherheit (Equipoise) vorlag. therapeutische Unsicherheit Auch wenn Sie eine klare klinische Meinung vertreten und sich vielleicht wundern, warum Autor(inn)en eine vermeintlich gelöste Frage in einem aufwendigen Trial adressiert haben – seien Sie offen für die Möglichkeit, dass die beste verfügbare wissenschaftliche Evidenz vielleicht doch nicht so eindeutig ist wie vermutet. Im Einleitungsteil einer wissenschaftlichen Veröffentlichung sollten Sie finden: eine Motivation, die Erörterung des klinischen und/oder versorgungsrelevanten Problems, unter Darlegung wissenschaftlicher Fakten und Zitation der aktuellen Literatur; bei randomisierten Studien den Beleg, dass zu Studienbeginn 2 (oder mehr) zu vergleichende Therapieoptionen gleichwertig erschienen und keine oder nur unzureichende Vergleiche vorlagen, die eine bestimmte Behandlung favorisierten; eine beantwortbare Zielstellung und Studienfrage („objectives“). Warum ist das Adjektiv „beantwortbar“ so wichtig? Kliniker(inn)en fällt es mitunter schwer, ihre zahlreichen Ideen zu fokussieren und in eine eindeutige wissenschaftliche Fragestellung zu überführen. Eine beantwortbare Frage setzt sich aus den klassischen W‑Elementen zusammen. Welches klinische Problem soll in welcher Population mit welcher Erkrankung oder Verletzung studiert werden? Welche Intervention soll untersucht und ggf. mit welchem Therapiestandard verglichen werden? Was sind die interessierenden Endpunkte, wann sollen diese erhoben werden, und welche Effektstärke, welcher Unterschied oder welche sonstige Dimension soll mit welchen Methoden bestimmt werden? Das PICOT-Schema („patient and problem, intervention, control, outcome, time“) ist hilfreich, um Gedanken zu sortieren und so zu gliedern, dass sie in einer Frage mit dem folgenden Muster münden: W‑Elementen PICOT-Schema „Führt die Behandlung A im Vergleich zum klinischen Standard oder einer Behandlung B bei einer Anzahl von C Patient(inn)en im Alter von D Jahren mit der Erkrankung/Verletzung E zu einem um F Einheiten besseren Outcome G?“ Eine klinische, insbesondere eine randomisierte Studie erfordert häufig eine Abstraktion sowohl bei der Definition der interessierenden Erkrankung bzw. Verletzung, den Ein- und Ausschlusskriterien, der Intervention, aber auch den Endpunkten. Abstraktion Je valider eine Studie für die nationale Gesundheitsversorgung ist, umso weniger ist sie oftmals geeignet, um fachspezifische Fragen mit hoher Auflösung und Detailschärfe zu beantworten. Im ORCHID-Szenario bedeutete dies, dass zwar eine generelle Aussage über die Wirksamkeit und den Nutzen biologisch sehr unterschiedlicher Behandlungsprinzipien (und deren Effektstärken) getroffen werden konnte, diese Informationen aber nicht so tief reichten, um beispielsweise zu entscheiden, welches Implantat welches Herstellers für eine spezielle Frakturmorphologie ausgewählt werden sollte. generelle Aussage Im März 2021 wurden die Ergebnisse der australischen CROSSFIRE(„Combined Randomised and Observational Study of Surgery for Fractures in the Distal Radius in the Elderly“)-Studie veröffentlicht, die die exakt gleichen Fragen wie ORCHID untersuchte [22]. Der wesentliche Unterschied war, dass in CROSSFIRE lediglich ein Drittel der Patient(inn)en intraartikuläre Frakturen aufwies. Nichtrandomisierte Teilnehmende wurden in einer Beobachtungskohorte nachuntersucht („comprehensive cohort design“, [24]). Die randomisierte Stichprobe war mit 166 Teilnehmenden mit ORCHID vergleichbar und zeigte auch ein ähnliches Basisprofil. Die in ORCHID beobachteten funktionellen und Lebensqualitätsmessungen nach 12 Monaten wurden durch CROSSFIRE nahezu punktgenau bestätigt (Abb. 2).

Nach der derzeitigen besten wissenschaftlichen Evidenz gibt es keine Unterschiede in funktionellen und Lebensqualitätsindikatoren 3 und 12 Monate nach einer volaren Plattenosteosynthese und einer Gipsbehandlung bei distalen Radiusfrakturen bei Patient(inn)en ≥65 Jahren. Sie dürfen Margaret M. unter Abwägung verschiedener Faktoren (der Prämisse der Wiederherstellung ihrer physischen Aktivität, ihrem Wunsch nach ambulanter Behandlung) und Verweis auf die Ergebnisse aus ORCHID und CROSSFIRE ein gutes funktionelles Ergebnis nach primärer nichtoperativer Ausbehandlung ihrer distalen Radiusfraktur in Aussicht stellen. Natürlich haben Sie es nicht jeden Tag mit älteren Patient(inn)en mit der beschriebenen Verletzung zu tun, die körperlich aktiv sind, eine hohe Gesundheitskompetenz („health literacy“) aufweisen, sich der Wichtigkeit kontrollierter klinischer Studien bewusst sind oder danach fragen. Als Kliniker(in) werden Sie einwenden, dass die spezifische Fraktur gut reponibel sein muss, um die besten Voraussetzungen für eine nichtoperative Ausbehandlung zu ermöglichen. Auch würden Sie Margaret M. natürlich empfehlen, sich nach ihrer Rückkehr in das Vereinigte Königreich in ärztliche Weiterbehandlung zu geben – aber im konkreten Szenario helfen Ihnen die Daten aus den oben genannten Studien, wissensbasiert partizipativ zu entscheiden. Score-basierte Endpunkte verlangen eine Gewichtung verschiedener Items und Dimensionen – eine Einschätzung von Betroffenen, ob die Therapie aus ihrer Sicht erfolgreich war, Symptome linderte oder die Funktion wiederherstellte, könnte den Nutzen einer Intervention evtl. besser beschreiben. Validierte Scores wie DASH, Western Ontario and McMaster Universities Osteoarthritis Index (WOMAC), International Knee Documentation Committee (IKDC) Score, Lysholm Score, Harris Hip Score u. v. a. erlauben jedoch den interkulturellen und internationalen Vergleich der Ergebnisse einzelner Studien. Wenn Sie Mittelwerte und Mittelwertdifferenzen zwischen verschiedenen Untersuchungen aggregieren und gleichzeitig Aussagen über die klinische Relevanz von Beobachtungen treffen wollen, bietet es sich an, Effektstärken zu berechnen [25]. Die Effektstärke ist in etwa die Mittelwertdifferenz in einem Score oder einer sonstigen stetigen Messgröße, geteilt durch die gemeinsame Standardabweichung (in erster Näherung auch durch die Standardabweichung in der Kontrollgruppe). Effektstärken um 0,2 gelten als klinisch wenig relevant, um 0,5 als moderat, ab 0,8 als stark [26]. Effektstärken Die Ergebnisse von ORCHID und CROSSFIRE im Forest-Plot-Format illustriert Abb. 3. Hierbei wiederum gilt – je näher die Punktschätzer (illustriert durch Quadrate, Kreise oder Rauten) am Wert Null (bei Mittelwert- oder absoluten Risikodifferenzen) bzw. dem Wert Eins (bei relativen Risikomaßen wie „risk ratio“ bzw. relativem Risiko, „odds ratio“, „hazard ratio“ usw.) liegen, umso geringer der Therapieeffekt. Das 95 %-Konfidenzintervall (95 %-KI, horizontale Fehlerindikatoren) ist wie folgt zu interpretieren: Würden Sie die Studie 100-mal wiederholen, würde das wahre Ergebnis in 95 von 100 Fällen innerhalb des 95 %-KI liegen.

95 %-Konfidenzintervall Es gibt statistische Zusammenhänge zwischen dem Konfidenzintervall, dem vor Beginn einer Studie festzulegenden Fehler 1. Art α (das für die individuelle Studie akzeptable Risiko für per Zufall auftretende Ergebnisse) und dem nach Abschluss der Studie zu ermittelnden -Wert (dem Gradmesser der Wahrscheinlichkeit, dass die erhobenen Daten tatsächlich mit dem Zufall vereinbar sind). Fehler 1. Art α p-Wert Der Statistiker, Genetiker und Evolutionstheoretiker Sir Ronald Aylmer Fisher (1890–1962) schlug vor, dass ein Versuchsaufbau, der in weniger als einem von 20 Fällen (also 5 %) falsch-positive Ergebnisse liefert, es verdient, in weiteren Experimenten bestätigt oder widerlegt zu werden [27]. Dem vorgeschlagenen Grenzwert liegen eine Normalverteilung und die Regel der 2 Standardabweichungen für die statistische Signifikanz zugrunde. Sir Ronald Aylmer Fisher Derzeit gibt es eine methodische Debatte darüber, ob der „klassische“ Grenzwert von 0,05 im Hinblick auf die wissenschaftliche Informations- und Manuskriptflut zur Vermeidung falsch-positiver, durch Zufall entstandener Ergebnisse auf 0,005 herabgesenkt werden sollte [28, 29]. Nehmen Sie an dieser Stelle mit, dass der Begriff „statistische Signifikanz“ beschreibt, ob ein Ergebnis (noch) mit dem Zufall vereinbar ist; in einem guten Manuskript mit ausführlichem Statistikteil begründet werden sollte, wie der Fehler 1. Art (α) festgelegt wurde; in einem guten Manuskript auch die Wahl des p‑Wertes begründet werden sollte. Wird lediglich eine Floskel wie „The p value was set at <0,05“ in ihren verschiedenen „Copy-and-paste“-Spielarten ohne nähere Ausführung genannt, sollte das zugrunde liegende methodische Rahmenwerk kritisch hinterfragt werden. Die Effektstärken im EQ5D-VAS und -Index nach 3 Monaten sowie dem EQ5D-Index nach 12 Monaten waren in ORCHID und CROSSFIRE nahezu identisch (Abb. 3). Strikte Rahmenbedingungen führten zu einer strengen Patientenselektion und damit einer Gesamtstichprobe von 320 Teilnehmenden. Warum sollten Sie als erfahrene(r) Unfallchirurg(in) oder Orthopäde/Orthopädin den beschriebenen Studien dennoch vertrauen und Aufmerksamkeit schenken? Die Antwort lautet: Weil sie so frei von systematischen Fehlern sind, wie methodisch machbar. Das Prinzip hinter der Randomisierung ist, dass durch Zufall bekannte (wie z. B. Alter, Geschlecht, Body-Mass-Index, Grunderkrankungen etc.) und damit auch unbekannte oder routinemäßig nichterfasste Risikovariablen (z. B. bestimmte genetische Faktoren) gleichmäßig auf die Behandlungsgruppen verteilt werden. Nach Erfahrungswerten funktioniert die zufällige Balancierung der Ausgangsrisiken ab etwa 100 Studienteilnehmern/Gruppe zuverlässig. Die meisten randomisierten Studien in Orthopädie und Unfallchirurgie weisen eher kleinere Stichprobengrößen (<100 Teilnehmende) auf – Differenzen von 10 % in kategoriellen oder binären Größen (z. B. Geschlechtsverteilung, Häufigkeit intraartikulärer oder offener Frakturen, Anteil von Rauchern oder Menschen mit Diabetes etc.) oder 10 Punkten in stetigen Größen (z. B. Alter, Body-Mass-Index etc.) sind nicht selten. Grundsätzlich ist es kein Problem, wenn derartige Unterschiede einem Zufallsmuster folgen – also z. B. Risikofaktoren in der einen oder anderen Gruppe stärker vertreten sind. Wenn sich jedoch alle Risikofaktoren in einer Therapiegruppe häufen, kann ein systematischer Fehler, der die Ergebnisse verzerren kann, nicht ausgeschlossen werden (Tab. 1).

Szenario 1: ideale Randomisierung			Szenario 2: zufällige Ungleichverteilung von Risikofaktoren in beiden Interventionsgruppen			Szenario 3: überzufällige Verteilung von Risikofaktoren in eine Interventionsgruppe
Variable	Platte	Nagel	Variable	Platte	Nagel	Variable	Platte	Nagel
n	51	52	n	51	52	n	51	52
Geschlecht			Geschlecht			Geschlecht
Weiblich	21 (41 %)	20 (38 %)	Weiblich	15 (29 %)	22 (42 %)	Weiblich	15 (29 %)	22 (42 %)
Männlich	29 (59 %)	30 (62 %)	Männlich	36 (71 %)	30 (58 %)	Männlich	36 (71 %)	30 (58 %)
Alter (Jahre)	45 (± 9)	47 (± 10)	Alter (Jahre)	42 (± 8)	49 (± 10)	Alter (Jahre)	49 (± 10)	42 (± 8)
BMI (kg/m²)	25 (± 5)	24 (± 6)	BMI (kg/m²)	29 (± 8)	23 (± 7)	BMI (kg/m²)	29 (± 8)	23 (± 7)
Raucher	10 (20 %)	9 (17 %)	Raucher	5 (10 %)	12 (23 %)	Raucher	12 (24 %)	5 (10 %)
Diabetes	4 (8 %)	7 (15 %)	Diabetes	10 (20 %)	3 (6 %)	Diabetes	10 (20 %)	3 (6 %)

In nichtrandomisierten bzw. Beobachtungsstudien müssen Unterschiede im Basisprofil mithilfe statistischer Verfahren (Matching, multivariate Regression etc.) korrigiert werden. Ein weit verbreitetes und etabliertes Verfahren ist das sog. Propensity Score Matching, das auch als „Pseudorandomisierung“ bezeichnet wird [30, 31]. Hierbei wird z. B. in einem Register zunächst die Wahrscheinlichkeit ermittelt, warum Patient(inn)en mit einem bestimmten Frakturtyp die eine oder andere Behandlung erhielten. Endpunkte werden zwischen denjenigen Patient(inn)en verglichen, die die gleiche Wahrscheinlichkeit hatten, die eine oder andere Behandlung zu erhalten. Das Propensity Score Matching kommt bei der Gleichverteilung von Ausgangsrisiken nahe an das Ideal der Randomisierung heran, wenngleich nur bekannte Risikofaktoren berücksichtigt werden können und die Stichprobe einer Stichprobe analysiert wird. Propensity Score Matching Die Methode ist daher v. a. für sehr große Datensätze geeignet [32]. So konnte z. B. in einer kombinierten Analyse von Datensätzen der ADAC Luftrettung und des TraumaRegister DGU® (AUC – Akademie der Unfallchirurgie GmbH, München, Deutschland) mithilfe des Propensity Score Matching die im Clinical randomisation of an antifibrinolytic in significant haemorrhage 2 trial (CRASH‑2, [33]) beobachtete Reduktion der Sterblichkeit Schwerverletzter durch eine präklinische Gabe von Tranexamsäure bestätigt werden [34].

Fazit für die Praxis

Wir haben Ihnen 1. das Problem der wissenschaftlichen Informationsexplosion beschrieben, 2. Grundprinzipen von Wahrscheinlichkeit und der Bayes-Theorie der Verschiebung von Vor- hin zu Nachtestwahrscheinlichkeiten unter Einbeziehung Ihres Erfahrungswissens erläutert, und 3. illustriert, dass Randomized controlled trials (RCT) die gängige Praxis auf den Prüfstand stellen, falls ihre Ergebnisse in einer unabhängigen Studie reproduziert werden können. Behalten Sie beim Lesen medizinischer Veröffentlichungen immer das Risiko für systematische Fehler, die den stärksten Einfluss auf Studienergebnisse nehmen, im Auge. Die Randomisierung ist die derzeit einzige methodische Option, um das Risiko für systematische Fehler sicher zu minimieren. Insbesondere bei einer offensichtlichen Ungleichverteilung im demografischen Basisprofil sollten Sie aufmerksam sein – die Daten müssen in diesem Fall durch statistische Verfahren korrigiert werden.

25 in total

1. The role of biostatistics in the prevention, detection and treatment of fraud in clinical trials.

Authors: M Buyse; S L George; S Evans; N L Geller; J Ranstam; B Scherrer; E Lesaffre; G Murray; L Edler; J Hutton; T Colton; P Lachenbruch; B L Verma
Journal: Stat Med Date: 1999-12-30 Impact factor: 2.373

Review 2. Heuristic decision making.

Authors: Gerd Gigerenzer; Wolfgang Gaissmaier
Journal: Annu Rev Psychol Date: 2011 Impact factor: 24.137

3. The changing landscape of product development and randomized trials.

Authors: Dirk Stengel
Journal: J Bone Joint Surg Am Date: 2012-07-18 Impact factor: 5.284

4. Propensity Score Matching: A Statistical Method.

Authors: Liam T Kane; Taolin Fang; Matthew S Galetta; Dhruv K C Goyal; Kristen J Nicholson; Christopher K Kepler; Alexander R Vaccaro; Gregory D Schroeder
Journal: Clin Spine Surg Date: 2020-04 Impact factor: 1.876

5. Effects of tranexamic acid on death, vascular occlusive events, and blood transfusion in trauma patients with significant haemorrhage (CRASH-2): a randomised, placebo-controlled trial.

Authors: Haleema Shakur; Ian Roberts; Raúl Bautista; José Caballero; Tim Coats; Yashbir Dewan; Hesham El-Sayed; Tamar Gogichaishvili; Sanjay Gupta; Jorge Herrera; Beverley Hunt; Pius Iribhogbe; Mario Izurieta; Hussein Khamis; Edward Komolafe; María-Acelia Marrero; Jorge Mejía-Mantilla; Jaime Miranda; Carlos Morales; Oluwole Olaomi; Fatos Olldashi; Pablo Perel; Richard Peto; P V Ramana; R R Ravi; Surakrant Yutthakasemsunt
Journal: Lancet Date: 2010-06-14 Impact factor: 79.321

6. Prehospital administration of tranexamic acid in trauma patients.

Authors: Arasch Wafaisade; Rolf Lefering; Bertil Bouillon; Andreas B Böhmer; Michael Gäßler; Matthias Ruppert
Journal: Crit Care Date: 2016-05-12 Impact factor: 9.097

7. The Meaningfulness of Effect Sizes in Psychological Research: Differences Between Sub-Disciplines and the Impact of Potential Biases.

Authors: Thomas Schäfer; Marcus A Schwarz
Journal: Front Psychol Date: 2019-04-11

Review 8. Biomechanical and Clinical Effect of Patient-Specific or Customized Knee Implants: A Review.

Authors: Jin-Ah Lee; Yong-Gon Koh; Kyoung-Tak Kang
Journal: J Clin Med Date: 2020-05-21 Impact factor: 4.241

9. Percutaneous fixation with Kirschner wires versus volar locking plate fixation in adults with dorsally displaced fracture of distal radius: randomised controlled trial.

Authors: Matthew L Costa; Juul Achten; Nick R Parsons; Amar Rangan; Damian Griffin; Sandy Tubeuf; Sarah E Lamb
Journal: BMJ Date: 2014-08-05

Review 10. Consensus statement for perioperative care in total hip replacement and total knee replacement surgery: Enhanced Recovery After Surgery (ERAS^®) Society recommendations.

Authors: Thomas W Wainwright; Mike Gill; David A McDonald; Robert G Middleton; Mike Reed; Opinder Sahota; Piers Yates; Olle Ljungqvist
Journal: Acta Orthop Date: 2019-10-30 Impact factor: 3.717

1 in total

1. [Interpretation of systematic review articles and meta-analyses : Clinical trials in trauma surgery and orthopedics].

Authors: Dirk Stengel; Wolf Mutschler; Luzi Dubs; Stephan Kirschner; Tobias Renkawitz
Journal: Unfallchirurgie (Heidelb) Date: 2022-09-27