Ist das chinesische Schilddrüsen-Bildgebungssystem besser als die amerikanischen Leitlinien zur Diagnose von Schilddrüsenkrebs?

Ist das chinesische Schilddrüsen-Bildgebungssystem besser als die amerikanischen Leitlinien zur Diagnose von Schilddrüsenkrebs?

Schilddrüsenknoten sind ein häufiger Befund in der medizinischen Praxis. In den letzten drei Jahrzehnten ist ihre Häufigkeit stark gestiegen. Ultraschall ist nach wie vor das wichtigste Werkzeug, um gutartige von bösartigen Knoten zu unterscheiden. Doch die zunehmende Entdeckung kleiner Knoten, besonders solcher unter 1 cm, hat die Herausforderung vergrößert, unnötige Biopsien zu vermeiden. Standardisierte Bewertungssysteme wie die Thyroid Imaging Reporting and Data Systems (TI-RADS) sollen die Diagnosegenauigkeit verbessern und die Übereinstimmung zwischen verschiedenen Ärzten erhöhen. Unter diesen Systemen werden die amerikanischen Leitlinien (ACR-TIRADS und ATA) und das neue chinesische TI-RADS (C-TIRADS) oft verglichen. Diese Studie untersucht, ob C-TIRADS in der Diagnose von Schilddrüsenkrebs besser abschneidet.

Studie und Methode

Die retrospektive Studie analysierte 1.000 Patienten (1.211 Knoten) aus zwei chinesischen Kliniken zwischen Januar 2017 und März 2021. Eingeschlossen wurden nur Knoten, deren Diagnose durch eine Operation oder eine Gewebeprobe (Biopsie) bestätigt wurde. Ausgeschlossen wurden Fälle mit schlechten Ultraschallbildern, unklaren Ergebnissen oder vorherigen Behandlungen, die die Bewertung beeinflussen könnten. Die Ultraschalluntersuchungen wurden mit modernen Geräten durchgeführt, und die Bilder wurden von erfahrenen Radiologen ausgewertet.

Die pathologischen Ergebnisse zeigten, dass 539 Knoten (44,5 %) gutartig und 672 (55,5 %) bösartig waren. Bösartige Knoten waren kleiner (Durchschnitt: 1,09 cm) im Vergleich zu gutartigen (1,92 cm), und die Patienten waren jünger (43,17 Jahre vs. 48,58 Jahre).

Bewertung der Knoten

Die Knoten wurden nach den Kriterien von ACR-TIRADS, ATA und C-TIRADS eingeteilt. Das Risiko für Bösartigkeit wurde in allen Systemen vergleichbar gemacht:

ACR-TIRADS: Kategorien 1–2 (Risiko <2 %), 3 (5 %), 4 (5 %–20 %) und 5 (>20 %).
ATA: „Gutartig“ (<3 %), "Geringes Risiko" (5 %–10 %), "Mittleres Risiko" (10 %–20 %) und "Hohes Risiko" (70 %–90 %).
C-TIRADS: Kategorien 1–3 (<2 %), 4A (2 %–10 %), 4B (10 %–50 %), 4C/5/6 (>50 %).

Die diagnostische Genauigkeit wurde mit ROC-Kurven (Receiver Operating Characteristic) bewertet, und die Übereinstimmung zwischen den Bewertungen wurde mit Kappa-Statistiken gemessen.

Wichtige Ergebnisse

Übereinstimmung zwischen den Ärzten

C-TIRADS zeigte eine fast perfekte Übereinstimmung (Kappa = 0,824) und übertraf damit ACR-TIRADS (Kappa = 0,798) und ATA (Kappa = 0,714). Die größten Unterschiede gab es bei der Bewertung der Ränder der Knoten, während andere Merkmale (Form, Zusammensetzung, Echogenität, Verkalkungen) gut übereinstimmten.

Übereinstimmung zwischen den Systemen

C-TIRADS stimmte moderat mit ACR-TIRADS überein (Kappa = 0,627), aber nur gering mit ATA (Kappa = 0,494). Die Ähnlichkeit zu ACR-TIRADS liegt wahrscheinlich an den ähnlichen Risikokategorien und Merkmalsdefinitionen.

Diagnostische Genauigkeit

Die ROC-Analyse zeigte, dass C-TIRADS (AUC = 0,846) besser abschnitt als ACR-TIRADS (AUC = 0,782) und ATA (AUC = 0,737). Die besten Cut-off-Werte für Sensitivität und Spezifität waren:

C-TIRADS: Kategorie 4C (Risiko >50 %).
ACR-TIRADS: Kategorie 5 (TR5).
ATA: „Hohes Risiko.“

Sensitivität und Spezifität

C-TIRADS: Sensitivität = 84,08 %, Spezifität = 78,85 %, Genauigkeit = 81,75 %.
ACR-TIRADS: Sensitivität = 89,43 %, Spezifität = 63,08 %, Genauigkeit = 77,70 %.
ATA: Sensitivität = 96,73 %, Spezifität = 49,72 %, Genauigkeit = 75,81 %.

C-TIRADS hatte die höchste Spezifität und Genauigkeit und reduzierte unnötige Biopsien. ATA hatte eine hohe Sensitivität (96,73 %), aber eine niedrige Spezifität (49,72 %), was zu mehr falsch positiven Ergebnissen führte.

Klinische Bedeutung

Die Überlegenheit von C-TIRADS liegt wahrscheinlich an der klaren Bewertung der Merkmale und der Vermeidung von unscharfen Kriterien. Im Gegensatz zu ACR-TIRADS, das variable Risikopunkte vergibt, verwendet C-TIRADS feste Gewichtungen und berücksichtigt auch gutartige Merkmale (z. B. schwammartige oder flüssigkeitsgefüllte Anteile) mit negativen Punkten. Dies reduziert die subjektive Variabilität bei der Bewertung. ATA hingegen stützt sich auf einzelne bösartige Merkmale ohne kombinierte Risikobewertung, was die Biopsierate erhöht.

Einschränkungen

Die retrospektive Studie hatte eine Auswahlverzerrung, da nur Knoten, die für eine Biopsie oder Operation vorgesehen waren, eingeschlossen wurden. Die Einbeziehung von nur zwei Radiologen begrenzt die Allgemeingültigkeit, obwohl der Konsensprozess die Variabilität minimierte.

Fazit

C-TIRADS zeigt eine bessere Übereinstimmung zwischen den Ärzten und eine höhere diagnostische Genauigkeit im Vergleich zu ACR-TIRADS und ATA. Die höhere Spezifität reduziert unnötige Biopsien, während die Sensitivität erhalten bleibt. Dies unterstützt das Ziel, Überdiagnosen und Überbehandlungen bei Schilddrüsenkrebs zu vermeiden. Die Ergebnisse unterstreichen den Nutzen von C-TIRADS in chinesischen Populationen und betonen die Notwendigkeit von regional angepassten Leitlinien.

doi.org/10.1097/CM9.0000000000002061
For educational purposes only.