Daten aus der klinischen Routine – Was sind die Herausforderungen an eine Forschungsplattform?

Einleitung
Im Projekt GANI_MED (Greifswald Approach to Individualized Medicine) werden am Institut für Community Medicine der Universitätsmedizin Greifswald auf der Basis von individuellem informed consent fachbereichsübergreifende medizinische Daten aus dem Versorgungskontext und aus Studienuntersuchungen in einer gemeinsamen Forschungsdatenbank gespeichert. Diese Daten umfassen mittels elektronischer Formulare (eCRF) erfasste Anamnese-Daten, sowie von diagnostischen Geräten oder Laborsystemen erhobene medizinische Daten und Referenzen auf vorhandene Bioproben. Die Inhalte der Forschungsplattform werden für die Beantwortung von Forschungsvorhaben aufbereitet und bereitgestellt.

Die Qualität solcher Forschungsvorhaben wird wesentlich durch die Metadaten der Messdaten beeinflusst. Metadaten beschreiben die Messdaten, modellieren die Semantik und den Messkontext. Zum Beispiel ist die Messung der Glucose-Konzentration wertlos, wenn nicht bekannt ist, ob er im Urin oder im Blut gemessen wurde. Die Aussagekraft von Messdaten wird also wesentlich von ihrer genauest möglichen Beschreibung beeinflusst.

Herausforderung
Die Pflege und Verfügbarmachung von Metadaten ist aufgrund der kontinuierlichen Einbindung weiterer Geräte, Einbindung neuer Kohorten, daraus resultierender Vereinheitlichung von Erhebungswerkzeugen und der Erfassung von zunächst unbekannten Daten aus der klinischen Routine eine besondere Herausforderung.

Sowohl die Struktur des Metadatenkatalogs als auch der Forschungsdatenbank müssen generisch, flexibel und wiederverwendbar Ansätze gestaltet sein, damit sie den kontinuierlichen Veränderungen gewachsen sind.

Methoden
In den Strukturentwurf des Metadatenkatalogs sind Metadaten-Strukturen verschiedener Projekte eingeflossen. Der Entwurf der Forschungsdatenbank wurde projektübergreifend modelliert.

Die beiden Strukturen wurden durch ein Object-Relation-Modell (OR-Modell) abgebildet. Dieses Modell wird durch ein Framework in ein Entity-Relation-Modell (ER-Modell) zur Persistierung in eine herkömmliche relationale Datenbank überführt.

Ergebnisse
Der generische Ansatz des Metadatenkataloges und der Forschungsplattform wurden erfolgreich umgesetzt. Im nächsten Schritt werden diese in ein DFG-Projekt (HO 1937/2-1) einfließen, das sich die allgemeinverfügbare Bereitstellung solcher Softwarekomponenten im Rahmen eines modularen Unterstützungssystem für medizinische Studien im klinischen epidemiologischen Kontext zum Ziel gesetzt hat.

Das Modell des Metadatenkataloges ist geeignet, um Metadaten unterschiedlichen Ursprungs zu extrahieren – eine wesentliche Voraussetzung, um Metadaten aus zunächst nicht bekannten Daten zeitnah zur Verfügung zu stellen. Mit Hilfe eines „Lookup-Matching-Mechanismus“ auf Basis regulärer Ausdrücke können Messpunkte ihren Metadaten zugeführt werden.

Schlussfolgerungen
Die implementierten Verfahren bieten in einem weiteren Schritt die Möglichkeit automatisiert neue Datenpunkte im laufenden ETL-Prozess zu „lernen“ und bereits mit ersten Metadaten zu versehen, die dann in einem nachgelagerten Schritt ergänzt werden. Durch weitere methodische Forschung werden Grad und Güte der Automatisierung am Beispiel neuer Datenquellen untersucht.