Datenverwaltung
(Webinterface und Datenbank
eines biologischen Forschungsverbundes)

(Stand: Juli 2017)

Hintergrund


Immer mehr biologische und medizinische Experimente generieren große Da­ten­men­gen. Diese werden im Hinblick auf die jeweilige Fra­ge­stel­lung analysiert (Beispiel für eine solche Analyse durch BioControl Jena: Omics-Analyse). Nach Abschluss des Experiments und der Analyse muss sichergestellt sein, dass die Daten selbst sowie alle relevanten Me­ta­da­ten auch weiterhin verfügbar bleiben. In großen For­schungs­ver­bün­den sollen außerdem zumindest die Me­ta­da­ten von allen Mitgliedern zentral an einer Stelle gespeichert und dadurch rechtegesteuert für alle zugänglich sein. Die Erstellung einer Datenbank (Back-end) und eines Web­in­ter­face (Front-end) für den Zugriff darauf wird im Folgenden beispielhaft dargestellt. Diese web-basierte Lö­sung ist im aktiven Einsatz durch einen biologischen Forschungsverbund (Zwi­schen­stand: Juli 2017).

Back-end


Datenerfassung

Microsoft Excel® ist ein weit verbreitetes Werkzeug für die Da­ten­er­fas­sung und kann mittels VBA auch an unterschiedliche Fra­ge­stel­lungen angepasst werden. Daher wur­den für die Erfassung der Metadaten aus den RNA-seq-, Microarray- und LC-MS/MS-Experimenten Excel®-Tem­plates ent­wor­fen. Diese werden von den Ex­pe­ri­men­ta­to­ren in Zusammenarbeit mit den an der Datenanalyse beteiligten Bio­in­for­ma­ti­kern ausgefüllt und anschließend mithilfe eines Parsers in die Datenbank übersetzt.

Das erste Blatt jeder Datei dient der Aufnahme allgemeiner, experimentbezogener Daten wie z. B. Experimenttitel und -beschreibung, experimentelle Parameter oder beteiligte Personen:

metadataDescription

Im zweiten Blatt werden dann In­for­ma­tio­nen zu den einzelnen biologischen Proben gesammelt (z. B. Organismus und Stamm, experimentelle Bedingungen, Parameter der Datenanalyse). Je nach Art des Ex­pe­ri­ments ist das sehr umfangreich. Deshalb können die In­for­ma­tio­nen, die für alle Proben gleich sind, per Makro mit einem Klick in alle relevanten Zeilen übertragen werden, und nur die probenspezifischen Daten werden dann einzeln nachgetragen. Die meisten Einträge werden dabei durch Auswahllisten realisiert, um ein standardisiertes Vokabular zu erhalten. Dabei erfolgt eine Orientierung an der MGED-On­to­lo­gie bzw. der PSI-MS-On­to­lo­gie um Ver­gleich­bar­keit zu anderen öffentlichen Da­ten­ban­ken zu gewährleisten. Die tatsächlichen, im Experiment generierten Da­ten werden im Template nur über ihren Speicherort erfasst; das Tem­plate selbst enthält ausschließlich Metadaten.

Datenspeicherung

Objektrelationale Datenbanken sind heutzutage Standard für die effektive (d. h. insbesondere speicherplatz- und zugriffszeitsparende) Spei­che­rung großer Da­ten­men­gen. Aufgrund positiver Erfahrungen in der Vergangenheit und Eignung für den An­wen­dungs­fall wurde PostgreSQL als Da­ten­bank­ma­nage­ment­sys­tem ausgewählt. Vor Erstellung der Da­ten­bank muss dabei die Datenstruktur genau bedacht werden, um der Vielfalt der biologischen Daten gerecht zu werden und maximale Er­wei­ter­bar­keit zu erhalten (hier ein Ausschnitt des zugehörigen En­ti­ty-Re­la­tion­ship-Dia­gramms). Die hier verwendete Da­ten­struk­tur orientiert sich an den Templates, die zur Datenerfassung genutzt werden, und ist optimiert für die Spei­che­rung von Metadaten aus Hoch­durch­satz-Ex­pe­ri­men­ten:

ERModel

Front-end


Für den Zugriff auf die Datenbank bietet sich eine web-basierte Lösung an, da mehrere Institutionen Daten generieren und auf diese von den verschiedenen Stand­or­ten aus zugegriffen werden soll. Der Da­ten­bank­zu­griff selbst wurde dabei mittels PHP realisiert, während die Dar­stel­lung als Webinterface in HTML, CSS und JavaScript implementiert wurde. Bei entsprechender Berechtigung kann ein Nutzer sich nun online alle relevanten Metadaten eines Experiments anschauen (der Ex­pe­ri­ment­ti­tel wurde im Bild entfernt, da die Daten nicht öffentlich zugänglich sind):

frontend1

Die dazugehörigen experimentellen Roh­da­ten sind hierbei (wie auch in den Templates) nur verlinkt, so dass die Ex­pe­ri­men­ta­to­ren kontaktiert werden müs­sen, um ihre Daten einsehen zu dürfen. Ein­zel­ne Ergebnisse (d. h. Gen- bzw. Pro­tein­li­s­ten) der Analysen verschiedener Be­din­gun­gen eines Experiments werden aber in der Web-Oberfläche tabellarisch oder geplottet zur Verfügung gestellt:

frontend2

Mithilfe der Filter- und Vi­su­a­li­sie­rungs­pa­ra­me­ter können die Tabellen und Plots angepasst werden und so beispielsweise verschiedene Schwell­wer­te für Foldchanges oder p-Wer­te getestet oder unterschiedliche experimentelle Bedingungen wie auch Softwareeinstellungen verglichen werden. Die Genlisten sind außerdem verlinkt zu externen Datenbanken. So kann zu jedem Experiment das Maximum an verfügbaren Informationen gesammelt und genutzt wer­den.


Diese kurze Beschreibung eines aktuellen Anwendungsbeispiels zeigt nur einen Teil der Möglichkeiten, die sich vor allem an den Wünschen der Anwender orientieren (so soll beispielsweise die beschriebene Anwendung im Front-end um eine Upload-Maske sowie Schnittstellen zu externen Tools für Genomvisualisierung und Netz­werk­ana­ly­se ergänzt werden).