Gedbas4all/Artikel
Gedbas4all – neues Datenmodell für die Genealogie
von Jesper Zedlitz
Die ergebnisorientierte Forschung und Dokumentation mittels GEDCOM bereitet Genealogen immer wieder Probleme, die mit einem quellenorientierten Datenmodell umgangen werden könnten. Der Beitrag zeigt zunächst an einem Beispiel einen typischen Problemfall und schildert anschließend den möglichen Lösungsansatz mittels eines neuen Datenmodells: Gedbas4all.
Ein gute Informationsverwaltung ist das A und O, sowohl für den ambitionierten Hobbyfamiliengeschichtsforscher als auch für den Genealogen mit wissenschaftlichen Ansprüchen. Leicht passieren bei der Arbeit Fehler, die später für Verwirrung und falsche Schlüsse sorgen. Eine Ursache dafür ist das ergebnisorientierte Arbeiten, bei dem selbst bei sorgfältiger Dokumentation der Forschung Schwierigkeiten auftreten. Als Beispiel möchte ich einen Fall zeigen, der mir selbst im Laufe meiner genealogischen Forschung begegnet ist: Beim Lesen im Kirchenbuch der evangelischen Kirche Seitendorf, Kreis Schönau, Schlesien fand ich einen Taufeintrag für "Christiane Caroline Zedlitz, Tochter der Christiana Beata Zedlitz, geboren 1843" (siehe Abbildung 1a).
Einige Jahre später, 1853, gibt es einen Heiratseintrag für Christiane Beate Zedlitz mit Herrmann. Meine erste Vermutung war, dass es sich bei der Frau in beiden Fällen um ein und dieselbe Person handelt - das Alter der Braut passt und auch die Vertauschung a/e am Ende des Vornamens ist typisch für das betreffende Kirchenbuch (Abbildung 1b).
Knapp ein Jahr später wird eine totgeborene Tochter des Ehepaars Herrmann/Zedlitz verzeichnet. So ergab sich für mich nun das in den Abbildung 1c dargestellte Bild der Familienzusammenhänge:
Bei weiteren Nachforschungen traf ich auf das Beerdigungsverzeichnis der Kirchengemeinde. Zu meinem großen Erstaunen entdeckte ich dort im Jahre 1846 einen Sterbeeintrag für Christiane Beate Zedlitz (Abbildung 2) - meine bisherige Theorie hat sich als falsch herausgestellt.
Nun stellte sich die komplizierte Aufgabe, die falsch notierten Familienergebnisse wieder zu entflechten - ich habe mich für eine komplette Neueingabe entschieden. Was ist da passiert? Ein abstrakter Blick auf unser Forschungsgebiet (Abbildung 3) zeigt die Schwierigkeiten, mit denen wir im Laufen unserer Forschung zu tun haben:
Eine Freude für jeden Familiengeschichtsforscher ist Vergangenheit, die durch Quellen belegt ist (A). Es gibt jedoch auch Quellen, die falsche Informationen enthalten, sei es durch zufällige Fehler oder durch absichtliche Falschdarstelung (B). Ein weiterer Teil der Vergangenheit ist nicht durch schriftliche Dokumentation belegt (C). Hier sind die Familienforscher gefragt, aufgrund ihrer Erfahrungen, aus bestehenden Informationen Schlussfolgerungen zu ziehen. So kann man, wenn es keinen Geburtseintrag gibt, dieses erschließen, wenn man eine Heiratsurkunde mit Altersangabe der Eheleute findet Neben den Fällen, in denen diese Schlussfolgerungen korrekt sind (C1), passiert es natürlich auch, dass man falsch liegt (C2). Die Dokumentation genealogischer Forschung macht den Weg durch diese Teile unseres Forschungsgebietes nachvollziehbar. Es muss dabei jedoch erkennbar bleiben, aus welchem Teil notierte Informationen stammen. Der Fehler im eingangs gezeigten Beispiel, durch das vertraute, ergebnisorientierte Datenmodell von GEDCOM quasi proviziert, entstand durch die Vermischung von Daten aus Quellen mit eigenen Schlussfolgerungen. Mischt man beide Arten von Informationen, wird eine spätere Überprüfung und ggf. Korrektur so gut wie unmöglich.
Fehler richtig korrigieren
Fehler bei genealogischer Arbeit lassen sich nicht vermeiden – das hat Herbert Stoyan in seinem Vortrag "Der Fehler in genealogischen Systemen" beim 61. Deutscher Genealogentag, im September 2009 in Bielefeld gezeigt. Ein offener Umgang mit Fehlern ist daher unerlässlich für seriöse Forschung. Er hilft zum einen bei der eigenen Arbeit: Stößt man - vielleicht Jahre - später wieder auf die gleiche unklare oder falsche Information, spart man sich viel (vielleicht sogar fruchtloses) Nachdenken darüber, wie diese widersprüchlichen Daten zu den eigenen, bereits korrigierten Aufzeichnungen passen. Wie gut, wenn man notiert hat, dass man diesen Fall bereits in der Vergangenheit durchdacht hat.
Zum anderen vermeidet ein offener Umgang mit Fehlern, dass andere Forscher und Publikationen in ein schlechtes Licht geraten. Als fiktives Beispiel soll eine Online-Publikation dienen, bei der ein Geburtseintrag "18. Juni 1857" angegeben ist. In einer zweiten Publikation wird dieser Eintrag zitiert, ganz nach gängigen wissenschaftlichen Regeln. Später stellt der Autor der Online-Publikation fest, dass er sich bei dem Geburtseintrag vertippt hat und ändert stillschweigend das Jahr in "1875". Macht sich anschließend jemand die Mühe, die zweite Publikation zu überprüfen, wird er die Abweichung entdecken und zu Unrecht dem zweiten Autor ungenaue Arbeit vorwerfen - dabei haben sowohl zweiter Autor als auch Prüfer sorgfältig gearbeitet. Bei der Verwendung eines in dem oben zitierten Vortrag vorgeschlagenen Verfahrens zur Bewertung der Verlässlichkeit genealogischer Literatur würde das zweite Werk eine schlechte Note bekommen, dabei ist der eigentliche Fehler in der Online-Publikation gemacht worden. Es ist also geradezu fahrlässig und späteren Forschern gegenüber unfair, Fehler stillschweigend zu korrigieren und so unter den Tisch fallen zu lassen.
Quellenorientiertes Datenmodell
Die Lösung für diese Probleme liegt in der Verwendung eines quellenorientierten Datenmodells, das Informationen aus Quellen und Schlussfolgerungen klar voneinander trennt. In GENTECH, „Genealogical Data Model Phase 1“, Mai 2000 wird ein solches Modell vorgestellt, das als Grundlage für das hier vorgestellte Datenmodell dient. Zentraler Bestandteil ist die Schlussfolgerung (ASSERTION), die zwei andere Elemente (SUBJECT) miteinander verbindet (Abbildung 4).
Bei diesen SUBJECTs handelt es sich um das Vorkommen einer Person (PERSONA), eine Gruppe (GROUP), eine Eigenschaft (CHARACTERISTIC), ein Ereignis (EVENT) oder einen Gegenstand (THING). Darüber hinaus enthält eine ASSERTION Informationen darüber, auf welcher Quelle (SOURCE) sie basiert, wer die Schlussfolgerung gemacht hat, und ggf. zu welchem Projekt und Verein sie gehört. Neben positiven Schlussfolgerungen kann es auch negative geben, z.B. dass eine Person nicht Teil einer Gruppe war. Es sind nicht alle Kombinationen zwischen zwei SUBJECTs erlaubt, da sie keinen Sinn ergeben bzw. auf andere Weise besser verbunden werden. Doch zunächst eine Übersicht über die einzelnen Bestandteile:
- PERSONA
- Bei einem quellenorientierten Datenmodell ist es wichtig, dass für jede Quelle neue Personen angelegt werden. Erst in einem späteren Schritt - nämlich beim Schlussfolgern - werden Personen über mehrere Quellen hinweg verbunden. Unabhängig, wie offensichtlich die Übereinstimmung ist, es wird stets eine neue PERSONA erzeugt.
- GROUP
- Gruppen finden an vielen Stellen Verwendung. Der offensichtlichste Fall ist eine Gruppe von Personen, z.B. die Kinder einer Person, die Bewohner eines Hauses, die Mitglieder eines Regiments. Aber auch Dinge können eine Gruppe bilden, beispielsweise als Häuser einer Straße.
- CHARACTERISTIC
- Personen, Gruppen, Ereignisse und Dinge können Eigenschaften haben. Bei einem Menschen könnte dies z.B. der Name oder die Haarfarbe sein, bei einem Schiff der Name des Schiffs.
- EVENT
- Ereignisse finden zu einzelnen Zeitpunkten (Geburt, Hochzeit, Tod) oder über längere Zeiträume hin statt (Schifffahrt, Wohnen, Arbeiten).
- THING
- Dinge komme in einer Vielzahl von Fällen zum Einsatz: ein Haus, ein Schiff, eine Firma. Dinge können wir Personen mit Eigenschaften verknüpft werden. Sie können bei Ereignissen in Erscheinung treten, z.B. die Arbeit einer Person in einer Firma.
- SOURCE
- In einem quellenorientierten Datenmodell spielen Quellen naturgemäß eine große Rolle. Unter einer Quelle versteht man hier die abstrakte Quelle selbst, also das Kirchenbuch, den Grabstein, die Liste etc., nicht ein digitales Bild oder eine Abschrift davon. Letztgenanntes sind Repräsentationen (REPRESENTATION) einer Quelle. Zu jeder Quelle kann es eine Vielzahl von Repräsentationen geben. Quellen sind hierarchisch aufgebaut, d.h. eine Quelle kann wiederum aus mehreren untergeordneten Quellen bestehen. Am Beispiel eines Buches könnten dies sein: Buch → Seite → Eintrag. Bei der Bearbeitung sekundärer Literatur wird man auf Quellenangaben treffen. Um diese abzubilden, gibt es SOURCE_REFERENCE, eine Information der Art „In Quelle 1 steht, dass in Quelle 2 steht, dass ...“
- REPRESENTATION
- Bei Repräsentationen handelt es sich um Digitalisate von Quellen. Das kann z.B. der Text einer Kirchenbuchabschrift sein (Abbildung 5).
Das Foto eines Grabsteins ist ebenfalls eine Repräsentation, während der fotografierte Grabstein selbst die Quelle ist. Hat man mehrere Fotos des selben Grabsteins aufgenommen, handelt es sich einfach um eine Quelle mit mehreren Repräsentationen. Auch audiovisuelle Daten können eine Repräsentation darstellen, man denke an den Mitschnitt eines Interviews mit älteren Verwandten.
Nachdem nun die Bestandteile vorgestellt sind, soll noch einmal auf die erlaubten Kombinationsmöglichkeiten eingegangen werden (Abbildung 6).
Die Tabelle gibt einen Überblick, an einigen Beispielen sollen im Folgenden die Kombinationen verdeutlicht werden.
PERSONA-GROUP | Die Person war Mitglied des 1. Holsteinischen Dragonerregiments. |
PERSONA-CHARACTERISTIC | Die Person hatte blonde Haare. |
PERSONA-EVENT | Die Person nahm als Braut an der Hochzeit teil. |
THING-GROUP | Das Haus steht in der Bahnhofstraße. Besser zu merken als: Das Haus ist Teil der Häuser in der Bahnhofstraße. |
THING-CHARACTERISTIC | Der Name des Schiffes war "Unsinkbar 2". |
THING-EVENT | Das Schiff war an der Überfahrt von Bremen nach New York beteiligt. |
GROUP-CHARACTERISTIC | Der Name der Straße ist "Bahnhofstraße". |
GROUP-EVENT | Das Regiment nahm an der Schlacht bei Waterloo teil. |
Eigentlich plausibel erscheinen die Kombinationen PERSONA-PERSONA und THING-THING, um eine Gleichheit zu markieren. Bereits in [GDM] ist jedoch gezeigt, dass es geschickter ist, zunächst alle vermutlich identischen Personen in einer Gruppe zusammenzufassen und aus dieser Gruppe mit Hilfe einer GROUP-PERSONA Schlussfolgerung eine neue Person zu erzeugen.
Anzeige der Daten
Werden für jede Quelle alle vorkommenden Personen neu angelegt, könnte man vermuten, dass die Anzeige der verknüpften Daten sehr unübersichtlich wird. Der Schlüssel zu mehr Übersichtlichkeit besteht im Zusammenfassen von Informationen, die sich nicht widersprechen. Aus einer Vielzahl von Einzelnennungen wird so eine einzelne Angabe, die mit mehreren Quellenangaben (zu den Einzelnennungen) versehen ist. Erst wenn Widersprüche auftreten (z.B. zwei verschiedene Geburtsjahre) wird dies in der Anzeige hervorgehoben. So hat man diese unklaren Punkte schnell im Blick und kann ihnen nachgehen. Als Beispiel sollen einige Einträge aus Berliner Adressbüchern dienen (Abbildung 7).
Diese Quellenangaben lassen sich zu folgendem Informationen über die erwähnten Personen zusammenfassen:
Information | Wert | Quellen |
---|---|---|
Name | Ernst Alexander | [a] [b] [c] [d] |
Beruf | Hof-Tapezierer | [a] [b] [c] [d] [e] |
Tod | zwischen 1824 und 1825 | [d] [e] |
Wohnort | Berlin, Französischestraße 67 | [a] [b] [c] [d] [e] |
Ehefrau | D. Friedrich | [e] |
Tod | nach 1825 | [e] |
Quellen zusammenführen
In den Datenbanken des Vereins für Computergenealogie und regionaler genealogischer Vereine lagert ein großer Teil der genealogischen Information für den deutschsprachigen Raum. Jedoch sind die einzelnen Sammlungen derzeit untereinander so gut wie gar nicht verbunden. Eine Person taucht in mehreren Adressbüchern auf, es gibt Familienanzeigen in Zeitungen, Einträge in Kirchenbüchern, Rechnungsbüchern, Passagierlisten usw. Mit einer Möglichkeit, Verbindungen zwischen diesen Primärquellen herzustellen, erhielte man ein umfassendes Bild über die Lebensumständig der betreffenden Person. Macht man sich systematisch für einen Ort auf die Suche nach Verknüpfungen, entsteht dabei ein Ortsfamilienbuch mit umfangreichem Datenbestand. Die enge Verbindung zu Primärquellen gewährleistet eine hohe Qualität der Daten. Selbstverständlich ist es dabei unerlässlich, Angaben aus unterschiedlichen Primärquellen nicht zu vermischen und Schlussfolgerungen deutlich zu kennzeichnen. Auf diese Weise lassen sich die Ergebnisse leicht überprüfen und fehlerhafte Schlussfolgerungen ohne Auswirkungen auf die Primärquellen markieren und durch neue Schlussfolgerungen ersetzen.
Eine Voraussetzung für die Verknüpfung der Informationen ist eine zentrale Datenspeicherung. Auf diesen zentralen Speicher können die verschiedenen Webapplikationen zugreifen und ihre Daten lesen. Der gezielte Zugriff wird dadurch ermöglicht, dass zusätzlich zu den eigentlichen genealogischen Daten Informationen über ihre Quelle, den Forscher, das Projekt und ggf. den Verein gespeichert sind. So lassen sich die historischen Adressbücher anzeigen, ohne sie mit Daten z.B. der Familienanzeigen zu vermischen.