SlownikGeo

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen

en:SlownikGeo

Projektbeschreibung

Das Projekt wurde im Jahr 2015 beendet. Die extrahierten Seiten liegen aufbereitet mit teilweise Aufösung der Abkürzungen als Text vor und sind bei Comgen archiviert.

Hier finden Sie die Beschreibung des Projektes in Polnisch.

Einleitung

Texterschließung und Übersetzung der 16 Bände (14 785 Seiten) der Buchreihe: Słownik Geograficzny Królestwa Polskiego (i innych krajów slowianskich) (1880 - 1902) (deutsch: Geographisches Lexikon des Königreiches Polen (und anderer slawischer Länder)) - aus dem Polnischen ins Deutsche und Aufbereitung der darin enthaltenen Daten für das Genealogische Ortsverzeichnis GOV, GenWiki und Hic Leones.

Um sich einen Begriff zu machen, welche Arbeit der Herausgeber Filip Sulimierski und seine fast 700 Mitarbeiter in den Jahren 1880 - 1902 geleistet haben, vergegenwärtige man sich, dass der gesamte Text des Słownik Geograficzny (hintereinandergereiht als ein einziger Textfaden) eine Länge von etwa 130000 km hat (d.h. mehr als 3-mal um den Äquator ...).

Vorgeschichte

2003 veröffentlichte die PGSA die 16 Bände des Słownik Geograficzny Królestwa Polskiego auf CD-ROM (DJVU-Format). Dieses Projekt wurde durchgeführt von Rafał T. Prinke (Chefredakteur), Poznan, Poland, (Digitalisierung: Michał and Stanisław Prinke) und mit weiterem Material von William F. Hoffman und finanziert durch die PGSA (Projekt-Manager: Kenneth Czerwinski; Projekt-Kommittee: Marcia Bergman, Jim Czuchra, Virginia Hill, Rosalie Lindberg, Annmarie Utroska und Stanley Schmidt). Einige Einträge wurden durch Mitglieder der PGSA ins Englische übersetzt [1].

Idee

Die Bände des Słownik Geograficzny auf der CD-ROM der PGSA enthalten Beschreibungen aller Regionen, Städte, Dörfer und anderer Orte, Berge, Flüsse und Seen des Königreichs Polen (Kongresspolen) und im slawischen Sprachraum: die baltischen, westlichen und südlichen Gubernien (Gouvernements) des Russischen Reichs, Westpreußen und Ostpreußen, das Großherzogtum Posen und Preußisch Schlesien, Galizien, Wolhynien, Podolien, Polesien, Österreichisch Schlesien, Mähren, die slovakischen Teile von Ungarn und der Bukowina, und zusätzlich auch weitere wichtige Orte in den übrigen Gubernien im europäischen Russland (als da sind Landsitze, Kirchspiele, Eisenbahnstationen etc.) (geschätzt: etwa 315 000 - 350 000 Einträge), aber

  • es handelt sich um BILD-Dateien, die man nicht auf jeden Begriff hin absuchen kann und
  • es ist polnischer Text, der nicht jedem (deutschen) Forscher direkt zugänglich ist.

Es ist also wünschenswert, diesen Schatz an Informationen für Kultur- und Familienforscher als

  • TEXT-Datei (mit globalen Suchfunktionen absuchbar) und
  • in deutscher Sprache zugänglich zu machen.

Vorarbeiten

Der Vorversuch, die BILD-Dateien der Słownik-Geograficzny-CD-ROM durch OCR (Texterkennung mit FineReader, Ver. 6.0) zu digitalisieren, ergab sehr gute Resultate (> 95 % korrekte TEXT-Dateien), einschließlich der spezifischen polnischen Schriftzeichen.

Rechtliches

H.V.J.Kolbe (Hic Leones) kontaktierte die PGSA schriftlich mit Beispielen dieser OCR-Resultate und mit folgendem Vorschlag:

  • Die PGSA stellt Hic Leones die Bilddateien des Słownik Geograficzny offiziell und unentgeltlich zur Verfügung, um die gesamten 14 785 Seiten von BILD-Dateien in TEXT-Dateien zu überführen.
  • Als Gegenleistung erhält die PGSA diese TEXT-Dateien von Hic Leones für eigene Zwecke (z.B. Übersetzung ins Englische, weitere CDs (nun Text + Bild) etc.) ohne weitere Auflagen.

Die PGSA stand diesem Angebot positiv gegenüber und im Sept. 2005 erhielt H.V.J.Kolbe eine positive schriftliche Zusage des PGSA-Vorstandes (Board of Directors). Damit war die legale Seite der Datenverwendung geklärt und zusätzlich ein neuer, interessanter Kontakt (PGSA ) zur Familienforschung in Polen geschaffen.

Dieses Ergebnis wurde von Hic Leones 2005 auf dem 57. Genealogentag in Hannover bekannt gegeben.

Ende Sept. 2005 war die TEXT-Digitalisierung aller 14 785 Seiten des Słownik Geograficzny abgeschlossen und Ende Okt. 2005 wurde der gesamte polnischen Text auf CD an Cynthia Piech geschickt.

Das Projekt

Modus

Wissenschaftliche Zusammenarbeit.

Projekt Partner und deren Beteiligung

PGSA (Polish Genealogical Society of America)

http://www.pgsa.org

  • Scannen der 14 785 Seiten des Słownik Geograficzny und Speicherung im Bildformat
  • Edition des Słownik Geograficzny Królestwa Polskiego auf CD-ROM

Hic Leones

  • Konzept und Koordination des Projektes
  • Texterkennung (OCR) der 14 785 Seiten des Słownik Geograficzny und Speicherung im Textformat
  • Zusammenstellung eines 1000-seitigen PL => D Lexikons von 1879 im PDF-Format (frei für Mitarbeiter)
  • letzte Aktivität Dezember 2013

Vortrag

Auf dem 59. Deutschen Genealogentag am 15.9.2007 in Ludwigshafen wurde das Projekt vorgestellt. Hier der Vortrag als PDF-File (1 MB).

Anmerkungen