SlownikGeo - Polnische Beschreibung -

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen

Opis Projektu

Wprowadzenie

Obróbka tekstów i tłumaczenie 16 tomów (14 785 stron) Słownik Geograficzny Królestwa Polskiego (i innych krajów słowiańskich)(z latach 1880 – 1902) [Geografisches Lexikon des Königreiches Polen][und anderer slawischer Länder] [1880 – 1902] z jęyzka polskiego na język niemiecki i obróbka w tym zawieranych danych dla genealogicznego spisu miejscowośćiach w GOV, GenWiki i Hic Leones.


Przedhistoria

W roku 2003 publikowała PGSA 16 tomów Słownik Geograficzny na nośiku danych CD-ROM (w formacie djvu). Projekt finansowano przez PGSA i przeprowadzono przez Rafał T. Prinke, Poznań, Polska, z dodatkowym materiałem przez William F. Hoffmann.. Kilka strony były tłumaczone (angielsko) przez PGSA-członków.

Pomysł

Tomy Słownik Geograficzny na CD-ROM, wydana przes PGSA, zawierają opisy wszystkich regionów, miast, wsie i innych miejscowości, góry, rzeki i jeziora Królestwa Polskiego (Kongresówka) i w słowiańskim obszarze językowym: bałtyckie, zachodnie i południowe gubernie (governments) rosyjskiego państwa, Prusy Zachodnie i Prusy Wschodnie, wielkie księstwo Poznań, prusacki Śląsk , Galicja, austriacki Śląsk, Morawy , słowiańskie części Węgier i Bukoviny i dodatkowo także dalsze ważne miejsca w pozostałych gubernien europejskiej Rosji (jak tam są: dworki wiejskie, parafie, dworce kolejowe itd, oceniono: około 315 000 - 350 000 wpisów), jednak:

  • chodzi o pliki obrazowe, które nie można na każde pojęcie przeszukiwać
  • są to teksty w języku polskim, które nie każdemu (niemieckiemu) badaczu bezpośrednio dostępnie są.

Więc jest to pożądanie, ten skarb informacji dla kulturalnego i rodzinnego badacza umożliwieć jako:

  • pliki tekstowe (z globalnymi funkcjami przeszukiwania po każdych pojęciach)
  • korzystanie tej informacji w języku niemieckim, albo inny łumaczony języki.

Prace Przedwstępne

W eksperymencie, pliki obrazowe Słownik Geograficzny z CD-ROM do rozpoznawania i digitalizowanja przez OCR, wykazywały bardzo dobre wyniki (> 95 % poprawnych plików tekstowych; FineReader, Ver. 6.0), włącznie specyficznych polskich znaków pisarskich.

Prawne

H.V.J. Kolbe (Hic Leones) kontaktował PGSA ((Public Relations: Mrs. Cynthia Piech, Chicago)) piśmiennie z przykładami tych OCR-wyników z następującą propozycją:

  • PGSA stawia Hic Leones pliki obrazowe Słownik Geograficzny urzędowo i bezpłatnie do zastosowania, by przekonywać wszystkie 14 785 stron z plikach obrazowych w pliki tekstowe.
  • W wzajemnie otrzymuje PGSA przez Hic Leones pliki tekstowe do własnego zastosowania (naprzykład do tłumaczenia w język angielski, dalsze CD (pliki obrazowe i pliki tekstowe) itd.) bez dalszych zobowiązań.

PGSA stała pozytywnie do tej oferty i H.V.J. Kolbe otrzymał w wrześniu 2005r. pisemne zgodzenie zarządu PGSA (Board of Directors). Z tym były legalne użycia danych wyjaśnione. Dodatkowo ztworzył się nowy, interesujący kontakt (przez PGSA) do genealogii w Polsce.

Wynik ten, stał ogłeszony przez Hic Leones w roku 2005 z okazji 57. Genealogentag in Hannover/Germany (57-ego. „Dzień Genealoga” w Hanowerze). PGSA ogłaszała w przymierze jednocześnie z okazji 27th Annual Conference in Schaumburg/IL (Schaumburgu/IL).

Digitalizacja tekstu wszystkich 14 785 stron Słownik Geograficzny była przy końcu września 2005r. zakończona. Ogólny polski tekst posyłano przez Hic Leones na CD-ROM w końcu października 2005r. Cynthia Piech.


Projekt

Sposób

Współpraca naukowa.

Partnerzy Projectu i Przyczynek

PGSA (Polish Genealogical Society of America)

http://www.pgsa.org

  • Skanować 14 785 stron Słownik Geograficzny, w plikie obrazowym.
  • Edycja Słownik Geograficzny Królestwa Polskiego na CD-ROM.

Hic Leones

http://www.hicleones.com

  • Rozpoznawanie tekstu (OCR) z 14 785 stron Słownika Geograficznego, w pliki tekstowe
  • Koncepcja i koordynacja projektu

CompGen

(Verein für Computergenealogie e. V.)

  • Przygotowanie pliku danych moduła import/eksport
  • Spółkowa-koordynacja projektu

FGG (Forschungsgruppe Grafschaft Glatz)

http://www.genealogienetz.de/vereine/AGoFF/fst/fgr_glat.htm

  • Program tłumaczenia PL => D, (z jęyzka polskiego na język niemiecki) do przed-tłumaczenia tekstu


Warunki

By ogromną pojemność tekstu (formatowany tekst około 250 MB, nie formatowany tekst około 70 - 80 MB) wydajnie i nieprzerwanie tłumaczyć w język niemiecki, trzeba dane w bazę danych (tzn. w tymczasową roboczą bazę danych) przeprowadzić i administrować.

Zainteresowane badacze, znając obcego języka, mogą wtedy w czystym formacie tekstu wyciągi stron tej roboczej bazy danych otrzymać. Dodatkowo oni otrzymją specjalnym font - dla obcych charakterów, (na przykład: do specyficznych polskich znaków pisarskich) i szczupłą roboczą instrukcję. [zobacz też niżej] - Przykład do współpracy z Tłumaczem -. Zainteresowane badacze mogą strony jich własnego interesu pobierać i w spokoju (offline) tłumaczyć i opracować. [1].

Oszacowanie wykazało, że już po jednomiesięcznej przedwstępnej pracy, w której z funkcją: Szukać/Zamieniać w roboczej bazie danych polskie skrócenia przez niemieckie łatwo zamieniać można. Także i inne standardowe pojęcia (razem około 300 - 400 pojęć, n.p. dworzec, poczta, kościół, mieszkaniec itd). Przez ten sposób już można około 40 % tekstu ‘zniemczeć′ i ogólno zrozumieć.Też dla kogoś, który nie biegle władzi w języku polskim.


Terminarz

Plan czasu i znaczenie kolorów w krokach projektu [ zielony = załatwione albo w opracowaniu , czerwono = w planowaniu ]

  • Scanowanie 14 785 stron Słownika Geograficznego (załatwiono przez PGSA w roku 2003).
  • Rozpoznawanie tekstu (OCR) 14 785 plików obrazowych Słownika Geograficznego i gromadzenie plików tekstowych w formacie CP 1250 (załatwiono przez Hic Leones w wrześniu 2005r.).
  • Wytworzenie plików w formacie *. pdf, leksykona PL => D z roku1879, z zakładkami do szybszejszego wykrywania słów, jako pomoc przy tłumaczeniu (załatwiono przez Hic Leones w grudniu 2006r.; można odnaleźć na CompGen-Disc 2006/2007).
  • Programowanie moduła import/eksport do rozszerzenia roboczej bazy danych ( do środka lutego 2007r.).
  • Import 14 785 plików tekstowych Słownika Geograficznego w roboczą bazę danych uwzględniając obce charaktery, to znaczy: specyficzne polskie znaki pisarskie ( w środku lutego 2007r.).
  • Wytworzenie ciągle rozszerzającą listę tłumaczenia – w słowie za słowo. (w początku stycznia 2007r.).
  • Streszczenie projektu w zarysu artikułowym w czasopiśmie 'Computergenealogie’ (w początku lutego 2007r.), publikacja w koniecu marca 2007.
  • Wewnętrznie (intern): oddalenie systematycznych OCR-błędów, nie potrzebnych łączników i znaków spacja; wstawienie pustej wierszy za każdą geograficzną notatką. (ciągle od środka lutego 2007r.).
  • Wewnętrznie (intern): z funkcją Szukać/Zamieniać, dokumentalne zamienienie polskich skrótek na niemieckie skrótki ) (ciągle od środka/końca lutego 2007r.).
  • Wewnętrznie (intern): dokumentalne szukanie i zamienienie z funkcją Szukać/Zamieniać dlszych (około 300) standardnych poj) (ciągle od środka/końca lutego 2007r.).
  • Do realizacji projektu SlownikGeo są wielu ochotników potrzebnie. W umowie z moderatorami genealogicznych list mailingowych zawierano: zapowiedzenie projektu w tych list (w środku mai 2007r.) i wezwanie do eksternistycznej współpracy. Powtórzenie tego zapowiedzenia, z krótkim sprawozdaniem postępu, w czasie około dwuch miesięcy.
  • Wytworzenie glosariusza, które polskie pojęcia powinni być pozostawione z osobnym objaśnieniem tych pojęci (w współpracy z prof. Eichler, Lipsk) (od środka/końca lutego 2007r.).
  • Odpowiednie wezwania w związkowych czasopismach (ciągle od środka marca 2007).
  • Wstawienie tłumaczonych i poprawionych stron w GOV i Hic Leones:

Skoro tylko strony uzrobione są, oni otrzymują odpowiedne oznakowanie, (aby chronić ich przeciw dalsze zmiany w tekstu). Następnie otrzymają te strony odpowiedne współpracowniki z powrotem, którzy za tem wpisują opisane miejscowości w GOV (ciągle od marca 2007r.).

  • Planowane zakończenie projektu (ostrożne oszacowanie): w roku 2011.

Polscy autorzy tego dzieła potrzebowali 22 lat w sprawie dochodzenia, ujęcia, korekty i edycji tej encyklopedycznej serii. W miarze obecnych możliwościach techniki, powinno było być w ćwierci tego czasu, (5 do 6 lat), w tłumaczeniu i wstawieniu w GOV przeprowadzić ...

Przykład do współpracy z Tłumaczem

  • Niemiecki współpracownik znając obcy język (polski) sygnalizuje swoją gotowość do współpracy. (adresy kontaktowe zobacz niżej). Ona/on otrzymuje (przesyłano przez e-mail):
    • lość stron tekstu jego wyboru (na przykład 10) w formacie tekstowym (włącznie wyżej objasnony font specjalny)
    • odpowiednie wybrane strony Słownik Geograficzny w 10 plikach obrazowych w oryginale (w formacie: tif) do kontroly.
    • wraz krótką instrukcję do opracowania
    • prosty EXCEL-plik, w którym dotychczasowe słowne zamienienia dokumentowane są
    • PDF -plik PL => D leksykona, trzecia edycja z roku1879, z zakładkami do szybszejszego słownego wykrywania (na CompGen-Dual-Disc 2006/2007 do znajdowania albo do ściągnienia)
  • Ona/on opracowuje strony. Znajdzie ona/on wyraz ( "standardowe pojęcie projektu"), który przez koordinatory projektu w roboczej bazie danych globalnie powinny był by zamienony być, wpisuje ona/on znależiony wyraz z niemieckiem ekwiwalentem w opisany EXCEL-plik..[2]. Kiedy tłumacze są gotowi, oni odsyłają tłumaczone10 plików tekstowe z powrotem do nadawca, który jich teraz znowa z roboczą bazą danych zjednoczuje (re -import) i odpowiednio do dalszego wykonania zaznacza.


Jeszcze pytania ? Interesant do współpracy ?

Proszę Państwo się zwrócić do:

Dr. Hanno V. J. Kolbe (koordynator)
6, rue des Tuiliers
67204 Achenheim/ Francja
E-Mail: mailto:kolbeDIESEN-SPAMSCHUTZTEXT-BITTE-VOR-DEM-SENDEN-ENTFERNEN@hicleones.com

Peter Lingnau (spółkowy-koordynator GOV)
Spicherer Str. 43
86157 Augsburg/ Niemcy
E-Mail: mailto:PeterLingnau(at)yahoo.de

Objaśnienie

  1. Pomocą tłumaczenia stoi każdemu zainteresowanemu współpracownikowi 998-stronicowy leksykon polsko - niemiecki (trzecia edycja z roku1879) bezpłatnie do dyspozycji. Są to digitalizowane pliki obrazowe (PDF-plik na rocznej CompGen CD z roku 2006) i zawierają szczegółowe zakładki. Dodatkowo przyczyniła FGG (Grupa Badania Hrabstwa Kłodzkiego) program tłumaczenia PL <=> D, by być w stanie, szybkie przedtłumaczenia przygotowić. (Limitacja programów tłumaczących są znane, jednak przy Slownik Geograficzny chodzi to o specyfikację od statystycznych danych i nie o filozoficzną rozprawę albo poezję...)
  2. W ten sposób przyczynia się każdy współpracownik do tego, że doświadczenia, które z nielicznymi stronami zrobił, na wszystkie strony móc przenosić. (Koordynatory projektu ogólnie kontrolują przenoszenia. W tem sposobie wyjściowa jakość jeszcze nie tłumaczonego tekstu staje się coraz lepiej i wydatek tłumaczenia powinien był stawać się z czasem coraz mniejszy. (tzn. szybkość tłumaczenia powiększa się). Załatwione strony stoją dla GOV, GenWiki i Hic Leones do wdrożenia do dyspozycji.

en:SlownikGeo