•  
   

Česko-německý paralelní korpus

Historie a současnost

Jelikož neexistoval žádný fungující česko-německý paralelní korpus a jeho potřeba ve výzkumu a výuce byly stále naléhavější, iniciovala katedra německého jazyka a literatury Pedagogické fakulty Masarykovy univerzity v Brně jeho vznik.

Myšlenka vytvořit česko-německý paralelní korpus vznikla na podzim 2000, konkrétní budování začalo v červnu 2001. Na serveru AURORA Fakulty informatiky Masarykovy univerzity byl korpus interně zpřístupněn v roce 2002. Tehdy obsahoval korpus 58 textů paralelních textů různých žánrů (19 literárních děl, 23 publicistických textů – hlavně z internetu a 16 textů odborných). Dohromady měl 435 947 pozic jen v české části. (Počet německých jsme neevidovali, proto lze jen odhadnout, že celkem bylo v první funkční verzi korpusu dohromady něco pod milion slov.)

Dále se korpus rozrůstal ročně o zhruba 200.000 slov v české části (a k tomu pochopitelně odpovídající počet v německé paralele), až ke konci roku 2005 získal dnešní podobu.

Korpus je plně funkční, ale v současné době se nerozšiřuje.

 Parametry

Sestavení i funkce korpusu podléhají kritériím podle účelu a využití korpusu. Česko-německý paralelní korpus je korpus synchronní. Znamená to, že jsou v něm zařazeny pouze texty publikované ideálně po roce 1910. Převážná většina textů však vznikla až po roce 1950, v případě nebeletristických textů pak všechny po roce 1990.

Pro výběr textů platila zásada dvojjazyčnosti, tzn., že jedna z paralel byla originální text a druhá paralela překlad právě tohoto originálu. Poměr originálů českých k originálům německým měl být 1 : 1. Ve skutečnosti není ideálně vyrovnaný (českých originálů je 63 %).

Korpus je nespecifický, obecný, tedy obsahující texty všech dostupných stylových rovin a typů textů. Z tohoto pohledu jsme se také snažili o procentuelní vyváženost: 25 % textů publicistických, 25 % odborných a 50 % beletrie. Ve skutečnosti je poměr následující: 63 % beletrie, 17 % publicistika, 20 % odborné texty.

Parametry v přehledu:

  • Korpusový manažer: bonito
  • Počet zařazených textů: 184
  • Počet pozic:
    • česká paralela: 3 637 825
    • německá paralela: 4 202 887
  • Alignment (zarovnání):
    ano (ruční; na úroveň věty)
  • Lemmatizace:
    ano (v obou paralelách)
  • Tagging (morfologické značkování):
    česká část (automaticky): ajka (úplné morfologické informace)
    německá část (automaticky): TreeTagger (pouze slovní druhy)
  • Desambiguace (zjednoznačnění homonym):
    ne
  • Metainformace (informace o zařazených textech):
    ano (viz katalog textů)
  • Dostupnost:
    on-line pouze interně
    CD (verze 2003)
  • Katalog zařazených textů: zde

 

Přístupnost

Korpus byl sestaven a je určen pouze a striktně pro vědecké a výukové účely.
Je umístěn na serveru Fakulty informatiky Masarykovy univerzity v Brně a je přístupný pouze interně.
Většina textů ČNPK je v současnosti zařazena v multijazykovém korpusu INTERCORP.

 

Využití

Již od první verze (2002) se korpus využíval k výzkumu i výuce. Od té doby za pomocí jeho dat vznikla řada prací, z nichž vybíráme jen ty, které jsou nám známy a nejsou na dálku dostupné (např. prostřednictvím Informačního systému MU

  • Syntaktische und semantische Analyse der deutschen und tschechischen Präpositionen (série ročníkových a diplomových prácí zabývajících se spojeními s předložkami an, auf, bei, für, in, mit, durch, von, um a jejich českými ekvivalenty)
  • Infinitivkonstruktionen als Transformationen der deutschen Nebensätze mit der Konjunktion dass und deren äquivalente Strukturen im Tschechischen (diplomová práce)
  • Das Pronomen „Es“, seine syntaktischen Funktionen und Äquivalente im Tschechischen (diplomová práce)
  • Übersetzung von Okkasionalismen im Werk „Fimfarum“ (diplomová práce)
  • Einige tschechische Ortsnamen und ihre deutschen Äquivalente im ČNKP (bakalářská práce)
  • Das Präfix und Präfixoid „Haupt-„ und ihre Äquivalente im Tschechischen (bakalářská práce)
  • Suffixoide (z.B. „–werk“ und „-zeug“) und ihre Äquivalente im Tschechischen (bakalářská práce)
  • Komposita mit der Basis „-maschine“ und ihre Äquivalente im Tschechischen (bakalářská práce)
  • Překladatelské postupy při řešení překladu vlastních jmen (zatím zadaná bakalářská práce)
  • Frequenz der deutschen und tschechischen Satzbaupläne (závěrečná práce)
  • Gründe für unterschiedliche Länge der deutschen und tschechischen Texte (závěrečná práce)
  • Ausdruck der Vorzeitigkeit in den deutschen und tschechischen Temporalsätzen (ročníková práce)
  • Stellung der Partikeln im Deutschen und im Tschechischen (ročníková práce)
  • Das Subjekt im Deutschen und im Tschechischen (ročníková práce)

 

Partneři

Od začátku byla tvorba korpusu morálně, později částečně i finanční podporována Ústavem Českého národního korpusu Filozofické fakulty University Karlovy v Praze.

Korpus vznikl za finanční podpory Ministerstva školství, mládeže a tělovýchovy v rámci rozvojových projektů ROZV/31/2002 Elektronický paralelní česko-německý korpus a programu AKTION Česká republika – Rakousko

Další podílející se instituce (i v rámci projektů):

Fakulta informatiky Masarykovy univerzity

Fakulta informačních technologií VUT v Brně

Institut für Slavistik, Universität Wien

 

Jiné korpusy s němčinou

DeReKo (nejrozsáhlejší korpus německého jazyka)

DWDS

Wortschatz-Portal

Mittelhochdeutsche Begriffsdatenbank (databáze středověkých německých textů)

Multext

Korpusy jiných jazyků (odkaz na stránku Ústavu Českého národního korpusu)

Poslední aktualizace: 25. června 2010
© Tomáš Káňa, Hana Peloušková