Korpusy w Polsce

Korpusy na świecie

Korpusy specjalistyczne

------------------------------------------------------------

KORPUSY W POLSCE

 

 

 

KORPUSY NA ŚWIECIE

KORPUSY NIEMIECKIE - opracowanie: TOMASZ MICHTA

1) Das Deutsche Referenzkorpus – DeReKo

http://www.ids-mannheim.de/kl/projekte/korpora/

Korpus jest gromadzony przez Institut für Deutsche Sprache z siedzibą w Mannheim. Zgodnie z założeniami twórców korpus ma charakter referencyjny, a liczba zawartych w nim wyrazów (5,4 mld) sprawia, że jest największym korpusem języka niemieckiego na świecie. Dostęp do zasobów korpusu możliwy jest poprzez platformę COSMAS II (http://www.ids-mannheim.de/cosmas2/), jednak z niektórych korpusów składowych można korzystać jedynie w siedzibie IDS. Teksty zostały anotowane.

2) Korpusy Digitales Wörterbuch der deutschen Sprache

http://www.dwds.de/ressourcen/korpora/

Zbiór korpusów stworzonych jako podstawa dla słownika Digitales Wörterbuch der deutschen Sprache. Łącznie korpusy zawierają 2,5 mld wyrazów, z czego 1,8 mld zostało udostępnione poprzez stronę internetową. Wszystkie teksty zostały anotowane. Część zasobów o nazwie Kernkorpus des 20. Jahrhunderts stanowi korpus zrównoważony. Oprócz wyszukiwania w korpusie witryna słownika oferuje także szereg dodatkowych komponentów, m.in. opis znaczenia szukanego wyrazu, dane o jego etymologii, jego profil (rozumiany jako jego częste otoczenie tekstowe) oraz artykuł tezaurusowy prezentujący wyrazy skojarzone.

3) Korpus LIMAS

http://www.korpora.org/Limas/index.htm

W skład korpusu weszły teksty różnych gatunków powstałe na początku lat 70. XX wieku. Łączna liczba wyrazów w korpusie przekracza milion. Strona oferuje kilka podstawowych opcji wyszukiwania (proste, kontekstowe oraz wyszukiwanie fraz).

4) DDD Referenzkorpus Altdeutsch

http://www.deutschdiachrondigital.de/

Korpus poświęcony został najstarszym tekstom języka niemieckiego (stworzonym na przestrzeni lat 750-1050) i obejmuje łącznie 650 tys. wyrazów. Teksty wchodzące w skład korpusu zostały anotowane.

5) Kali

http://www.kali.uni-hannover.de/

Diachroniczny korpus języka niemieckiego rozwijany przez Uniwersytet w Hanowerze. Teksty uwzględnione w korpusie obejmują osiem wieków rozwoju języka. Liczba wyrazów przekracza 200 tys. Korpus znajduje się jeszcze w budowie. Obecnie zanotowana jest tylko część jego tekstów.

6) Archiv für Gesprochenes Deutsch

http://agd.ids-mannheim.de/index.shtml

Archiwum stanowi zbiór korpusów tekstów mówionych udostępniany przez Institut für Deutsche Sprache z siedzibą w Mannheim. Oprócz nagrań dźwiękowych dostępne są również transkrypcje wypowiedzi, z których niektóre zostały zsynchronizowane z nagraniami. Dostęp do części zasobów został umożliwiony użytkownikom z zewnątrz pod warunkiem wcześniejszej rejestracji.

KORPUSY ROSYJSKIE - opracowanie: MARTA MAŁACHOWICZ

1) Национальный корпус русского языка

http://www.ruscorpora.ru/

Rosyjski korpus narodowy obchodzący w 2014 r. swoje 10. urodziny. Stworzony przez zespół lingwistów z kilku rosyjskich ośrodków naukowych oraz grupę programistów z firmy informatycznej Yandex, właściciela największej rosyjskiej wyszukiwarki internetowej. Działania zespołu koordynuje Instytut Języka Rosyjskiego Rosyjskiej Akademii Nauk. W korpusie zastosowano pięć rodzajów anotacji: metatekstową, morfologiczną, syntaktyczną, akcentuacyjną i semantyczną. Projekt korpusu obejmuje dziesięć podkorpusów, w tym: korpus podstawowy, korpus syntaktyczny, korpus współczesnych środków masowego przekazu, korpusy równoległe, korpus tekstów dialektalnych, korpus tekstów poetyckich,  korpus dydaktyczny języka rosyjskiego, korpus języka mówionego, korpus akcentologiczny, korpus multimedialny. Korpus podstawowy zawiera ponad 230 mln wyrazów, a jego teksty obejmują okres od poł. XVIII w. do chwili obecnej. Zasoby projektu dostępne są za pośrednictwem Internetu, część korpusu o objętości ok. 1 mln wyrazów jest też dostępna dla użytkowników z zewnątrz po zaakceptowaniu warunków umowy licencyjnej.

KORPUSY SPECJALISTYCZNE