Budowa i zastosowania korpusu monitorującego MoncoPL

Piotr Pęzik
https://orcid.org/0000-0003-0019-5840

Abstrakt

This paper introduces the methodology of compiling and maintaining MoncoPL, a large monitor corpus of web-based Polish. Furthermore, an overview of the search engine of the same name is provided to show how the size and composition of the corpus, currently reaching over 5.6 billion word tokens, facilitates research on distributional properties of rare words, neologisms and phraseological units. Finally, the article exemplifies some advantages of using a densely-sampled diachronic corpus for the purposes of observing frequency trends and cycles of various constructions in online media discourse.


Słowa kluczowe

MoncoPL; monitor corpus; Polish; diachronic corpora

Literatura

Davies M., 2010: The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English. “Literary and Linguistic Computing” XXV, No. 4, s. 447–465. DOI: 10.1093/llc/fqq018.

Duda B., Lisczyk K., 2018: Narzędzia cyfrowe w polonistycznej dydaktyce akademickiej – zastosowania, możliwości, perspektywy. „Forum Lingwistyczne” nr 5, s. 143–154.

Ogrodniczuk M., 2018: Polish Parliamentary Corpus. In: Fišer D., Eskevich M., Jong F. de, eds.: Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora. Paris, s. 15–19.

Przepiórkowski i in., 2009: Przepiórkowski A., Górski R.L., Łaziński M., Pęzik P.: Recent Developments in the National Corpus of Polish. “NLP, Corpus Linguistics, Corpus Based Grammar Research”, s. 302–309.

Sinclair J., 1996: EAGLES Guidelines. Expert Advisory Group on Language Engineering Standards [online: http://www.ilc.cnr.it/EAGLES96/browse.html; data dostępu: 30.06.2020].

Woliński M., 2014: Morfeusz Reloaded. In: Calzolari N., Choukri Kh., Declerck Th., Loftsson H., Maegaard B., Mariani J., Moreno A., Odijk J., Piperidis S., eds.: Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC. Reykjavík, s. 1106–1111.

Pobierz

Opublikowane : 2020-11-21


PęzikP. (2020). Budowa i zastosowania korpusu monitorującego MoncoPL. Forum Lingwistyczne, 7(7), 133-150. https://doi.org/10.31261/FL.2020.07.11

Piotr Pęzik 
Uniwersytet Łódzki  Polska
https://orcid.org/0000-0003-0019-5840




Creative Commons License

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.

Właściciele praw autorskich do nadesłanych tekstów udzielają Czytelnikowi prawa do korzystania z dokumentów pdf zgodnie z postanowieniami licencji Creative Commons 4.0 International License: Attribution-Share-Alike (CC BY-SA 4.0). Użytkownik może kopiować i redystrybuować materiał w dowolnym medium lub formacie oraz remiksować, przekształcać i wykorzystywać materiał w dowolnym celu.

1. Licencja

Wydawnictwo Uniwersytetu Śląskiego zapewnia natychmiastowy otwarty dostęp do treści swoich czasopism na licencji Creative Commons BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0/). Autorzy publikujący w tym czasopiśmie zachowują wszelkie prawa autorskie i zgadzają się na warunki wyżej wymienionej licencji CC BY-SA 4.0.

2. Oświadczenie Autora

Autor deklaruje, że artykuł jest oryginalny, napisany przez niego (i współautorów), nie był wcześniej publikowany, nie zawiera stwierdzeń niezgodnych z prawem, nie narusza praw innych osób, jest przedmiotem praw autorskich, które przysługują wyłącznie autorowi i jest wolny od wszelkich praw osób trzecich, a także, że autor uzyskał wszelkie niezbędne pisemne zgody na cytowanie z innych źródeł.

Jeśli artykuł zawiera materiał ilustracyjny (rysunki, zdjęcia, wykresy, mapy itp.), Autor oświadcza, że wskazane dzieła są jego dziełami autorskimi, nie naruszają niczyich praw (w tym osobistych, m.in. prawa do dysponowania wizerunkiem) i posiada do nich pełnię praw majątkowych. Powyższe dzieła udostępnia jako część artykułu na licencji „Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Międzynarodowe”.

UWAGA! Bez określenia sytuacji prawnej materiału ilustracyjnego oraz załączenia stosownych zgód właścicieli majątkowych praw autorskich publikacja nie zostanie przyjęta do opracowania redakcyjnego. Autor/autorka oświadcza równocześnie, że bierze na siebie wszelką odpowiedzialność w przypadku podania nieprawidłowych danych (także w zakresie pokrycia kosztów poniesionych przez Wydawnictwo UŚ oraz roszczeń finansowych stron trzecich).

3. Prawa użytkownika

Zgodnie z licencją CC BY-SA 4.0 użytkownicy mogą udostępniać (kopiować, rozpowszechniać i przekazywać) oraz adaptować (remiksować, przekształcać i tworzyć na podstawie materiału) artykuł w dowolnym celu, pod warunkiem, że oznaczą go w sposób określony przez autora lub licencjodawcę.

4. Współautorstwo

Jeśli artykuł został przygotowany wspólnie z innymi autorami, osoba zgłaszająca niniejszy formularz zapewnia, że została upoważniona przez wszystkich współautorów do podpisania niniejszej umowy w ich imieniu i zobowiązuje się poinformować swoich współautorów o warunkach tej umowy.

Oświadczam, że w przypadku nieuzgodnionego z redakcją i/lub wydawcą czasopisma wycofania przeze mnie tekstu z procesu wydawniczego lub skierowania go równolegle do innego wydawcy zgadzam się pokryć wszelkie koszty poniesione przez Uniwersytet Śląski w związku z procedowaniem mojego zgłoszenia (w tym m.in. koszty recenzji wydawniczych).