Projektowanie metadanych w korpusie tekstów polskich do 1500 roku – wielopoziomowa struktura informacji

Mariusz Leńczuk
https://orcid.org/0000-0003-0731-4056

Abstrakt

The subject of research are selected metadata that should characterize the texts collected in the corpus of the oldest attestations of the Polish language. The author of the article compares and analyses the factors affecting the development of the basic data structure used in synchronic and diachronic corpora (author, title, date of the text, text channel, text classification, source of citation). Without those factors taken into account the disambiguation of the object in the database becomes impossible, and the use of grammatical information is unreliable and impractical. The result of the presented analysis is a proposal to extend the level of description for individual markers.


Słowa kluczowe

language corpus; metadata; text; glosses; 13th–15th century

Źródła

KorBa – Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) [online: https://korba.edu.pl/query_corpus/; data dostępu: 7.10.2019].

Korpus polszczyzny 1830–1918 [online: http://www.f19.uw.edu.pl/; data dostępu: 7.10.2019].

Korpus polszczyzny XVI wieku [online: http://spxvi.edu.pl/korpus/; data dostępu: 7.10.2019].

Korpus tekstów staropolskich [online: https://ijp.pan.pl/publikacje-i-materialy/zasoby/korpus-tekstowstaropolskich/; data dostępu: 7.10.2019].

NKJP – Narodowy Korpus Języka Polskiego [online: http://nkjp.pl/; data dostępu: 7.10.2019].

OźSstp 2005 – Twardzik W., red. we współpracy z E. Deptuchową i L. Szelachowską-Winiarzową. Oprac. Belcarzowa E., Deptuchowa E., Frodyma M., Kalicka K., Leńczuk M., Szelachowska-Winiarzowa L., Wójcikowa Z., 2005: Opis źródeł Słownika staropolskiego. Kraków.

Słowniki

SJP PWN – Słownik języka polskiego PWN, 2019 [online: https://sjp.pwn.pl/; data dostępu: 7.10.2019].

WSJP PAN – Żmigrodzki P., red., 2008: Wielki słownik języka polskiego PAN [online: https://wsjp.pl/index.php?pwh=0; data dostępu: 7.10.2019].

Literatura

Bracha K., 2007: Nauczanie kaznodziejskie w Polsce późnego średniowiecza. Sermones dominicales et festivales z tzw. kolekcji Piotra z Miłosławia. Kielce.

Gruszczyński W., Adamiec D., Ogrodniczuk M., 2013: Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 r.) – prezentacja projektu badawczego. „Polonica” XXXIII, s. 309–316.

Gruszczyński W., Bronikowska R., 2018: Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe (na przykładzie Korpusu tekstów polskich XVII–XVIII wieku) [online: https://korba.edu.pl/static/documents/publikacje/2015_gruszczynski_bronikowska.pdf; data dostępu: 7.10.2019].

Klapper M., Kołodziej D., 2015: Elektroniczny Tezaurus Rozproszonego Słownictwa Staropolskiego do 1500 roku. Perspektywy i problemy. „Polonica” XXXV, s. 87–101.

Kołodziej D., Klapper M., 2014: Elektroniczny Korpus Tekstów Staropolskich do 1500 r. Perspektywy i problemy. „Prace Filologiczne” LXV, s. 203–212.

Król i in., 2019: Król M., Derwojedowa M., Górski R.L., Gruszczyński W., Opaliński K.W., Potoniec P., Woliński M., Kieraś W., Eder M.: Narodowy Korpus Diachroniczny Polszczyzny. Projekt. „Język Polski” XCIX, z. 1, s. 92–101.

Przepiórkowski i in., 2012: Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B., red.: Narodowy Korpus Języka Polskiego. Warszawa.

Wolny J., 1961: Łaciński zbiór kazań Peregryna z Opola i ich związki z tzw. „Kazaniami gnieźnieńskimi”. W: Lewański J., red.: Średniowiecze. Studia o kulturze. T. 1. Warszawa, s. 171–238.

Wydra W., Rzepka W.R., 2004: Chrestomatia staropolska. Teksty do roku 1543. Wyd. III. Wrocław.

Pobierz

Opublikowane : 2020-11-20


LeńczukM. (2020). Projektowanie metadanych w korpusie tekstów polskich do 1500 roku – wielopoziomowa struktura informacji. Forum Lingwistyczne, 7(7), 59-69. https://doi.org/10.31261/FL.2020.07.05

Mariusz Leńczuk 
Instytut Języka Polskiego PAN w Krakowie  Polska
https://orcid.org/0000-0003-0731-4056




Creative Commons License

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.

Właściciele praw autorskich do nadesłanych tekstów udzielają Czytelnikowi prawa do korzystania z dokumentów pdf zgodnie z postanowieniami licencji Creative Commons 4.0 International License: Attribution-Share-Alike (CC BY-SA 4.0). Użytkownik może kopiować i redystrybuować materiał w dowolnym medium lub formacie oraz remiksować, przekształcać i wykorzystywać materiał w dowolnym celu.

1. Licencja

Wydawnictwo Uniwersytetu Śląskiego zapewnia natychmiastowy otwarty dostęp do treści swoich czasopism na licencji Creative Commons BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0/). Autorzy publikujący w tym czasopiśmie zachowują wszelkie prawa autorskie i zgadzają się na warunki wyżej wymienionej licencji CC BY-SA 4.0.

2. Oświadczenie Autora

Autor deklaruje, że artykuł jest oryginalny, napisany przez niego (i współautorów), nie był wcześniej publikowany, nie zawiera stwierdzeń niezgodnych z prawem, nie narusza praw innych osób, jest przedmiotem praw autorskich, które przysługują wyłącznie autorowi i jest wolny od wszelkich praw osób trzecich, a także, że autor uzyskał wszelkie niezbędne pisemne zgody na cytowanie z innych źródeł.

Jeśli artykuł zawiera materiał ilustracyjny (rysunki, zdjęcia, wykresy, mapy itp.), Autor oświadcza, że wskazane dzieła są jego dziełami autorskimi, nie naruszają niczyich praw (w tym osobistych, m.in. prawa do dysponowania wizerunkiem) i posiada do nich pełnię praw majątkowych. Powyższe dzieła udostępnia jako część artykułu na licencji „Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Międzynarodowe”.

UWAGA! Bez określenia sytuacji prawnej materiału ilustracyjnego oraz załączenia stosownych zgód właścicieli majątkowych praw autorskich publikacja nie zostanie przyjęta do opracowania redakcyjnego. Autor/autorka oświadcza równocześnie, że bierze na siebie wszelką odpowiedzialność w przypadku podania nieprawidłowych danych (także w zakresie pokrycia kosztów poniesionych przez Wydawnictwo UŚ oraz roszczeń finansowych stron trzecich).

3. Prawa użytkownika

Zgodnie z licencją CC BY-SA 4.0 użytkownicy mogą udostępniać (kopiować, rozpowszechniać i przekazywać) oraz adaptować (remiksować, przekształcać i tworzyć na podstawie materiału) artykuł w dowolnym celu, pod warunkiem, że oznaczą go w sposób określony przez autora lub licencjodawcę.

4. Współautorstwo

Jeśli artykuł został przygotowany wspólnie z innymi autorami, osoba zgłaszająca niniejszy formularz zapewnia, że została upoważniona przez wszystkich współautorów do podpisania niniejszej umowy w ich imieniu i zobowiązuje się poinformować swoich współautorów o warunkach tej umowy.

Oświadczam, że w przypadku nieuzgodnionego z redakcją i/lub wydawcą czasopisma wycofania przeze mnie tekstu z procesu wydawniczego lub skierowania go równolegle do innego wydawcy zgadzam się pokryć wszelkie koszty poniesione przez Uniwersytet Śląski w związku z procedowaniem mojego zgłoszenia (w tym m.in. koszty recenzji wydawniczych).