Rusycystyczne zasoby i narzędzia CLARIN-PL


Abstrakt

W artykule skupiono się na zasobach wielojęzycznych, obejmujących język rosyjski, które zostały już stworzone i są obecnie rozwijane przez konsorcjum CLARIN-PL. W artykule omówiono również narzędzia i usługi oferowane użytkownikom zainteresowanym analizą zasobów rosyjskojęzycznych.


Słowa kluczowe

CLARIN-; korpusy równoległe z językiem rosyjskim; narzędzia i usługi NLP

Chaudhary, Vishrav, Tang, Yuqing, Guzmán, Francisco, Schwenk, Holger, Koehn, Philipp. “Lowresource corpus filtering using multilingual sentence embeddings.” Proceedings of the Fourth Conference on Machine Translation (WMT). Bojar, Ondřej i in. (eds.). Florence: Association for Computational Linguistics, 2019.
Dimitrova, Ludmila, Koseska-Toszewa, Violetta, Roszko, Danuta, Roszko, Roman. “Bulgarian-Polish-Lithuanian Corpus: Current development.” International Workshop: Multilingual resources, technologies and evaluation for Central and Eastern European languages held in conjunction with the International Conference RANLP-2009: Proceedings. Vertan, C., Piperidis, S., Paskaleva, E., Slavcheva, M. (eds.). Borovets, 2009: 1–8.
Dimitrova, Ludmila, Koseska-Toszewa, Violetta, Roszko, Danuta, Roszko, Roman. “Trilingual Aligned Corpus: Current state and new applications.” Cognitive Studies | Études cognitives 2014, no. 2014(14): 13–20.
Duszkin, Maksim, Roszko, Danuta, Roszko, Roman. “New parallel corpora of Baltic and Slavic languages – Assumptions of corpus construction.” Lecture Notes in Artificial Intelligence LNAI 12848: Text, Speech, and Dialogue TSD 2021. Ekštein, K. , Pártl, F., Konopík, M. (eds.). Cham: Springer International Publishing, 2021: 173–183. DOI: https://doi.org/10.1007/978-3-030-83527-9_15.
Garncarek, Łukasz, Powalski, Rafał, Stanisławek, Tomasz, Topolski, Bartosz, Halama, Piotr, Turski, Michał, Graliński, Filip. “LAMBERT: Layout-aware language modeling for information extraction.” Document Analysis and Recognition – ICDAR 2021. Lladós, J., Lopresti, D., Uchida, S. (eds.). Cham: Springer International Publishing, 2020: 1–16.
Kisiel, Anna, Koseska-Toszewa, Violetta, Kotsyba, Natalia, Satoła-Staśkowiak, Joanna, Sosnowski, Wojciech. Polish-Bulgarian-Russian Parallel Corpus. CLARIN-PL digital repository, 2016, http://hdl.handle.net/11321/308 (11.11.2021).
Machálek, Tomáš. KonText: “Advanced and flexible corpus query interface.” Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). European Language Resources Association, 2020: 7003–7008.
Piasecki, Maciej, Walentynowicz, Wiktor. “MorphoDiTa-based tagger adapted to the Polish language technology.” Proceedings of Human Language Technologies as a Challenge for Computer Science and Linguistics. Poznań: LTC 2017, 2017: 377–381.
Roszko, Danuta, Roszko, Roman. “Polsko-litewskie korpusy IS PAN i CLARIN-PL.” Prace Bałtystyczne vol. 7. Język. Kultura. Literatura. Birgiel, Nijola, Roszko, Danuta (eds.). Warszawa: Uniwersytet Warszawski, 2018: 185–205.
Roszko, Danuta, Roszko, Roman. “Korpusy wielojęzyczne wkładem Instytutu Slawistyki Polskiej Akademii Nauk w rozwój infrastruktury CLARIN-PL: Przykłady analizy korpusowej nad wołaczem.” Języki słowiańskie dziś – w kręgu kategorii, struktur i procesów. Banasiak, Jakub, Kiklewicz, Aleksander, Mazurkiewicz-Sułkowska, Julia (eds.). Warszawa – Łódź: Instytut Slawistyki PAN – Wydawnictwo Uniwersytetu Łódzkiego, 2021: 281–313.
Roszko, Roman. “O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach.” Acta Baltico-Slavica 2021, no. 2021(45), article 2576.
Roszko, Roman, Sosnowski, Wojciech, Duszkin, Maksim, Roszko, Danuta, Tymoshuk, Roman. Polish-Russian Parallel Corpus, CLARIN-PL digital repository, 2018, http://hdl.handle.net/11321/534 (11.11.2021).
Straka, Milan and Straková, Jana. UDPipe, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, Prag 2016, http://hdl.handle.net/11234/1-1702 (11.11.2021).
Simov, Kiril, Simov, Alexander, Osenova, Petya. “An XML architecture for shallow and deep processing.” The Proceedings of the ESSLLI 2004 Workshop on Combining Shallow and Deep Processing for NLP, ESSLLI, 2004: 51–60.
Koseska, Violetta, Roszko, Roman. “On semantic annotation in CLARIN-PL parallel corpora.” Cognitive Studies | Études cognitives 2015, no. 2015(15): 211–236. https://doi.org/10.11649/cs.2015.016 (11.11.2021).
Kocoń, Jan, Miłkowski, Piotr, Kanclerz, Kamil. “MultiEmo: Multilingual, Multilevel, Multidomain Sentiment Analysis Corpus of Consumer Reviews.” Computational Science – ICCS 2021. ICCS 2021. Lecture Notes in Computer Science, vol. 12743, Paszynski, M., Kranzlmüller, D., Krzhizhanovskaya, V.V., Dongarra, J.J., Sloot, P.M.A. (eds). Cham: Springer International Publishing, 2021.
Kocoń, Jan, Kanclerz, Kamil, Miłkowski, Piotr, Bojanowski, Bartosz, Zaśko-Zielińska, Monika. PolEmo 1.0 + MultiEmo-Test 1.0 Multilingual Sentiment Analysis Dataset for KES2020, CLARIN-PL digital repository, 2020, http://hdl.handle.net/11321/737 (11.11.2021)
Kocoń, Jan, Kanclerz, Kamil, Miłkowski. MultiEmo: Multilingual, Multilevel, Multidomain Sentiment Analysis Corpus of Consumer Reviews, CLARIN-PL digital repository, 2021, http://hdl.handle.net/11321/798, (11.11.2021).
Pobierz

Opublikowane : 2022-03-14


RoszkoR. (2022). Rusycystyczne zasoby i narzędzia CLARIN-PL. Przegląd Rusycystyczny, (1(177). https://doi.org/10.31261/pr.12764

Roman Roszko  roman.roszko@ispan.waw.pl
Instytut Slawistyki Polskiej Akademii Nauk  Polska
https://orcid.org/0000-0002-2291-6939

Doktor habilitowany, profesor Instytutu Slawistyki PAN. Absolwent Uniwersytetu Warszawskiego. Od 1985 roku zatrudniony w Instytucie Slawistyki PAN (kolejno pracownik Pracowni Języka Białoruskiego, Pracowni Języków Południowosłowiańskich, Pracowni Semantyki, Pracowni Semantyki i Lingwistyki Korpusowej). Autor lub współautor pięciu monografii, blisko stu trzydziestu artykułów naukowych; redaktor lub współredaktor ponad dwudziestu monografii wieloautorskich. Slawista, bułgarysta, lituanista, rusycysta. Zajmuje się językoznawstwem synchronicznym, zwolennik teoretycznych badań kontrastywnych z semantycznym językiem pośrednikiem. Prowadzi liczne studia semantyczne (różne kategorie modalne, czas, aspekt, określoność-nieokreśloność, ilość/liczba i in.). Od dwudziestu lat pasjonuje się lingwistyką korpusową i komputerowym przetwarzaniem języka naturalnego. Jest członkiem Rady Konsorcjum CLARIN-PL, autorem lub współautorem piętnastu korpusów jedno-, dwu- i wielojęzycznych. Zajmował się również kulturą i językiem mongolskim oraz dialektologią. Prowadził badania terenowe na obszarze ukraińskich gwar Pobuża oraz gwar litewskich w powiecie sejneńskim. Jest współautorem dwóch tomów Gramatyki konfrontatywnej bułgarsko-polskiej oraz syntezy Polsko-bułgarskiej gramatyki kontrastywnej, autorem dwóch monografii poświęconych semantycznej kategorii określoności/nieokreśloności oraz modalności imperceptywnej w językach polskim i litewskim (badania kontrastywne). Jest/był kierownikiem i/lub wykonawcą kilkunastu projektów badawczych/grantów (w tym międzynarodowych). W wolnych chwilach tłumaczy prace naukowe, dokumenty prawne, prawnicze, specjalistyczną dokumentację techniczną (języki litewski, rosyjski, ukraiński, bułgarski). Jest redaktorem naczelnym Cognitive Studies | Études cognitives.






Creative Commons License

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.

Właściciele praw autorskich do nadesłanych tekstów udzielają Czytelnikowi prawa do korzystania z dokumentów pdf zgodnie z postanowieniami licencji Creative Commons 4.0 International License: Attribution-Share-Alike (CC BY-SA 4.0). Użytkownik może kopiować i redystrybuować materiał w dowolnym medium lub formacie oraz remiksować, przekształcać i wykorzystywać materiał w dowolnym celu.

1. Licencja

Wydawnictwo Uniwersytetu Śląskiego zapewnia natychmiastowy otwarty dostęp do treści swoich czasopism na licencji Creative Commons BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0/). Autorzy publikujący w tym czasopiśmie zachowują wszelkie prawa autorskie i zgadzają się na warunki wyżej wymienionej licencji CC BY-SA 4.0.

2. Oświadczenie Autora

Autor deklaruje, że artykuł jest oryginalny, napisany przez niego (i współautorów), nie był wcześniej publikowany, nie zawiera stwierdzeń niezgodnych z prawem, nie narusza praw innych osób, jest przedmiotem praw autorskich, które przysługują wyłącznie autorowi i jest wolny od wszelkich praw osób trzecich, a także, że autor uzyskał wszelkie niezbędne pisemne zgody na cytowanie z innych źródeł.

Jeśli artykuł zawiera materiał ilustracyjny (rysunki, zdjęcia, wykresy, mapy itp.), Autor oświadcza, że wskazane dzieła są jego dziełami autorskimi, nie naruszają niczyich praw (w tym osobistych, m.in. prawa do dysponowania wizerunkiem) i posiada do nich pełnię praw majątkowych. Powyższe dzieła udostępnia jako część artykułu na licencji „Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Międzynarodowe”.

UWAGA! Bez określenia sytuacji prawnej materiału ilustracyjnego oraz załączenia stosownych zgód właścicieli majątkowych praw autorskich publikacja nie zostanie przyjęta do opracowania redakcyjnego. Autor/autorka oświadcza równocześnie, że bierze na siebie wszelką odpowiedzialność w przypadku podania nieprawidłowych danych (także w zakresie pokrycia kosztów poniesionych przez Wydawnictwo UŚ oraz roszczeń finansowych stron trzecich).

3. Prawa użytkownika

Zgodnie z licencją CC BY-SA 4.0 użytkownicy mogą udostępniać (kopiować, rozpowszechniać i przekazywać) oraz adaptować (remiksować, przekształcać i tworzyć na podstawie materiału) artykuł w dowolnym celu, pod warunkiem, że oznaczą go w sposób określony przez autora lub licencjodawcę.

4. Współautorstwo

Jeśli artykuł został przygotowany wspólnie z innymi autorami, osoba zgłaszająca niniejszy formularz zapewnia, że została upoważniona przez wszystkich współautorów do podpisania niniejszej umowy w ich imieniu i zobowiązuje się poinformować swoich współautorów o warunkach tej umowy.

Oświadczam, że w przypadku nieuzgodnionego z redakcją i/lub wydawcą czasopisma wycofania przeze mnie tekstu z procesu wydawniczego lub skierowania go równolegle do innego wydawcy zgadzam się pokryć wszelkie koszty poniesione przez Uniwersytet Śląski w związku z procedowaniem mojego zgłoszenia (w tym m.in. koszty recenzji wydawniczych).