Przejdź do głównego menu Przejdź do sekcji głównej Przejdź do stopki

Nr 1/26 (2026)

Artykuły

Domenowe zasoby lingwistyczne do wykrywania aktywności przestępczych w tekstach polskich

DOI: https://doi.org/10.25312/j.10126  [Google Scholar]
Opublikowane: 25.03.2026

Abstrakt

Praca przedstawia proces pozyskiwania danych tekstowych i metodologię tworzenia korpusów leksykalnych, a także selekcję i definicję poszczególnych jednostek leksykalnych w celu stworzenia leksykonu słownictwa kryminalnego w języku polskim. Materiał językowy został opracowany i wykorzystany w celu stworzenia systemu informatycznego wspomagającego polskie służby mundurowe w poszukiwaniu przestępstw popełnionych lub planowanych w Internecie. Rozpatrywane kategorie przestępstw to: przemyt i handel narkotykami, papierosami, alkoholem, pojazdami i maszynami, bronią i materiałami wybuchowymi, handel ludzkimi dobrami i narządami, handel i fałszowanie dokumentów, przestępstwa seksualne oraz pedofilia. W wyniku prac stworzono zbiór ponad 3000 słów i fraz. Dodatkowo zebrano zbiór danych lingwistycznych składający się z 3337 pełnych tekstów ze źródeł internetowych. Leksykon dostosowano do wymogów przetwarzania komputerowego na potrzeby trzech modułów systemu: definicja, kontekst i tłumacz. Materiał językowy zebrano z różnego rodzaju anonimowych forów, witryn ogłoszeniowych online, gdzie nie ma kontroli, moderacji i administrowania treścią. Materiał językowy został przetestowany i wdrożony w systemie Straży Granicznej AISearcher.

Bibliografia

  1. Demenko G. (2015), Korpusowe badania języka mówionego, Poznań: Akademicka Oficyna Wydawnicza EXIT. [Google Scholar]
  2. Demenko G., Skórzewski P., Kuczmarski T., Pieniowski M. (2022), Linguistic Information Extraction from Text-based Web to Discover Criminal Activity, s.l.: unpublished manuscript. [Google Scholar]
  3. Eynde Van F., Gibbon D. (2000), Processing, Lexicon Development for Speech and Language, Berlin: Springer. [Google Scholar]
  4. Gibbon D., Moore R., Winski R. (1997), Handbook of standards and resources for spoken language systems, Berlin: Walter de Gruyter. [Google Scholar]
  5. Krauz A. (2017), Mroczna strona Internetu – tor niebezpieczna forma cybertechnologii, „Dydaktyka informatyki”, nr 12, pp. 63–74. [Google Scholar]
  6. Maziarz M., Pisasecki M., Rudnicka E., Szpakowicz S., Kędzia P. (2016), plWordNet 3.0 – a Comprehensive Lexical-Semantic Resource, [in:] Y. Matsumoto, R. Prasad (eds.), 26th International Conference on Computational Linguistics, Proceedings of the Conference: Technical Papers, Osaka: The COLING 2016 Organizing Committee, pp. 2259–2268. [Google Scholar]
  7. Mider D. (2019), Czarny i czerwony rynek w sieci The Onion Router – analiza funkcjonowania darkmarketów, “Przegląd Bezpieczeństwa Wewnętrznego”, nr 29, pp. 154–190. [Google Scholar]
  8. Pęzik P. (2012), Wyszukiwarka PELCRA dla danych NKJP, [in:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk, Narodowy Korpus Języka Polskiego, Warszawa: PWN, pp. 253–273. [Google Scholar]
  9. Apache2 Ubuntu Default Page (n.d.), http://www.nlp.pwr.wroc.pl/ [accessed: 23.02.2026]. [Google Scholar]
  10. Beautiful Soup Documentation (n.d.), https://www.crummy.com/software/BeautifulSoup/bs4/doc/ [accessed: 03.03.2026]. [Google Scholar]
  11. CEN (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/cen [accessed: 3.09.2025]. [Google Scholar]
  12. CLARIN-PL (n.d.), https://clarin-pl.eu/ [accessed: 03.03.2026]. [Google Scholar]
  13. Corpus of manually lemmatised Polish noun and adjective phrases (n.d.), (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/kpwr-lemma [accessed: 3.09.2025]. [Google Scholar]
  14. Dopalacze-sklep (n.d.), https://dopalacze-sklep.org/ [accessed: 3.09.2025]. [Google Scholar]
  15. gpwEcono (n.d.), https://zil.ipipan.waw.pl/gpwEcono [accessed: 23.02.2026]. [Google Scholar]
  16. ITcontent (n.d.), https://itcontent.eu/ [accessed: 23.02.2026]. [Google Scholar]
  17. KPWr (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/kpwr [accessed: 3.09.2025]. [Google Scholar]
  18. KPWr (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/kpwr [accessed: 3.09.2025]. [Google Scholar]
  19. Lista dystrybucyjnego podobieństwa semantycznego (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/lista-podobienstwa [accessed: 3.09.2025]. [Google Scholar]
  20. Lista frekwencyjna (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/lista-frekwencyjna [accessed: 3.09.2025]. [Google Scholar]
  21. Narodowy Korpus Języka Polskiego (n.d.), http://nkjp.pl/ [accessed: 23.02.2026]. [Google Scholar]
  22. Natural Language Toolkit (n.d.), https://www.nltk.org/ [accessed: 23.02.2026]. [Google Scholar]
  23. NELexicon (n.d.), Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej, http://www.nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/nelexicon [accessed: 3.09.2025]. [Google Scholar]
  24. Ogłaszamy24h.pl (n.d.), https://oglaszamy24h.pl/ [accessed: 23.02.2026]. [Google Scholar]
  25. plWikiEcono (n.d.), http://zil.ipipan.waw.pl/plWikiEcono [accessed: 23.02.2026]. [Google Scholar]
  26. Polish Coreference Corpus / Korpus zależności referencyjnych (n.d.), http://zil.ipipan.waw.pl/PolishCoreferenceCorpus [accessed: 23.02.2026]. [Google Scholar]
  27. Polish Wikipedia Corpus (n.d.), http://clip.ipipan.waw.pl/PolishWikipediaCorpus [accessed: 23.02.2026]. [Google Scholar]
  28. Polski Korpus Listów Pożegnalnych (n.d.), http://www.pcsn.uni.wroc.pl/ [accessed: 23.02.2026]. [Google Scholar]
  29. Polski Korpus Metafor Synestezyjnych SYNAMET (n.d.), http://synamet.polon.uw.edu.pl/ [accessed: 23.02.2026]. [Google Scholar]
  30. python (n.d.), https://www.python.org/ [accessed: 23.02.2026]. [Google Scholar]
  31. re – Regular expression operations (n.d.), https://docs.python.org/3/library/re.html [accessed: 23.02.2026]. [Google Scholar]
  32. Requests: HTTP for Humans™ (n.d.), https://docs.python-requests.org/en/latest/ [accessed: 23.02.2026]. [Google Scholar]
  33. Results of the IMPACT project (n.d.), Digital Libraries and Knowledge Platforms Department, http://dl.psnc.pl/activities/projekty/impact/results/ [accessed: 3.09.2025]. [Google Scholar]
  34. Słowosieć (n.d.), http://plwordnet.pwr.wroc.pl/wordnet/ [accessed: 23.02.2026]. [Google Scholar]
  35. TOPOgłoszenia (n.d.), https://top-ogloszenia.net/ [accessed: 23.02.2026]. [Google Scholar]
  36. Tor Browser (n.d.), https://www.torproject.org/ [accessed: 23.02.2026]. [Google Scholar]

Downloads

Download data is not yet available.

Podobne artykuły

<< < 13 14 15 16 17 18 19 20 21 22 > >> 

Możesz również Rozpocznij zaawansowane wyszukiwanie podobieństw dla tego artykułu.