Praca przedstawia proces pozyskiwania danych tekstowych i metodologię tworzenia korpusów leksykalnych, a także selekcję i definicję poszczególnych jednostek leksykalnych w celu stworzenia leksykonu słownictwa kryminalnego w języku polskim. Materiał językowy został opracowany i wykorzystany w celu stworzenia systemu informatycznego wspomagającego polskie służby mundurowe w poszukiwaniu przestępstw popełnionych lub planowanych w Internecie. Rozpatrywane kategorie przestępstw to: przemyt i handel narkotykami, papierosami, alkoholem, pojazdami i maszynami, bronią i materiałami wybuchowymi, handel ludzkimi dobrami i narządami, handel i fałszowanie dokumentów, przestępstwa seksualne oraz pedofilia. W wyniku prac stworzono zbiór ponad 3000 słów i fraz. Dodatkowo zebrano zbiór danych lingwistycznych składający się z 3337 pełnych tekstów ze źródeł internetowych. Leksykon dostosowano do wymogów przetwarzania komputerowego na potrzeby trzech modułów systemu: definicja, kontekst i tłumacz. Materiał językowy zebrano z różnego rodzaju anonimowych forów, witryn ogłoszeniowych online, gdzie nie ma kontroli, moderacji i administrowania treścią. Materiał językowy został przetestowany i wdrożony w systemie Straży Granicznej AISearcher.
Możesz również Rozpocznij zaawansowane wyszukiwanie podobieństw dla tego artykułu.