Przejdź do głównego menu Przejdź do sekcji głównej Przejdź do stopki

Nr 1/26 (2026)

Artykuły

Wykorzystanie metody TD-IDF w badaniu wypowiedzi mówców z różnych grup wiekowych

  • Magdalena Kądzioła
DOI: https://doi.org/10.25312/j.9815  [Google Scholar]
Opublikowane: 25.03.2026

Abstrakt

Artykuł przedstawia analizę leksyki występującej w wypowiedziach użytkowników języka polskiego należących do dwóch grup wiekowych: 18–25 oraz 65–80 lat. Celem badania jest identyfikacja i porównanie słów charakterystycznych dla obu pokoleń z wykorzystaniem metod lingwistyki korpusowej. Materiał badawczy stanowi korpus współczesnego języka mówionego liczący ponad 2,5 mln wyrazów, obejmujący teksty pochodzące m.in. z korpusu Spokes, napisów z serwisu YouTube, relacji biograficznych Archiwum Historii Mówionej oraz wystąpień sejmowych. Do analizy wybrano po 25 tekstów z każdej grupy wiekowej. Do wyłonienia leksemów charakterystycznych zastosowano miarę TF-IDF (Term Frequency – Inverse Document Frequency), obliczoną w środowisku R z wykorzystaniem pakietów tidytext i dplyr. Wyniki pokazują wyraźne różnice w warstwie leksykalnej wypowiedzi obu pokoleń. W grupie młodszej dominują elementy typowe dla mowy potocznej, takie jak wulgaryzmy, pauzy wypełnione oraz zwroty fatyczne. W wypowiedziach osób starszych częściej pojawiają się leksemy odnoszące się do przeszłości, doświadczeń biograficznych oraz relacji rodzinnych. Analiza wskazuje jednak, że różnice te wynikają nie tylko z wieku mówców, lecz także z odmiennych sytuacji komunikacyjnych reprezentowanych w badanym korpusie.

Bibliografia

  1. Bartmiński J. (2008), O wartościach słowa mówionego, [w:] S. Niebrzegowska-Bartmińska, S. Wasiuta (red.), Historia mówiona w świetle etnolingwistyki, Lublin: Wydawnictwo Polihymnia, s. 9–16. [Google Scholar]
  2. Bednorz M., Fąka P., Fleischer M., Grech M., Jankowska K., Siemes A., Wszołek M. (2011), Słownik polszczyzny rzeczywistej, Łódź: Wydawnictwo Primum Verbum. [Google Scholar]
  3. Biel J.I., Aran O., Gatica-Perez D. (2011), You are known by how you vlog: Personality impressions and nonverbal behavior in youtube, [w:] Proceedings of the International AAAI Conference on Web and Social Media, Barcelona, t. 5, nr 1, s. 446–449. [Google Scholar]
  4. Bocale P. (2019), Deictic and epistemic distance in Polish, [w:] I. Krapova, S. Nistratova, L. Ruvoletto, Studi di linguistica slava Nuove prospettive e metodologie di ricerca, Venezia: Edizioni Ca' Foscari – Digital Publishing, s. 93–110. [Google Scholar]
  5. Christian H., Agus M. P., Suhartono D. (2016), Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF), „ComTech: Computer, Mathematics and Engineering Applications”, nr 7(4), s. 285–294. [Google Scholar]
  6. Danielewiczowa M. (2006), Do czego służy słowo „raczej”?, „Polonica”, t. XXVI–XXVII, s. 83–100. [Google Scholar]
  7. Danielewiczowa M. (2012), W głąb specjalizacji znaczeń. Przysłówkowe metapredykaty atestacyjne, Warszawa: Wydawnictwo BelStudio. [Google Scholar]
  8. Das B., Chakraborty S. (2018), An improved text sentiment classification model using TF-IDF and next word negation, arXiv: preprint arXiv:1806.06407. [Google Scholar]
  9. Dubisz S. (2015), Kategoria pokolenia w dialektologii, [w:] P. Stalmaszczyk, I. Jaros (red.), Amor verborum nos unit. Studia poświęcone pamięci Profesora Sławomira Gali, Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 67–78. [Google Scholar]
  10. Duda B., Lisczyk K. (2018), Narzędzia cyfrowe w polonistycznej dydaktyce akademickiej – zastosowania, możliwości, perspektywy, „Forum Lingwistyczne”, nr 5, s. 143–154. [Google Scholar]
  11. Eder M. (2015), Does size matter? Authorship attribution, small samples, big problem, „Digital Scholarship in the Humanities”, nr 30(2), s. 167–182. [Google Scholar]
  12. Eder M. (2017), Short samples in authorship attribution: new approach, „Digital Humanities 2017: Conference abstracts”, Montreal: McGill University, s. 221–224. [Google Scholar]
  13. Eder M., Rybicki J., Kestemont M. (2016), Stylometry with R: a package for computational text analysis, „R Journal”, nr 8(1), s. 107–121. [Google Scholar]
  14. Gebreselassie J., Godlewska D. (2017), Komunikacja językowa osób starszych, „Język. Religia. Tożsamość”, nr 15(1), s. 21–33. [Google Scholar]
  15. Ginzburg J., Yusupujiang Z., Li C., Ren K., Łupkowski P. (2019), Characterizing the Response Space of Questions: a Corpus Study for English and Polish, [w:] Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, Stockholm: Association for Computational Linguistics, s. 320–330. [Google Scholar]
  16. Gorlewska E. (2021), Wypowiedzi wartościujące jako istotny aspekt dyskursu wideoblogowego na przykładzie kanału „Stanowo” o tematyce kryminalnej, „Białostockie Archiwum Językowe”, nr 21, s. 43–66. [Google Scholar]
  17. Górski R.L., Łaziński M. (2012), Typologia tekstów w NKJP, [w:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), Narodowy Korpus Języka Polskiego, Warszawa: Wydawnictwo Naukowe PWN, s. 13–23. [Google Scholar]
  18. Grochola-Szczepanek H. (2006), Badania fokusowe mowy mieszkańców wsi, „Socjolingwistyka”, nr 20, s. 19–35. [Google Scholar]
  19. Guz W. (2019), Direct quotation strategies in conversational Polish, [w:] A. Bondaruk, K. Jaskuła (red.), All around the word. Papers in honour of Bogdan Szymanek on his 65th birthday, Lublin: Wydawnictwo KUL, s. 193–222. [Google Scholar]
  20. Hysa B. (2016), Zarządzanie różnorodnością pokoleniową, „Zeszyty Naukowe Politechniki Śląskiej”, seria „Organizacja i Zarządzanie”, nr 97, s. 385–398. [Google Scholar]
  21. Kataryńczuk-Mania L., Gebreselassie J., 2018, Kompetencje komunikacyjne seniorów – wybrane wątki, „Dyskursy Młodych Andragogów/Adult Education Discourses”, nr 19, s. 151–161. [Google Scholar]
  22. Kieraś W., Kobyliński Ł. (2021), Korpusomat – stan obecny i przyszłość projektu, „Język Polski”, CI(2), s. 49–58. [Google Scholar]
  23. Kieraś W., Kobyliński Ł., Ogrodniczuk M. (2018), Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, nr 24(1), s. 21–27. [Google Scholar]
  24. Kita M. (2006), Komunikacja między generacjami w perspektywie stylistycznej, „Stylistyka”, nr 15, s. 295–218. [Google Scholar]
  25. Kowalikowa J. (2008a), O wulgaryzacji i dewulgaryzacji we współczesnej polszczyźnie, „Język a Kultura”, nr 20, s. 81–88. [Google Scholar]
  26. Kowalikowa J. (2008b), O wulgaryzmach w świadomości językowej młodzieży, „Poradnik Językowy”, nr 2, s. 3–15. [Google Scholar]
  27. Leskovec J., Rajaraman A., Ullman J.D. (2010), Mining of massive data sets, Cambridge: Cambridge University Press. [Google Scholar]
  28. Lewandowska I. (2004), Wywiad jako technika zdobywania informacji źródłowych w badaniu historii najnowszej, „Echa Przeszłości”, nr 5, s. 279–299. [Google Scholar]
  29. Lewandowska-Tomaszczyk B. (2019), Tłumaczeniowa ekwiwalencja rozproszona: polskie coś ty i ich angielskie odpowiedniki, „Humanitica 21”, nr 3, s. 23–38. [Google Scholar]
  30. Łysik M. (2020), Wybrane funkcje pragmatyczne operatora nie wiem w języku mówionym (analiza korpusowa), „Prace Filologiczne”, t. LXXV(2), s. 101–114. [Google Scholar]
  31. Majewska-Tworek A. (2014), Niepłynność w oficjalnej odmianie polszczyzny. Propozycja typologii, Wrocław: Wydawnictwo QUAESTIO. [Google Scholar]
  32. Majewska-Tworek A., Zaśko-Zielińska M. (2020), Mowa najstarszego pokolenia użytkowników polszczyzny. Badanie z wykorzystaniem metody językoznawstwa korpusowego – wstępne informacje o projekcie, [w:] S. Milewski, K. Kaczorowska-Bray, B. Kamińska (red.), Starość, język, komunikacja: nowe obszary logopedii, Wrocław: Uniwersytet Wrocławski, s. 171–187. [Google Scholar]
  33. Majewska-Tworek A., Zaśko-Zielińska M., Pęzik P. (2020), Polszczyzna mówiona miast – kontynuacja badań z lat 80. XX wieku z wykorzystaniem narzędzi lingwistyki cyfrowej, „Forum Lingwistyczne”, nr 7, s. 71–87. [Google Scholar]
  34. Maryn-Stachurska D.N. (2019), O znaczeniu przedmiotowym i metatekstowym jednostek normalny i normalnie, „Polonica”, nr 39, s. 179–191. [Google Scholar]
  35. Maślankowski J., Brzezicki Ł. (2020), Wykorzystanie mediów społecznościowych w szkolnictwie wyższym, „Wiadomości Statystyczne. The Polish Statistician”, nr 65, s. 30–42. [Google Scholar]
  36. Mróz A., Szulc M. (2009), Wulgaryzmy wśród studentów a płeć, „Miscellanea Anthropologica et Sociologica”, nr 10(11), s. 130–143. [Google Scholar]
  37. Ogrodniczuk M. (2017), Lingwistyka komputerowa dla języka polskiego: dziś i jutro, „Język Polski”, t. I, s. 18–28. [Google Scholar]
  38. Ożóg K. (2001), Polszczyzna przełomu XX i XXI wieku. Wybrane zagadnienia, Rzeszów: Wydawnictwo Otwarty Rozdział. [Google Scholar]
  39. Ożóg K. (2017), Uwagi o języku współczesnej młodzieży – między kodem ograniczonym a kodem rozwiniętym, „Słowo. Studia Językoznawcze”, nr 8, s. 163–181. [Google Scholar]
  40. Pacławska E. (2008), Zróżnicowanie gatunków mowy w tekstach historii mówionej, [w:] S. Niebrzegowska-Bartmińska, S. Wasiuta (red.), Historia mówiona w świetle etnolingwistyki, Lublin: Wydawnictwo Polihymnia, s. 47–62. [Google Scholar]
  41. Pałka P., Kwaśnicka-Janowicz A. (2017), Przewodnik po elektronicznych zasobach językowych dla polonistów, „Biblioteczka TMJP”, nr 28. [Google Scholar]
  42. Pęzik P. (2015), Spokes – a Search and Exploration Service for Conversational Corpus Data, [w:] J. Odjik (red.), Selected Papers from the CLARIN 2014 Conference, Soesterberg: Linköping University Electronic Press, s. 99–109. [Google Scholar]
  43. Piasecki M., Walkowiak T., Eder M. (2018), Open stylometric system WebSty: integrated language processing, analysis and visualisation, „Computational Methods in Science and Technology”, nr 24(1), s. 43–58. [Google Scholar]
  44. Sikora K. (2016), Kilka uwag na temat wulgaryzacji i brutalizacji polszczyzny, „Poznańskie Spotkania Językoznawcze”, nr 32, s. 105–115. [Google Scholar]
  45. Silge J., Robinson D. (2016), tidytext: Text Mining and Analysis Using Tidy Data Principles in R, „The Journal of Open Source Software”, nr 1(3), 37. [Google Scholar]
  46. Stopczyńska K. (2018), Wykorzystanie influencer marketingu w kreowaniu relacji z klientami pokolenia Y, „Studia Oeconomica Posnaniensia”, t. 6, nr 5, s. 104–115. [Google Scholar]
  47. Szczyszek M. (2019), Emocje w parlamencie parlament w emocjach: ujęcie statystyczne. O projekcie słownika polskiego parlamentaryzmu XX wieku (lata 1918–2018), „Prace Językoznawcze”, t. XXI, nr 3, s. 203–218. [Google Scholar]
  48. Świątek A. (2007), Specyficzne zjawiska komunikacyjne w wieku senioralnym, „Sztuka Leczenia”, t. XIV, nr 1–2, s. 69–78. [Google Scholar]
  49. Taras B. (2011), Ekspansja wulgarności w języku i kulturze, „Język Polski”, nr 5, s. 372–380. [Google Scholar]
  50. Wickham H., François R., Henry L., Müller K. (2021), dplyr: A Grammar of Data Manipulation, R package version 1.0.6, https://CRAN.R-project.org/package=dplyr [dostęp: 20.06.2025]. [Google Scholar]
  51. Wiercińska K. (2018), Op zoek naar perceptieverschillen bij directief taalgebruik in het Pools en het Nederlands: een onderzoeksvoorstel, „Acta Universitatis Carolinae Philologica”, nr 4, s. 169–178. [Google Scholar]
  52. Wierzbicka A. (1996), Między modlitwą a przekleństwem: O Jezu! i podobne wyrażenia na tle porównawczym, „Etnolingwistyka”, nr 8, s. 25–39. [Google Scholar]
  53. Wileczek A. (2020), Kod młodzieży czy kod młodości? Społeczno-kulturowe aspekty „mediatyzacji” młodomowy, [w:] A. Hącia, K. Kłosińska, P. Zbróg (red.), Polszczyzna w dobie cyfryzacji, Warszawa: Polska Akademia Nauk, s. 169–186. [Google Scholar]
  54. Zaśko-Zielińska M. (2009), Próba charakterystyki biolektu – język a wiek, „Studia Linguistica”, t. XXVIII, s. 117–123. [Google Scholar]
  55. Żmigrodzki P. (2012), Wulgaryzmy jako problem dla leksykografa (nie tylko w związku z pracami nad Wielkim słownikiem języka polskiego PAN), „Annales Universitatis Paedagogicae Cracoviensis. Studia de Cultura”, nr 135, s. 123–131. [Google Scholar]

Downloads

Download data is not yet available.

Podobne artykuły

<< < 2 3 4 5 6 7 8 9 10 11 > >> 

Możesz również Rozpocznij zaawansowane wyszukiwanie podobieństw dla tego artykułu.