Wykorzystanie metody TD-IDF w badaniu wypowiedzi mówców z różnych grup wiekowych

Magdalena Kądzioła

doi:10.25312/j.9815

No. 1/26 (2026)

Articles

TF-IDF method in the analysis of utterances of Polish speakers: A comparative study of different age groups

Magdalena Kądzioła

DOI: https://doi.org/10.25312/j.9815 [Google Scholar]
Published: 2026-03-25

Abstract

This article presents a lexical analysis of utterances produced by Polish speakers from two age groups: 18–25 and 65–80 years. The aim of the study is to identify and compare words characteristic of the two generations using corpus-based methods. The research material consists of a corpus of contemporary spoken Polish containing over 2.5 million tokens and including texts from several sources: the Spokes conversational corpus, subtitles from YouTube videos, biographical narratives from the Oral History Archive, and parliamentary speeches. A total of 25 texts were selected for each age group. Characteristic lexical items were identified using the TF-IDF (Term Frequency–Inverse Document Frequency) measure calculated in the R environment with the tidytext and dplyr packages. The results reveal clear lexical differences between the two groups. In the speech of younger speakers, the most prominent items include colloquial expressions, filled pauses, phatic markers and functional vulgarisms. In contrast, the speech of older speakers is characterised by words referring to the past, biographical experiences and family relations. The findings suggest that lexical differences between the groups are influenced not only by speakers’ age but also by the communicative contexts represented in the corpus.

References

Bartmiński J. (2008), O wartościach słowa mówionego, [w:] S. Niebrzegowska-Bartmińska, S. Wasiuta (red.), Historia mówiona w świetle etnolingwistyki, Lublin: Wydawnictwo Polihymnia, s. 9–16. [Google Scholar]
Bednorz M., Fąka P., Fleischer M., Grech M., Jankowska K., Siemes A., Wszołek M. (2011), Słownik polszczyzny rzeczywistej, Łódź: Wydawnictwo Primum Verbum. [Google Scholar]
Biel J.I., Aran O., Gatica-Perez D. (2011), You are known by how you vlog: Personality impressions and nonverbal behavior in youtube, [w:] Proceedings of the International AAAI Conference on Web and Social Media, Barcelona, t. 5, nr 1, s. 446–449. [Google Scholar]
Bocale P. (2019), Deictic and epistemic distance in Polish, [w:] I. Krapova, S. Nistratova, L. Ruvoletto, Studi di linguistica slava Nuove prospettive e metodologie di ricerca, Venezia: Edizioni Ca' Foscari – Digital Publishing, s. 93–110. [Google Scholar]
Christian H., Agus M. P., Suhartono D. (2016), Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF), „ComTech: Computer, Mathematics and Engineering Applications”, nr 7(4), s. 285–294. [Google Scholar]
Danielewiczowa M. (2006), Do czego służy słowo „raczej”?, „Polonica”, t. XXVI–XXVII, s. 83–100. [Google Scholar]
Danielewiczowa M. (2012), W głąb specjalizacji znaczeń. Przysłówkowe metapredykaty atestacyjne, Warszawa: Wydawnictwo BelStudio. [Google Scholar]
Das B., Chakraborty S. (2018), An improved text sentiment classification model using TF-IDF and next word negation, arXiv: preprint arXiv:1806.06407. [Google Scholar]
Dubisz S. (2015), Kategoria pokolenia w dialektologii, [w:] P. Stalmaszczyk, I. Jaros (red.), Amor verborum nos unit. Studia poświęcone pamięci Profesora Sławomira Gali, Łódź: Wydawnictwo Uniwersytetu Łódzkiego, s. 67–78. [Google Scholar]
Duda B., Lisczyk K. (2018), Narzędzia cyfrowe w polonistycznej dydaktyce akademickiej – zastosowania, możliwości, perspektywy, „Forum Lingwistyczne”, nr 5, s. 143–154. [Google Scholar]
Eder M. (2015), Does size matter? Authorship attribution, small samples, big problem, „Digital Scholarship in the Humanities”, nr 30(2), s. 167–182. [Google Scholar]
Eder M. (2017), Short samples in authorship attribution: new approach, „Digital Humanities 2017: Conference abstracts”, Montreal: McGill University, s. 221–224. [Google Scholar]
Eder M., Rybicki J., Kestemont M. (2016), Stylometry with R: a package for computational text analysis, „R Journal”, nr 8(1), s. 107–121. [Google Scholar]
Gebreselassie J., Godlewska D. (2017), Komunikacja językowa osób starszych, „Język. Religia. Tożsamość”, nr 15(1), s. 21–33. [Google Scholar]
Ginzburg J., Yusupujiang Z., Li C., Ren K., Łupkowski P. (2019), Characterizing the Response Space of Questions: a Corpus Study for English and Polish, [w:] Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, Stockholm: Association for Computational Linguistics, s. 320–330. [Google Scholar]
Gorlewska E. (2021), Wypowiedzi wartościujące jako istotny aspekt dyskursu wideoblogowego na przykładzie kanału „Stanowo” o tematyce kryminalnej, „Białostockie Archiwum Językowe”, nr 21, s. 43–66. [Google Scholar]
Górski R.L., Łaziński M. (2012), Typologia tekstów w NKJP, [w:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), Narodowy Korpus Języka Polskiego, Warszawa: Wydawnictwo Naukowe PWN, s. 13–23. [Google Scholar]
Grochola-Szczepanek H. (2006), Badania fokusowe mowy mieszkańców wsi, „Socjolingwistyka”, nr 20, s. 19–35. [Google Scholar]
Guz W. (2019), Direct quotation strategies in conversational Polish, [w:] A. Bondaruk, K. Jaskuła (red.), All around the word. Papers in honour of Bogdan Szymanek on his 65th birthday, Lublin: Wydawnictwo KUL, s. 193–222. [Google Scholar]
Hysa B. (2016), Zarządzanie różnorodnością pokoleniową, „Zeszyty Naukowe Politechniki Śląskiej”, seria „Organizacja i Zarządzanie”, nr 97, s. 385–398. [Google Scholar]
Kataryńczuk-Mania L., Gebreselassie J., 2018, Kompetencje komunikacyjne seniorów – wybrane wątki, „Dyskursy Młodych Andragogów/Adult Education Discourses”, nr 19, s. 151–161. [Google Scholar]
Kieraś W., Kobyliński Ł. (2021), Korpusomat – stan obecny i przyszłość projektu, „Język Polski”, CI(2), s. 49–58. [Google Scholar]
Kieraś W., Kobyliński Ł., Ogrodniczuk M. (2018), Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, nr 24(1), s. 21–27. [Google Scholar]
Kita M. (2006), Komunikacja między generacjami w perspektywie stylistycznej, „Stylistyka”, nr 15, s. 295–218. [Google Scholar]
Kowalikowa J. (2008a), O wulgaryzacji i dewulgaryzacji we współczesnej polszczyźnie, „Język a Kultura”, nr 20, s. 81–88. [Google Scholar]
Kowalikowa J. (2008b), O wulgaryzmach w świadomości językowej młodzieży, „Poradnik Językowy”, nr 2, s. 3–15. [Google Scholar]
Leskovec J., Rajaraman A., Ullman J.D. (2010), Mining of massive data sets, Cambridge: Cambridge University Press. [Google Scholar]
Lewandowska I. (2004), Wywiad jako technika zdobywania informacji źródłowych w badaniu historii najnowszej, „Echa Przeszłości”, nr 5, s. 279–299. [Google Scholar]
Lewandowska-Tomaszczyk B. (2019), Tłumaczeniowa ekwiwalencja rozproszona: polskie coś ty i ich angielskie odpowiedniki, „Humanitica 21”, nr 3, s. 23–38. [Google Scholar]
Łysik M. (2020), Wybrane funkcje pragmatyczne operatora nie wiem w języku mówionym (analiza korpusowa), „Prace Filologiczne”, t. LXXV(2), s. 101–114. [Google Scholar]
Majewska-Tworek A. (2014), Niepłynność w oficjalnej odmianie polszczyzny. Propozycja typologii, Wrocław: Wydawnictwo QUAESTIO. [Google Scholar]
Majewska-Tworek A., Zaśko-Zielińska M. (2020), Mowa najstarszego pokolenia użytkowników polszczyzny. Badanie z wykorzystaniem metody językoznawstwa korpusowego – wstępne informacje o projekcie, [w:] S. Milewski, K. Kaczorowska-Bray, B. Kamińska (red.), Starość, język, komunikacja: nowe obszary logopedii, Wrocław: Uniwersytet Wrocławski, s. 171–187. [Google Scholar]
Majewska-Tworek A., Zaśko-Zielińska M., Pęzik P. (2020), Polszczyzna mówiona miast – kontynuacja badań z lat 80. XX wieku z wykorzystaniem narzędzi lingwistyki cyfrowej, „Forum Lingwistyczne”, nr 7, s. 71–87. [Google Scholar]
Maryn-Stachurska D.N. (2019), O znaczeniu przedmiotowym i metatekstowym jednostek normalny i normalnie, „Polonica”, nr 39, s. 179–191. [Google Scholar]
Maślankowski J., Brzezicki Ł. (2020), Wykorzystanie mediów społecznościowych w szkolnictwie wyższym, „Wiadomości Statystyczne. The Polish Statistician”, nr 65, s. 30–42. [Google Scholar]
Mróz A., Szulc M. (2009), Wulgaryzmy wśród studentów a płeć, „Miscellanea Anthropologica et Sociologica”, nr 10(11), s. 130–143. [Google Scholar]
Ogrodniczuk M. (2017), Lingwistyka komputerowa dla języka polskiego: dziś i jutro, „Język Polski”, t. I, s. 18–28. [Google Scholar]
Ożóg K. (2001), Polszczyzna przełomu XX i XXI wieku. Wybrane zagadnienia, Rzeszów: Wydawnictwo Otwarty Rozdział. [Google Scholar]
Ożóg K. (2017), Uwagi o języku współczesnej młodzieży – między kodem ograniczonym a kodem rozwiniętym, „Słowo. Studia Językoznawcze”, nr 8, s. 163–181. [Google Scholar]
Pacławska E. (2008), Zróżnicowanie gatunków mowy w tekstach historii mówionej, [w:] S. Niebrzegowska-Bartmińska, S. Wasiuta (red.), Historia mówiona w świetle etnolingwistyki, Lublin: Wydawnictwo Polihymnia, s. 47–62. [Google Scholar]
Pałka P., Kwaśnicka-Janowicz A. (2017), Przewodnik po elektronicznych zasobach językowych dla polonistów, „Biblioteczka TMJP”, nr 28. [Google Scholar]
Pęzik P. (2015), Spokes – a Search and Exploration Service for Conversational Corpus Data, [w:] J. Odjik (red.), Selected Papers from the CLARIN 2014 Conference, Soesterberg: Linköping University Electronic Press, s. 99–109. [Google Scholar]
Piasecki M., Walkowiak T., Eder M. (2018), Open stylometric system WebSty: integrated language processing, analysis and visualisation, „Computational Methods in Science and Technology”, nr 24(1), s. 43–58. [Google Scholar]
Sikora K. (2016), Kilka uwag na temat wulgaryzacji i brutalizacji polszczyzny, „Poznańskie Spotkania Językoznawcze”, nr 32, s. 105–115. [Google Scholar]
Silge J., Robinson D. (2016), tidytext: Text Mining and Analysis Using Tidy Data Principles in R, „The Journal of Open Source Software”, nr 1(3), 37. [Google Scholar]
Stopczyńska K. (2018), Wykorzystanie influencer marketingu w kreowaniu relacji z klientami pokolenia Y, „Studia Oeconomica Posnaniensia”, t. 6, nr 5, s. 104–115. [Google Scholar]
Szczyszek M. (2019), Emocje w parlamencie parlament w emocjach: ujęcie statystyczne. O projekcie słownika polskiego parlamentaryzmu XX wieku (lata 1918–2018), „Prace Językoznawcze”, t. XXI, nr 3, s. 203–218. [Google Scholar]
Świątek A. (2007), Specyficzne zjawiska komunikacyjne w wieku senioralnym, „Sztuka Leczenia”, t. XIV, nr 1–2, s. 69–78. [Google Scholar]
Taras B. (2011), Ekspansja wulgarności w języku i kulturze, „Język Polski”, nr 5, s. 372–380. [Google Scholar]
Wickham H., François R., Henry L., Müller K. (2021), dplyr: A Grammar of Data Manipulation, R package version 1.0.6, https://CRAN.R-project.org/package=dplyr [dostęp: 20.06.2025]. [Google Scholar]
Wiercińska K. (2018), Op zoek naar perceptieverschillen bij directief taalgebruik in het Pools en het Nederlands: een onderzoeksvoorstel, „Acta Universitatis Carolinae Philologica”, nr 4, s. 169–178. [Google Scholar]
Wierzbicka A. (1996), Między modlitwą a przekleństwem: O Jezu! i podobne wyrażenia na tle porównawczym, „Etnolingwistyka”, nr 8, s. 25–39. [Google Scholar]
Wileczek A. (2020), Kod młodzieży czy kod młodości? Społeczno-kulturowe aspekty „mediatyzacji” młodomowy, [w:] A. Hącia, K. Kłosińska, P. Zbróg (red.), Polszczyzna w dobie cyfryzacji, Warszawa: Polska Akademia Nauk, s. 169–186. [Google Scholar]
Zaśko-Zielińska M. (2009), Próba charakterystyki biolektu – język a wiek, „Studia Linguistica”, t. XXVIII, s. 117–123. [Google Scholar]
Żmigrodzki P. (2012), Wulgaryzmy jako problem dla leksykografa (nie tylko w związku z pracami nad Wielkim słownikiem języka polskiego PAN), „Annales Universitatis Paedagogicae Cracoviensis. Studia de Cultura”, nr 135, s. 123–131. [Google Scholar]

Downloads

Download data is not yet available.

Keywords

spoken Polish
corpus linguistics
TD-IDF
lexical analysis
generational variation

How to Cite

Kądzioła, M. (2026). TF-IDF method in the analysis of utterances of Polish speakers: A comparative study of different age groups. Linguistics, (1/26), 175–198. https://doi.org/10.25312/j.9815

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

TF-IDF method in the analysis of utterances of Polish speakers: A comparative study of different age groups

Abstract

References

Downloads

Similar Articles