온라인 댓글의 주제 분석을 위한 토픽 모델링 : 이슈 포착과 분류에 활용 가능한 LDA와 BTM의 비교와 검증
초록
토픽 모델링은 컴퓨터를 이용해 빠르고 쉽게 방대한 양의 정보를 구성하거나 파악하는 모델을 추정하는 비지도 기계학습 방법으로 문서를 비슷한 토픽별로 묶어내거나 토픽의 내용과 분포를 파악하고자 할 때 활용된다. 그런데 토픽 모델링을 미디어 연구에 활용함에 있어 이론적으로 정의된 개념을 타당하고 신뢰할 수 있는 측정하는 방법으로써의 고민이 부족했다는 지적이 최근 제기되고 있다. 대단위 텍스트 자료를 탐색하고 요약하는 도구인 토픽 모델링을 미디어 연구에 활용하기 위해서 방법적 타당성 검증과 신뢰성 확보가 필요하다는 것이다. 더욱이, 온라인 플랫폼을 통해 거대한 규모로 빠르게 발생하고 있는 댓글을 ‘이슈’에 따라 분류하고 그 주요 주제를 요약하는 방법은 사회적 쟁점을 즉각적으로 파악하고 담론 양상을 통시적으로 추적하는데 유용하다. 이러한 이유에서 댓글의 주제를 분석하기 위한 토픽 모델링의 방법적 타당성을 진단하는 시도는 그 의의가 크다고 할 수 있다. 이에 본 연구는 온라인 댓글의 주제 분석을 위한 토픽 모델링 방법을 제시하고 그 성능과 타당성을 다음과 같이 검증했다. 우선, 온라인 댓글의 맥락에서 다뤄지는 ‘이슈’에 대한 개념화를 통해 댓글의 주제 분석이 왜 필요하고 어떠한 함의가 있는 것인지에 대해 논의했다. 그리고 토픽 모델링이 텍스트의 주제를 추정하는 원리와 주제 추정에 영향을 미치는 통계 모델로써의 가정들에 대해 Latent Dirichlet Allocation(LDA) 모델을 중심으로 살펴봤다. 또한 댓글의 주제를 포착하고 ‘이슈’별로 분류하기 위한 토픽 모델링을 제안하고자 LDA와 Biterm Topic Model(BTM)의 성능과 한계를 비교했다. 이상의 이론적 논의를 토대로 9개의 사회적 이슈를 다루고 있는 기사에 달린 9,000건의 온라인 뉴스 댓글을 토픽 모델링으로 분석해 주제를 추정하고 이에 따라 댓글이 뉴스의 ‘이슈’에 따라 분류되는지를 모델별로 비교 검증했다. 그 결과는 다음과 같다. 첫째, BTM에 비해 LDA는 초모수 α에 많은 영향을 받았는데 α값이 낮아질수록 모델의 성능이 좋아졌다. 둘째, BTM과 LDA 모두 최적의 주제의 개수(K)를 추정할 수 있었으나, BTM이 K값 선정에 따른 성능 변화가 LDA보다 적었고 K값이 최적의 값보다 클 때보다 낮을 때 성능 저하가 심해졌다. 셋째, BTM과 LDA 모두 분석 단어 목록에 단일 형태소와 함께 바이그램(bigram)을 추가할 때 성능이 좋아졌으나 그 차이는 LDA에서 더욱 뚜렸했다. 이러한 검증 결과를 토대로 댓글의 주제 분석을 위한 토픽 모델링의 활용 가능성을 진단하고 그 함의를 논의했다.
Abstract
Using computers to rapidly and efficiently build a model to organize massive volumes of textual data, topic modeling is an unsupervised machine learning technique that can be used to classify texts into related themes or to analyze the nature and distribution of topics. However, topic modeling's usage in media research has recently come under fire for failing to take into account reliable and valid measures of theoretically defined concepts. This means that topic modeling needs methodological validation and reliability in order to be employed in media research as a tool for investigating and summarizing massive volumes of textual material. Additionally, it is helpful to be able to group online comments into "issues" and list their important points in order to quickly identify social issues and monitor discourse patterns in real-time on digital platforms. For this reason, attempts to diagnose the methodological validity of topic modeling for analyzing the topics of comments are of great significance. Therefore, this study validates topic modeling for analyzing online comments by verifying its performance as follows. First, we discussed why topic analysis of comments is necessary and what the implications are through the conceptualization of "issues" in the context of online comments. Then, with an emphasis on the Latent Dirichlet Allocation (LDA) model, we reviewed the principle of topic modeling to estimate the topic of text and the assumptions of statistical models that affect topic estimation. Additionally, we contrasted the merits and drawbacks of LDA and the Biterm Topic Model (BTM) to suggest topic modeling as a means of identifying the subject of comments and categorizing them as "issues." Based on the above theoretical discussion, we applied topic modeling to analyze 9,000 online news comments on articles covering nine social issues and validate whether the topics are useful to classify comments according to the "issues" of the news. The results are as follows. First, compared to BTM, LDA is highly dependent on the hyperparameter, α, with lower values leading to better model performance. Second, both BTM and LDA were able to estimate the optimal number of topics (K ), but BTM showed less variation in performance with value selection than LDA, and performance degradation was worse when the value was lower than the optimal K than when it was higher. Third, both BTM and LDA performed better when adding bigrams along with unigrams to the vocabulary, but the difference was more pronounced for LDA. Based on these validation results, we assessed the validity of topic modeling for analysis of comments and discussed its implications.
Keywords:
Online Comment, Topic Modeling, LDA, BTM, Model Validation키워드:
온라인 댓글, 토픽 모델링, LDA, BTM, 타당성 검증Acknowledgments
This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea(NRF-2017S1A6A3A01078538)(이 논문은 2017년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017S1A6A3A01078538)).
References
- An, S., Lee, H., & Chung, S. (2022). Online public opinion on the conflict between young and old generations through topic modeling: An exploratory study on the media’s role in generational solidarity. Korean Journal of Journalism & Communication Studies, 66(1), 89-126. [안순태‧이하나‧정순둘 (2022). 토픽 모델링 분석을 통해 살펴본 세대 갈등에 대한 온라인 댓글 여론의 반응: 세대 연대를 위한 미디어 역할에 관한 탐색적 연구. <한국언론학보>, 66권 1호, 89-126.] [https://doi.org/10.20879/kjjcs.2022.66.1.003]
- An, S., Lim, Y., & Lee, H. (2020). A study of viewers' comments on online Mukbang videos: A bIg-data analysis of perceptions toward eating behavior. Korean Journal of Journalism & Communication Studies, 64(2), 269-310. [안순태‧임유진‧이하나 (2020). 온라인 먹방(먹는 방송, Mukbang)의 댓글 연구: 식행동 관련 인식에 대한 빅데이터 분석. <한국언론학보>, 64권 2호, 269-310.] [https://doi.org/10.20879/kjjcs.2020.64.2.007]
- Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84. [https://doi.org/10.1145/2133806.2133826]
- Chang, J., Boyd-Graber, J., Wang, C., Gerrish, S., & Blei, D. M. (2009). Reading tea leaves: How humans interpret topic models. In Y. Bengio, D. Schuurman J. Lafferty, C. K. I. Williams, & A. Culotta (Eds.), Advances in neural information processing systems (pp. 288-296). Cambridge, MA: The MIT Press.
- Chen, Y., Peng, Z., Kim, S.-H., & Choi, C. W. (2023). What we can do and cannot do with topic modeling: A systematic review. Communication Methods and Measures, 17(2), 111-130. [https://doi.org/10.1080/19312458.2023.2167965]
- Cho, M., & Lee, S. H. (2021). Analyzing news frames in the coverage of COVID-19: Data-driven approach to frame analysis. Journal of Speech, Media and Communication Research, 20(1), 79-121. [조민정‧이신행 (2021). 코로나19 관련 언론 보도 프레임 분석: 자료기반 자동화 프레임 추출 방법을 중심으로. <한국소통학보>, 20권 1호, 79-121.]
- Choi, D. S., Choi, S. E., & Choi, Y. J. (2008). How do comments affect forming public opinion in Internet portal news? Journal of Political Communication, 8, 311-358. [최동성‧최성은‧최용준 (2008). 인터넷 포털뉴스 댓글의 여론형성 과정과 특성에 관한 연구. <정치커뮤니케이션연구>, 8권, 309-356.] [https://doi.org/10.35731/kpca.2008..8.009]
- DiMaggio, P., Nag, M., & Blei, D. (2013). Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding. Poetics, 41(6), 570-606. [https://doi.org/10.1016/j.poetic.2013.08.004]
- Entman, R. M. (1993). Framing: Toward clarification of a fractured paradigm. Journal of Communication, 43(4), 51-58. [https://doi.org/10.1111/j.1460-2466.1993.tb01304.x]
- Entman, R., Matthes, J., & Pellicano, L. (2009). Nature, sources and effects of news framing. In K. Wahl-Jorgensen & T. Hanitzsch (Eds.), The handbook of journalism studies (pp. 175-190). New York: Routledge.
- Gitlin, T. (1980). The whole world is watching. Berkeley: University of California.
- Grimmer, J., & Stewart, B. M. (2013). Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis, 21(3), 267-297. [https://doi.org/10.1093/pan/mps028]
- Ham, S., Jung, S., & Kim, E.-Y. (2022). Analysis of media coverage on the issue of “Comfort Women” by daily newspapers in South Korea from 2003 to 2020: A big data study using topic modeling. Korean Journal of Communication & Information, 111, 181-215. [함승경‧정사강‧김은영 (2022). 2003년∼2020년 한국 일간지의 ‘위안부’ 보도 분석: 빅데이터를 이용한 의제 분석을 중심으로. <한국언론정보학보>, 111권, 181-215.] [https://doi.org/10.46407/kjci.2022.02.111.181]
- Hong, J., & Na, E. (2016). Online hate speech diffusion network analysis: Issue-specific diffusion patterns, types and intensity of verbal expression on online hatred. Korean Journal of Journalism & Communication Studies, 60(5), 145-175. [홍주현‧나은경 (2016). 온라인 혐오표현의 확산 네트워크 분석: 이슈 속성별 확산 패턴 및 혐오표현의 유형과 강도. <한국언론학보>, 60권 5호, 145-175.] [https://doi.org/10.20879/kjjcs.2016.60.5.006]
- Hwang, T. Y., Yoo, J. M., & Kim, H. Y. (2022). Analysis of changes in domestic public opinion before and after the Yemeni refugee crisis in Jeju: Focusing on sentiment analysis approach using deep neural network. Korean Public Administration Review, 56(2), 127-166. [황태연‧유정모‧김화연 (2022). 제주 예멘난민 사태 전후 국내 여론변화 분석: 심층 인공신경망을 활용한 감성분석을 중심으로. <한국행정학보>, 56권 2호, 127-166.] [https://doi.org/10.18333/KPAR.56.2.127]
- Jeong, I.-K., & Kim, Y-S. (2006). Impact of "Datgeul" of online media on public opinion: An examination of perception of public opinion and third person effect. Korean Journal of Journalism & Communication Studies, 50(4), 302-327. [정일권‧김영석 (2006). 온라인 미디어에서의 댓글이 여론에 미치는 영향에 관한 연구: 여론동향 지각과 제3자 효과를 중심으로. <한국언론학보>, 50권 4호, 302-327.]
- Kang, J.-W., & Kim, S.-J. (2012). A study on the effect of comments posted under internet news articles: In consideration of the degree of involvement in issues and whether or not opinions are in accord. Korean Journal of Journalism & Communication Studies, 56(2), 143-166. [강재원‧김선자 (2012). 인터넷 뉴스기사에 달린 댓글의 효과 연구. <한국언론학보>, 56권 2호, 143-166.]
- Kim, E. J., & Kang, J. H. (2019). Grounded theory analysis of portal news and comment discourse on abortion. Journal of Communication Research, 56(2), 188-242. [김은진‧강주현 (2019). 임신중절에 관한 포털뉴스와 댓글 담론의 근거이론적 분석. <언론정보연구>, 56권 2호, 188-242.] [https://doi.org/10.22174/jcr.2019.56.2.188]
- Kim, E.-M., & Sun, Y.-H. (2006). The effect of replies in internet news on the audience. Korean Journal of Journalism & Communication Studies, 50(4), 33-64. [김은미‧선유화 (2006). 댓글에 대한 노출이 뉴스 수용에 미치는 효과. <한국언론학보>, 50권 4호, 33-64.]
- Kim, H., & Rhee, J. W. (2011). The impacts of frame fusion of news text and comments on news interpretation and attitude. Korean Journal of Journalism & Communication Studies, 55(2), 32-55. [김혜미‧이준웅 (2011). 인터넷 뉴스와 댓글의 뉴스 프레임 융합 효과 연구. <한국언론학보>, 55권 2호, 32-55.]
- Koh, M. (2018). Who comments on or shares online news stories?: Application of statistical learning methodology. Journal of Cybercommunication Academic Society, 35(1), 5-51. [고문정 (2018). 누가 온라인 뉴스에 댓글을 작성하거나 뉴스를 공유하는가?: 통계 학습 방법의 적용. <사이버커뮤니케이션학보>, 35권 1호, 5-51.] [https://doi.org/10.36494/JCAS.2018.03.35.1.5]
- Koltsova, O., & Koltcov, S. (2013). Mapping the public agenda with topic modeling: The case of the Russian livejournal. Policy & Internet, 5(2), 207-227. [https://doi.org/10.1002/1944-2866.POI331]
- Lee, E.-J., & Jang, Y. J. (2009). Effects of others’ comments on internet news sites on perceptions of reality: Perceived public opinion, presumed media influence, and self-opinion. Korean Journal of Journalism & Communication Studies, 53(4), 50-71. [이은주‧장윤재 (2009). 인터넷 뉴스 댓글이 여론 및 기사의 사회적 영향력에 대한 지각과 수용자의 의견에 미치는 효과. <한국언론학보>, 53권 4호, 50-71.]
- Lee, J. H., & Kil, W. (2019). News agenda classification and media diversity analysis using topic modeling: Based on news on the Presidential New Year Press Conference. Korean Journal of Broadcasting and Telecommunication Studies, 33(1), 161-196. [이종혁‧길우영 (2019). 토픽모델링을 이용한 뉴스 의제 분류와 미디어 다양성 분석: 대통령 신년 기자회견 관련 뉴스 분석을 통해. <한국방송학보>, 33권 1호, 161-196.] [https://doi.org/10.22876/kab.2019.33.1.005]
- Lee, J. S., Kim, J., Ryu, J., & Kang, J. (2010). The influence of the frame and genre of portal news articles on the type of online replies. Korean Journal of Journalism & Communication Studies, 54(2), 116-137. [이재신‧김지은‧류재미‧강재혁 (2010). 기사 프레임과 장르가 댓글 유형에 미치는 영향. <한국언론학보>, 54권 2호, 116-137.]
- Lee, J. S., & Sung, M. J. (2007). The effects of reading replies on the perception of online news articles: Focusing on the PR perspective. The Korean Journal of Advertising and Public Relations, 9(4), 7-45. [이재신‧성민정 (2007). 온라인 댓글이 기사 평가에 미치는 영향: PR적 관점을 중심으로. <한국광고홍보학보>, 9권 4호, 7-45.]
- Lee, M. (2022). Kiwi: Korean Intelligent Word Identifier. Retrieved from 3/1/23 from https://github.com/bab2min/Kiwi, .
- Lee, S. H. (2021). Biased artificial intelligence: Analyzing the types of hate speech classified by ‘Cleanbot’, NAVER AI for detecting malicious comments. Journal of Cybercommunication Academic Society, 38(4), 33-75. [이신행 (2021). 편향적 인공지능: 네이버의 악플 탐지용 인공지능 ‘클린봇’이 판별한 혐오표현의 유형 분석. <사이버커뮤니케이션학보>, 38권 4호, 33-75.] [https://doi.org/10.36494/JCAS.2021.12.38.4.33]
- Lee, S. H., & Hyun, A. (2023). How does YouTube “Cyber-Wrecker” channels generate toxicity?: The effects of YouTuber’s anonymity, normative conformity, and echo-chamber of hate on malicious comments. Journal of Cybercommunication Academic Society, 40(2), 53-88. [이신행‧현아연 (2023). 유튜브 ‘사이버렉카’ 채널은 어떻게 악성댓글을 양산하는가? 유튜버 익명성, 규범 동조, 혐오의 반향실 효과를 중심으로. <사이버커뮤니케이션학보>, 40권 2호, 53-88.] [https://doi.org/10.36494/JCAS.2023.06.40.2.53]
- Lee, S.-M., Ryu, S.-E., & Ahn, S. (2020). Mass media and social media agenda analysis using text mining: Focused on ‘5-day rotation mask distribution system’. Journal of the Korea Contents Association, 20(6), 460-469. [이새미‧유승의‧안순재 (2020). 텍스트 마이닝을 활용한 매스 미디어와 소셜 미디어 의제 분석: ‘마스크 5부제’를 중심으로. <한국콘텐츠학회논문지>, 20권 6호, 460-469.] [https://doi.org/10.5392/JKCA.2020.20.06.460]
- Maier, D., Waldherr, A., Miltner, P., Wiedemann, G., Niekler, A., Keinert, A., ... & Adam, S. (2018). Applying LDA topic modeling in communication research: Toward a valid and reliable methodology. Communication Methods and Measures, 12(2-3), 93-118. [https://doi.org/10.1080/19312458.2018.1430754]
- McCombs, M. E., & Shaw, D. L. (1972). The agenda-setting function of mass media. The Public Opinion Quarterly, 36(2), 176-187. [https://doi.org/10.1086/267990]
- Miller, M. M., & Riechert, B. P. (2000). Interest group strategies and journalistic norms: News media framing of environmental issues. In U. Beck, B. Adam, S. Allan, & C. Carter (Eds.), Environmental risks and the media (pp. 45-54). New York: Routledge.
- Mun, G.-S. (2021). Evaluating LDA and BTM topic models for short texts. Journal of the Korean Data Analysis Society, 23(3), 1313-1326. [문길성 (2021). 단문의 주제 분석을 위한 LDA와 BTM 토픽모형 평가. <Journal of The Korean Data Analysis Society>, 23권 3호, 1313-1326.] [https://doi.org/10.37727/jkdas.2021.23.3.1313]
- Papacharissi, Z. (2004). Democracy online: Civility, politeness, and the democratic potential of online political discussion groups. New media & society, 6(2), 259-283. [https://doi.org/10.1177/1461444804041444]
- Rhee, J. W., & Kim, S.-H. (2018). News frames in the coverage of fine-dust disaster: Application of structural topic modeling. Korean Journal of Journalism & Communication Studies, 62(4), 125-158. [이준웅‧김성희 (2018). 미세먼지 재해 보도의 프레임 분석: 구조적 주제모형(Structural Topic Modeling)의 적용. <한국언론학보>, 62권 4호, 125-158.] [https://doi.org/10.20879/kjjcs.2018.62.4.004]
- Roberts, M. E., Stewart, B. M., & Airoldi, E. M. (2016). A model of text for experimentation in the social sciences. Journal of the American Statistical Association, 111(515), 988-1003. [https://doi.org/10.1080/01621459.2016.1141684]
- Roberts, M. E., Stewart, B. M., & Tingley, D. (2019). Stm: An R package for structural topic models. Journal of Statistical Software, 91(2), 1-40. [https://doi.org/10.18637/jss.v091.i02]
- Walter, D., & Ophir, Y. (2019). News frame analysis: An inductive mixed-method computational approach. Communication Methods and Measures, 13(4), 248-266. [https://doi.org/10.1080/19312458.2019.1639145]
- Yan, X., Guo, J., Lan, Y., & Cheng, X. (2013). A biterm topic model for short texts. in Proceedings of the 22nd International Conference on World Wide Web, 1445-1456. [https://doi.org/10.1145/2488388.2488514]
- Yang, H. S. (2008). The effects of the opinion and quality of user postings on internet news readers' attitude toward the news issue. Korean Journal of Journalism & Communication Studies, 52(2), 254-281. [양혜승 (2008). 인터넷 뉴스 댓글의 견해와 품질이 독자들의 이슈에 대한 태도에 미치는 영향. <한국언론학보>, 52권 2호, 254-281.]
- Yang, H. S. (2018). Hate speech toward specific regions in Korea: Content analysis of comments posted to crime news stories in Naver. Korean Journal of Journalism & Communication Studies, 62(6), 7-36. [양혜승 (2018). 포털과 지역혐오: 네이버 범죄뉴스의 지역혐오댓글에 대한 내용분석. <한국언론학보>, 62권 6호, 7-36.] [https://doi.org/10.20879/kjjcs.2018.62.6.001]
- Yang, H. S. (2022). A text mining analysis on hate comments targeted at women, immigrants, and the elderly: In the context of NAVER crime news. Korean Journal of Broadcasting and Telecommunication Studies, 36(3), 5-45. [양혜승 (2022). 여성, 이주민, 노인 혐오성 댓글에 대한 텍스트 마이닝 분석: 네이버 범죄뉴스를 맥락으로. <한국방송학보>, 36권 3호, 1-41.] [https://doi.org/10.22876/kab.2022.36.3.001]
- Ying, L., Montgomery, J. M., & Stewart, B. M. (2022). Topics, concepts, and measurement: A crowdsourced procedure for validating topics as measures. Political Analysis, 30(4), 570-589. [https://doi.org/10.1017/pan.2021.33]
- Yum, J.-Y., Kim, R., & Jeong, S.-H. (2020). A meta-analysis of the effects of user comments. Journal of Communication Research, 57(2), 5-49. [염정윤‧김류원‧정세훈 (2020). 국내 댓글 효과 연구에 대한 메타 분석. <언론정보연구>, 57권 2호, 5-49.] [https://doi.org/10.22174/jcr.2020.57.2.5]