The Korean Society for Journalism & Communication Studies - Vol. 68 , No. 4

[ Article ]
Korean Journal of Journalism & Communication Studies - Vol. 68, No. 2, pp. 100-139
Abbreviation: KSJCS
ISSN: 2586-7369 (Online)
Print publication date 30 Apr 2024
Received 12 Oct 2023 Revised 29 Mar 2024 Accepted 01 Apr 2024

시위 뉴스 영상에서 폭력 프레이밍의 작동 기제 분석 : 비전 트랜스포머(Vision Transformer)를 활용한 폭력 이미지 분류를 통해
이문혁*** ; 이종혁****
***경희대학교 미디어학과 박사수료 (
****경희대학교 미디어학과 교수 (

Analyzing Violence Framing Mechanisms in Protest News Videos : Classifying Violent Images using Vision Transformer
Moon Hyuk Lee*** ; Jong Hyuk Lee****
***Ph.D. Candidate, Department of Media, Kyung Hee University (
****Professor, Department of Media, Kyung Hee University, corresponding author (
Funding Information ▼


집회나 시위는 국민의 기본권 행사 행위이다. 그럼에도 불구하고 정부 정책에 반대하는 시민 집회나 임금 인상을 요구하는 노동자 시위가 불법으로 단속되며 언론에 의해 부정적으로 다뤄지는 경우가 많다. 본 연구는 이런 문제의식을 바탕으로 방송뉴스의 시위 보도에서 폭력 프레이밍에 사용되는 영상 편집 전략을 살펴보았다. 구체적으로, 영상에서 폭력성을 강조하는 편집 전략은 화면의 위치와 숏의 지속시간이라는 두 가지 관점에서 논의될 수 있다. 첫 번째 관점에서 폭력 관련 화면은 시청자의 관심을 끌 수 있으므로, 뉴스 스토리 내에서 초반부에 배치될 것으로 예측됐다. 두 번째 관점에서 폭력 화면은 생동감과 긴장감을 높여 시청자 관심을 끌기 위해 최대한 많은 화면이 짧게 구성되는 방식으로 편집될 것으로 예측된다. 띠라서 폭력 화면의 숏 지속시간이 상대적으로 짧을 것으로 예측할 수 있다. 본 연구에서는 위 가설을 검증하기 위해 Vision Transformer(ViT)를 바탕으로 이미지의 폭력 여부를 판단하는 분류기를 개발했다. 구체적으로, 연구진은 허깅페이스(Hugging Face)에 공개된 vit-large-patch16-224 모델에 최종 출력을 폭력/비폭력로 전환하는 미세조정(fine-tuning)을 실시해 분류기를 개발했다. 사용된 학습데이터셋은 로보플로우(Roboflow)에 공개된 이미지 데이터(Dinesh Narianir의 Violence&not_violence Computer Vision Project)였다. 분류기의 정확도(accuracy)와 F1 값은 모두 97.12%로 대체로 높은 수준을 기록했다. 이어서 본 연구진은 네이버 뉴스에서 ‘노동절 시위’로 2003년~2023년 검색된 뉴스 영상 335건(9개 방송사)을 수집했다. 여기에서 추출된 키프레임 13,156개는 앞서 개발된 폭력 여부 분류기를 통해 폭력과 비폭력으로 분류됐다. 분석 결과, 뉴스 스토리의 초반부에 위치한 키프레임에서 (후반부 키프레임에 비해) 더 많은 폭력 장면이 관찰됐으며, 지속시간이 짧은 키프레임에서 (긴 키프레임에 비해) 더 많은 폭력 장면이 나타났다. 또한, 키프레임의 위치와 지속시간 사이에 상호작용 효과도 유의미하게 나타났다. 이는 폭력적 장면을 중시하는 언론이 이런 장면을 영상의 초반에 위치시키고 다양한 촬영 장면을 동원해 빠르게 편집한다는 것이다. 시위 관련 화면은 대체로 집회, 연설, 구호, 행진, 퍼포먼스의 장면으로 구성되며, 때때로 몸싸움, 화염병, 기물 파손, 점거, 소동 등 폭력적 장면을 동반한다. 이 가운데 폭력적 장면이 영상의 초반부에 배치돼 시청자의 즉각적 관심을 끄는 역할을 하고 있는 것이다. 또한 다양한 폭력적 장면이 짧게 여러 컷 배치되면서 시청자의 관심을 증폭시키는 것이다. 이와 같은 영상 편집 전략에는 일탈성 뉴스가치를 앞세워 시청자의 관심을 유도하고 시청률을 올리려는 목적이 엿보인다. 이런 편집은 시청자에게 시위의 내용과 목표를 충분히 전달하지 못한다. 시위 관련 취재보도 관행인 ‘시위 패러다임’에는 폭동 프레임과 대치 프레임뿐 아니라 토론 프레임도 있다. 우리 언론이 시청률을 의식해 폭동과 대치 등 폭력 관련 프레임을 사용하는 관행을 개선하고, 시위 내용에 주목하고 사회적 토론을 유도하는 역할을 맡아야 하겠다.


Protests are acts in which citizens exercise their basic rights. However, citizen rallies opposing government policies or labor strikes demanding wage increases are often suppressed as illegal and portrayed negatively by the media. Journalism research challenges the media's reporting techniques, known as the 'protest paradigm', by pointing out that protests are frequently described as disturbances and confrontations. Most studies about pretest news have focused on textual analysis, with little in-depth analysis on news videos. In this regard, this study examined the video editing strategies used to frame violence in broadcast news coverage of protests. Specifically, editing strategies that emphasize violence in videos can be discussed from two perspectives: the location and duration of violence-related shots. From the first standpoint, it is expected that violence-related scenes will be put early in the news story to attract viewers' attention. From the second perspective, it is predicted that violence scenes are expected to be edited in such a way that the number of brief shots is maximized in order to enhance tension and capture viewers' attention. As a result, it is reasonable to expect that shots involving violence will be brief. To verify these hypotheses, this study developed a classifier to determine the presence of violence in images based on the Vision Transformer (ViT). The researchers fine-tuned the publicly available vit-large-patch16-224 model on Hugging Face by replacing the output class into violent/non-violent categories. The classifier achieved high levels of accuracy (97.12%) and F1 score. Subsequently, the researchers collected 335 news videos (from 9 broadcasters) on "Labor Day protests" from Naver News between 2003 and 2023. From these, 13,156 keyframes were identified as violent or non-violent using the developed violence classifier. The results showed that more violent scenes were observed in keyframes located in the early parts of the news story, and more violent scenes were observed in keyframes with shorter durations. Moreover, there was a significant interaction effect between the location and duration of keyframes. This indicates that media emphasizing violent scenes tend to place such scenes at the beginning of the video and employ various similar shots for rapid editing. This editing strategy may be designed to capture the audience's attention by highlighting the deviance news value. The protest paradigm in media coverage of protests includes not only riot and confrontation frames but also discussion frame. Korean media, mindful of viewer ratings, tends to use violent frames including riots and confrontations. Moving forward, it is essential for the media to focus on the themes of protests as socially significant issues and to facilitate the exchange of opinions among societal members through discussion frames.

KeywordsProtest Paradigm, Violence, Framing, Image Classification, Vision Transformer
키워드: 시위 패러다임, 폭력, 프레임, 이미지 분류


This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea(이 논문은 2022년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임)[NRF-2022S1A5C2A03093660].

논문의 발전에 큰 도움을 주신 익명의 심사위원들께 감사를 드립니다.

