일상/컴퓨터

[논문 리뷰] 트랜스포머 transformer 기반 가짜 뉴스 탐지

미적미적달팽이 2024. 8. 11. 20:19

논문 링크: https://rdcu.be/dQBgs

   최근 인터넷 커뮤니티의 발달로 인하여 생기는 부작용들이 많다. 특히나 틱톡, 유튜브, 인스타그램, 포털 사이트, 커뮤니티 사이트 등 다양한 플랫폼들의 탄생으로 인하여 사람들은 원하는 방식으로 이야기를 나누면서 발빠르게 소식을 접할 수 있는 시대가 됐다. 하지만, 이에 못지 않게 사실 검증이 되지 않는 정보들이 빠르게 확산되면서 문제가 되고 있다. 소위 '사이버 렉카'라고 부르는 이들이 빠르게 사건 사고 이슈를 사람들에게 전하기 위해 제대로 된 검증 없이 가짜 정보가 퍼지거나 바이럴을 목적으로 제대로 된 정보를 전달하지 않는 것이다. 이를 인공지능에서는 어떻게 해결 할 수 있을까? Shaina Raza와 Chen Ding이 저술한 논문은 현대 사회에서 점점 더 큰 문제로 대두되고 있는 가짜 뉴스의 탐지 문제를 다룬다.

 

Introduction

가짜 뉴스의 정의 및 중요성

가짜 뉴스의도적으로 잘못된 정보를 제공하여 대중을 오도하거나 혼란을 야기하는 뉴스 콘텐츠를 의미한다. 이와 같은 허위 정보는 정치적, 사회적, 경제적 안정성을 위협할 수 있으며, 특히 소셜 미디어를 통해 빠르게 확산되어 그 영향력이 더욱 증대되고 있다. 가짜 뉴스가 주는 사회적 영향은 선거 결과에 영향을 미치거나, 대중의 신뢰를 붕괴시키는 등 매우 심각한 결과를 초래할 수 있다.

가짜 뉴스 탐지는 본질적으로 텍스트 분류 문제로, 뉴스 기사를 '진짜' 또는 '가짜'로 분류하는 작업이다. 그러나 가짜 뉴스는 여러 형태로 나타날 수 있으며, 클릭베이트(Clickbait), 허위 정보(Disinformation), 오정보(Misinformation), 풍자(Satire) 등 다양한 유형을 포함한다. 2016년 미국 대통령 선거 이후 가짜 뉴스는 전 세계적으로 큰 관심을 받기 시작했으며, 인터넷과 소셜 미디어가 뉴스의 주요 유통 경로로 자리 잡으면서 가짜 뉴스의 확산이 더욱 쉬워졌다. 

가짜 뉴스 탐지의 필요성

이 논문에서는 가짜 뉴스의 확산을 막기 위해서는 이를 조기에 탐지하고 차단할 수 있는 효과적인 시스템이 필요하다고 한다. 전통적인 언론 검증 방법으로는 가짜 뉴스의 속도와 규모를 따라잡기 어렵기 때문에, 자동화된 탐지 시스템이 점점 중요해지고 있다. 이러한 시스템은 머신 러닝, 딥 러닝, 자연어 처리 등의 기술을 활용하여 가짜 뉴스를 실시간으로 탐지하고, 이를 통해 사회적 피해를 최소화하는 것을 목표로 한다.

연구 목적

이 연구는 가짜 뉴스 탐지를 위한 새로운 심층 신경망 프레임워크를 제안하는 데 그 목적이 있습니다. 이 논문은 가짜 뉴스를 조기에 탐지하는 것이 중요하다는 점을 강조하며, 전통적인 가짜 뉴스 탐지 모델들이 주로 뉴스 콘텐츠에 의존하거나 데이터 라벨링의 부족으로 인해 제한된 성능을 보인다는 문제를 지적하고 있다. 특히, 기존 방법들이 가지는 한계를 극복하고, 초기 단계에서 가짜 뉴스를 더 정확하게 탐지할 수 있는 방법을 개발하는 데 초점을 맞추고 있다. 기존의 연구들은 가짜 뉴스를 탐지하는 데 중점을 두었지만, 대부분의 모델이 뉴스가 퍼진 후 12시간 이상이 지난 시점에서 가짜 뉴스를 탐지할 수 있었다. 

따라서 본 연구는 뉴스 콘텐츠뿐만 아니라 소셜 미디어 상의 사용자 반응을 포함한 소셜 맥락 정보를 활용하여 가짜 뉴스를 탐지하는 새로운 접근 방식을 제안한다. 이는 기존의 텍스트 기반 분석에 비해 더 풍부한 데이터를 활용하여 탐지 정확도를 높이고자 하는 것이다. 또한, 약한 지도학습(Weak Supervision)을 통해 라벨 부족 문제를 해결하는 방법을 제시하고, 트랜스포머(Transformer) 아키텍처를 기반으로 하는 새로운 탐지 프레임워크를 제안한다. 이 프레임워크는 뉴스 콘텐츠뿐만 아니라 소셜 컨텍스트, 즉 사용자의 행동 패턴과 사회적 상호작용 데이터를 통합하여 가짜 뉴스를 보다 정확하고 빠르게 탐지할 수 있는 방법을 제시한다.

transformer architecture
Fig1. Overview of the proposed framework

 

트랜스포머에 대한 더 자세한 내용은 아래 글에서 확인 가능하다.

2024.09.07 - [일상/컴퓨터] - 트랜스포머 Transforemer와 어텐션 Attention

 

트랜스포머 Transforemer와 어텐션 Attention

어텐션 (Attention)어텐션 메커니즘은 자연어 처리 및 번역 모델에서 중요한 역할을 한다. 어텐션은 입력 벡터를 인코더에서 변환하고, 변환된 모든 벡터를 디코더로 전송하여 정보 손실 문제를 해

gunrestaurant.tistory.com

 

뉴스 생태계 (The News Ecosystem)

뉴스 생태계는 세 가지 주요 요소로 구성된다: 출판사, 정보(뉴스 콘텐츠), 사용자. 출판사는 뉴스 기사를 작성하고 이를 다양한 웹사이트나 온라인 뉴스 플랫폼에 배포한다. 사용자는 이러한 출처에서 뉴스를 받아보고, 블로그나 소셜 미디어 같은 다른 플랫폼에 공유한다. 소셜 미디어 네트워크는 친구 관계, 팔로워-팔로이 관계, 해시태그, 봇 등으로 구성된다.

뉴스 콘텐츠

뉴스 콘텐츠는 뉴스 생태계에서 가져오며, 뉴스 본문과 부가 정보를 포함한다. 뉴스 본문은 뉴스 기사의 주요 텍스트로, 작성자의 주요 논점과 관점을 반영한다.

  • 출처: 뉴스의 출처 (예: CNN, BBC)
  • 헤드라인: 기사의 주요 주제를 설명하는 제목.
  • 저자: 뉴스 기사의 저자
  • 발행 시간: 뉴스가 발행된 시간
  • 정파적 정보: 특정 정당에 대한 뉴스 출처의 편향성

사회적 맥락 (Social Contexts)

사회적 맥락 컴포넌트는 게시물, 좋아요, 공유, 댓글, 팔로워-팔로이 활동 등 뉴스를 둘러싼 사회적 맥락을 포함한다. 뉴스 콘텐츠 관련 정보가 충분하지 않을 때, 사회적 맥락이 가짜 뉴스 탐지에 유용한 정보를 제공한다. 각 사회적 맥락은 게시물과 부가 정보로 표현된다. 

  • 사용자: 소셜 미디어에 등록된 사람이나 봇
  • 제목: 게시물의 제목
  • 점수: 다른 사용자가 게시물에 부여한 점수
  • 출처: 뉴스의 출처
  • 댓글 수: 게시물에 대한 댓글 수
  • 업보트-다운보트 비율: 게시물에 대한 다른 사용자의 vote 비율
  • 군중(집합) 반응: 모든 사용자의 게시물에 대한 반응을 집계한 값으로, 뉴스의 신뢰성을 평가
  • 사용자 신뢰도: 특정 사용자가 가짜 뉴스를 퍼뜨리는 경향이 있는지를 평가하는 기능

사용자 신뢰도 모듈 (User Credibility Module)

소셜 미디어 사용자의 신뢰도를 평가하는 주제에 대해 이전 연구들은 커뮤니티 탐지, 감정 분석, 프로필 순위 매김 기법을 적용했다. 이 논문 연구에서는 기존의 단순한 군집화 접근법 대신, Zero-Shot Learning(ZSL) 기법을 사용해 사용자의 신뢰도를 평가하였다. ZSL은 레이블이 없는 훈련 데이터 없이 텍스트에서 정보를 추출하거나 이미지를 인식하는 메커니즘이다. 이를 통해 모델이 이전에 본 적 없는 클래스를 예측할 수 있다. 사용자의 참여(댓글, 게시물, 응답)를 그룹화하고, 이를 ZSL 분류기에 입력한다. Transformer 아키텍처를 기반으로 ZSL 분류기를 구축하고, 다양한 장르의 말과 글 텍스트를 포괄하는 대규모 크라우드소싱 데이터 셋인 MNLI의 사전 학습된 체크포인트를 사용한다. 이를 통해 크라우드 소싱된 대규모 데이터를 활용해 사용자 신뢰도와 의견 표현 방식을 연결할 수 있다. 결과적으로, ZSL을 통해 사용자들을 '새 사용자', '매우 신뢰할 수 없음', '신뢰할 수 없음', '신뢰할 수 있음', '매우 신뢰할 수 있음'의 다섯 가지 신뢰도 수준으로 분류할 수 있다. 

Fig 2. The user credibility module

 

사용한 데이터

NELA-GT-19 데이터셋

NELA-GT-19는 다수의 뉴스 소스를 포함한 대규모 데이터셋으로, 가짜 뉴스 탐지 연구에 자주 사용된다. 이 데이터셋은 2019년에 걸쳐 수집된 뉴스 기사들을 포함하고 있으며, 기사들은 출처에 따라 신뢰성(reliable), 혼합(mixed), 불신뢰성(unreliable)으로 라벨링되어 분류된다.

NELA-GT-19는 총 260개의 뉴스 소스에서 수집된 기사로 구성되며, 각각의 뉴스 소스는 7개의 평가 기관(예: Media Bias/Fact Check, Pew Research Center, Wikipedia 등)에 의해 신뢰도 라벨이 부여되었다. 또한, 뉴스 기사 콘텐츠뿐만 아니라 기사 출처, 제목, 작성자, 게시 시간 등의 메타데이터를 포함하고 있다. 연구에서는 신뢰성과 불신뢰성으로 분류된 데이터를 사용하였으며, 혼합 레이블을 가지는 기사들은 대부분 불신뢰성으로 재분류하여 사용했다.

이 데이터셋은 뉴스 콘텐츠를 분석하여 가짜 뉴스를 탐지하는 데 유용하며, 신뢰도 라벨을 활용해 약한 지도 학습을 통해 기사 수준에서의 라벨링을 수행할 수 있지만, 데이터셋 자체가 소스별 라벨링을 기반으로 하여 기사별 정확한 라벨을 확보하기 어렵다는 단점이 존재한다.

 

 

Fakeddit 데이터셋

 

Fakeddit 데이터셋은 Reddit에서 수집된 소셜 뉴스 및 커뮤니티 게시물의 대규모 데이터셋으로, 100만 개 이상의 포스트와 30만 명 이상의 개별 사용자의 상호작용 데이터이다. 텍스트와 이미지 등 다중 모달 데이터로서, 사용자의 상호작용, 댓글, 좋아요/싫어요 비율 등의 소셜 맥락 정보를 함께 제공하고 있다. Fakeddit는 22개의 서브레딧에서 수집된 데이터를 포함하며, 각 포스트는 '진짜', '풍자', '오도된 콘텐츠', '사기성 콘텐츠', '거짓 연결', '조작된 콘텐츠'라는 6개의 라벨로 분류된다. NELA-GT-19의 타임라인과 일치시키기 위해 2019년 1월 1일부터 2019년 10월 24일까지의 데이터를 사용했다.

Fakeddit는 소셜 컨텍스트를 분석하여 사용자의 상호작용 패턴을 통해 가짜 뉴스를 탐지하는 데 중요한 역할을 하며, 특히 Reddit과 같은 소셜 미디어 플랫폼에서 발생하는 다양한 유형의 가짜 뉴스에 대해 연구할 수 있다. 그러나 Reddit의 특정 서브레딧에서 수집된 데이터로 제한되기 때문에, 일반화 가능성에 한계가 있다.

 

방법

뉴스 항목 집합 N은 가짜 뉴스이면 1, 진짜 뉴스이면 0으로 라벨링이 되어 있다. 각각의 뉴스 항목은 뉴스 내용과 부가적인 헤드라인, 출처 등으로 구성 되어 있다. 소셜 미디어에 뉴스가 게시된 것에 대한 미디어 사용자 U가 반응을 한 댓글, 게시물 응답 등이 social context SC에 포함되어 있다. SC에는 특정 시간 t에 뉴스 항목 n에 대하여 사용자 u의 상호작용을 튜플로 가지고 있다. 가짜 뉴스인지 진짜 뉴스인지 예측하기 위해 y를 뉴스 내용 C와 SC로 예측한다.

사용한 모델

 트랜스포머 모델은 자연어 처리 분야에서 뛰어난 성능을 보이는 딥러닝 모델로, BERT(Bidirectional Encoder Representations from Transformers)와 GPT(Generative Pretrained Transformer) 등이 있다. 이 논문에서는 BERT와 GPT-2의 장점을 결합한 BART(Bidirectional and Auto-Regressive Transformer) 모델을 기반으로 가짜 뉴스 탐지 모델을 개발했다. BERT는 양방향 인코딩을 통해 문맥 정보를 학습하는 데 강점을 가지며, GPT-2는 순차적인 데이터를 처리하여 미래의 단어를 예측하는데 특화되어 있다. BART는 이 두 모델의 장점을 결합하여 텍스트 생성과 이해를 동시에 처리할 수 있는 모델이다. 이 논문에서는 BART 모델을 기반으로 뉴스 콘텐츠와 사용자 행동 데이터를 결합하여 가짜 뉴스를 탐지한다. 기존의 BART 모델과 달리, 이 논문에서 제안하는 모델은 뉴스 콘텐츠 외에도 소셜 컨텍스트 데이터를 인코더에 포함시켜 다양한 정보의 가중치를 조정한다. 예를 들어, 특정 뉴스 기사가 매우 많은 상호작용을 받거나 설득력이 강한 제목을 가진 경우, 이러한 요소들을 더 중요하게 고려하여 가짜 뉴스를 탐지한다.

 

FND-NS 모델

The encoder and decoder blocks in FND-NS model

FND-NS(Fake News Detection using News and Social contexts) 모델은 BART(Seq2Seq 모델)를 기반으로 하는 Transformer 아키텍처를 사용한다. 이 모델은 두 가지 주요 구성 요소인 인코더와 디코더로 구성되어 있다. 원래 BART는 하나의 텍스트를 인코더에 입력으로 받지만, 우리는 뉴스 콘텐츠와 소셜 컨텍스트에서 다양한 특징을 인코더에 입력한다. 멀티헤드 어텐션을 사용하여 다양한 정보의 중요도에 대해 가중치를 매기고, 입력 시퀀스에서 일부 토큰을 무작위로 마스킹해서 마스킹된 항목의 위치를 기반으로 토큰 ID를 예측한다. 원래 BART 모델 위에 선형 변환과 소프트맥스 레이어를 추가하여 최종 라벨을 출력한다.

  • 인코더는 뉴스 기사나 소셜 미디어 콘텐츠를 받아 이를 문맥화된 인코딩 시퀀스로 변환한다. 이를 통해 입력 데이터의 특성을 학습하고, 해당 데이터에 대한 심층적인 표현을 생성한다.첫 번째 인코더 블록은 독립적인 입력 벡터를 문맥 종속적인 벡터로 변환하며, 이후의 인코더 블록들은 이 문맥화된 표현을 점차 정제한다. 각 인코더 블록은 양방향 자기 어텐션 레이어와 두 개의 피드포워드 레이어로 구성된다. 양방향 자기 어텐션 레이어는 벡터를 입력으로 받아, 이를 쿼리 벡터, 키 벡터, 값 벡터로 만든다. 쿼리 벡터와 키 벡터 사이의 유사성이 높을수록 해당 값 벡터가 출력 벡터에 더 중요한 역할을 한다. 최종 출력 벡터는 모든 값 벡터의 가중합과 입력 벡터를 더한 형태이다.

  • 디코더는 인코딩된 데이터를 기반으로 미래의 행동을 예측한다. 이는 특히 초기 단계에서의 가짜 뉴스 탐지에 중요한 역할을 하며, 시간에 따른 데이터 변화에도 유연하게 대응할 수 있다. 디코더는 좌측 방향의 문맥만을 모델링하며, 양방향 상호작용을 학습하지 않는다. 뉴스는 일반적으로 발행된 시간 순서대로 보여지거나 읽히기 때문에, 디코더는 시퀀스의 좌-우 상호의존성을 모델링한다. 디코더는 반복 구조를 가지며, 이전 상태의 예측을 사용해 다음 상태를 생성하는 방식을 사용한다. Transformer 기반 디코더는 디코더 블록들로 구성되며, 상단에 언어 모델링(LM) 헤드가 있다. 각 디코더 블록은 단방향 자기 어텐션 레이어, 교차 어텐션 레이어, 두 개의 피드포워드 레이어로 구성된다.디코더는 다음과 같은 방식으로 타겟 시퀀스의 확률 분포를 생성한다.

각 쿼리 벡터는 자신의 키 벡터와 이전의 키 벡터들만 비교하여 주어진 값 벡터들과 곱해진다. 교차 어텐션 레이어는 단방향 자기 어텐션 레이어의 출력과 인코더의 문맥화된 인코딩 벡터를 입력으로 받아, 다음 타겟 벡터의 확률 분포를 결정한다.

Flowchart of proposed FND-NS model

binary cross-entropy 손실 함수를 통해 모델을 훈련하여, 라벨에 독립적인 확률을 할당할 수 있도록 한다. cross-entropy 함수는 다음과 같이 정의됐다.

모델 학습의 주요 특징

  • 전이 학습 Trasnfer Learning : 연구에서는 MNLI(Multi-Genre Natural Language Inference)와 같은 대규모 사전 학습된 모델을 활용하여 전이 학습을 적용했다. 이는 가짜 뉴스 탐지와 사용자 신뢰도 분류 작업 간의 지식을 전이하는 데 사용되었다. BART 모델의 사전 학습된 체크포인트를 활용하여, 가짜 뉴스 탐지 작업에 맞게 모델을 fine-tuning 하였다. 
  • 약한 지도학습 Weak Supervision : 소셜 미디어 상에서의 다양한 반응 데이터를 효과적으로 학습하기 위해 약한 지도학습 기법을 사용했다. 약한 감독의 기본 개념은 훈련 데이터의 약한 라벨이 정확하지 않을 수 있지만 강력한 모델을 사용해 예측을 수행할 수 있다. 이는 라벨 부족 문제를 해결하고, 모델 개발 시간을 단축하는 데 도움이 된다. 이 연구에서는 NELA-GT-19와 Fakeddit 데이터셋에서 소스 레벨, 테마 레벨, 사용자 신뢰도, 군중 반응과 같은 다양한 약한 라벨(Weak Labels)을 결합하여 최종 예측 라벨을 생성하였다. NELA-GT-2019 데이터셋에서 소스 레벨 라벨을 이용해 기사 레벨 라벨을 할당하였고,  Fakeddit 데이터셋에서는 군중 반응과 사용자 신뢰도에 대한 라벨을 추가로 생성했다. 이 라벨들은 새로운 가중치가 적용된 종합 라벨로 결합되어 각 뉴스 기사에 할당한다. 
  • 데이터 불균형 처리: 두 데이터셋의 불균형 문제를 해결하기 위해 언더샘플링 기법을 사용해서 다수 클래스의 기록을 제거하여 소수 클래스와 더 가깝게 만들었다.
  • 데이터 분할: 모델 훈련을 위해 데이터를 시간 순서대로 분할했다. 마지막 15%의 데이터를 테스트 세트로, 마지막에서 두 번째 10%의 데이터를 검증 세트로, 초기 75%의 데이터를 훈련 세트로 사용했다. 각 사용자의 상호작용 타임스탬프를 기준으로 역사적인 데이터를 분할했다.
  • 평가 지표 Evaluation Metrics : 이 논문에서 가짜 뉴스 탐지 작업은 가짜 뉴스인지 진짜 뉴스인지 이진 결정을 내리는기 위해 제안된 모델의 성능 평가에서 정확도(ACC), 정밀도(Prec), 재현율(Rec), F1 점수(F1), 곡선 아래 면적(AUC), 평균 정밀도(AP)와 같은 평가 지표를 사용하였다.
  • 하이퍼파라미터 (Hyperparameters): 모델은 Google Colab Pro에서 제공하는 GPU를 사용하여 Pytorch로 구현되었다. bart-large-mnli의 사전 학습된 체크포인트를 사용하고, MNLI는 감정 분석, 증오 발언 탐지, 풍자적 톤 탐지 및 텍스트 함축과 같은 작업에 사용되는 대규모 데이터셋을 사용하였다. 이 모델은 총 24개의 레이어(12개의 인코더 레이어와 12개의 디코더 레이어)로 구성되며, 16개의 어텐션 헤드를 가지고 약 1백만 개의 파라미터로 구성되어 있다. 또한, MNLI에서 미세 조정된 2-레이어 분류 헤드를 추가하였다.

논문에서 정리된 모델 하이퍼파라미터는 다음과 같다.

  • 모델: Bart Large MNLI
  • 어휘 크기: 50,265
  • 차원 크기: 1024
  • 인코더 레이어 수: 12
  • 디코더 레이어 수: 12
  • 어텐션 헤드 수: 16
  • 피드포워드 레이어 차원: 4096
  • 활성화 함수: Gelu
  • 위치 임베딩: 1024
  • 라벨 수: 2
  • 배치 크기: 8 (8, 16, 32로 테스트)
  • 에포크 수: 10
  • 시퀀스 길이: 700 (512, 1024, 2048도 테스트)
  • 학습률: 1e-4 (1e-2, 1e-3, 1e-4로 테스트)
  • 드롭아웃: 0.1 (0.0에서 0.9까지 테스트)
  • 워밍업 스텝: 500 (0, 100, 300, 500, 1000으로 테스트)
  • 최적화기: Adam
  • 손실 함수: 교차 엔트로피
  • 출력 레이어: SoftMax

 

연구 결과

모델 성능 분석

고안된 FND-NS 모델은 기존의 가짜 뉴스 탐지 모델들보다 높은 정확도와 F1-스코어를 기록했다. 특히, 초기 가짜 뉴스 탐지에서 우수한 성능을 보였으며, 소셜 맥락 정보의 통합이 탐지 성능 향상에 기여했다.

Training versus validation loss

  • 정확도: 74.89%
  • F1-스코어: 74.95%

약한 지도 학습의 효과

이 실험에서는 약한 지도 학습 모듈의 유효성을 검증하기 위해 검증 데이터에 대해 정확도 측정했다.

  • M1: NELA-GT-19와 Fakeddit 두 데이터셋에 대한 약한 지도 학습. 원본 레이블 + 사용자 신뢰도 레이블 + 군중 반응 레이블 포함
  • M2: 원본 레이블 + 사용자 신뢰도 레이블 포함
  • M3: 원본 레이블 + 군중 반응 레이블 포함
  • M4: 원본 레이블 포함
  • M5: NELA-GT-19에 대한 약한 지도 학습만 수행
  • M6: 원본 레이블만 포함한 Fakeddit에 대한 약한 지도 학습만 수행
  • M7: 원본 + 사용자 신뢰도 레이블 포함
  • M8: 원본 + 군중 반응 레이블 포함
  • M9: 원본 + 사용자 신뢰도 레이블 + 군중 반응 레이블 포함

 

모델 축소 연구

모델 축소 연구 모델 축소 연구에서는 모델의 주요 구성 요소를 하나씩 제거하고 성능에 미치는 영향을 연구하였다.

  • FND-NS: 뉴스 및 소셜 컨텍스트 구성 요소가 포함된 원래 모델
  • FND-N: 뉴스 구성 요소만 있는 FND-NS—소셜 컨텍스트 구성 요소 제거
  • FND-N(h-): 뉴스 구성 요소에서 헤드라인을 제거한 FND-N
  • FND-N(b-): 뉴스 구성 요소에서 뉴스 본문을 제거한 FND-N
  • FND-N(so-): 뉴스 구성 요소에서 뉴스 소스를 제거한 FND-N
  • FND-N(h-)S: 뉴스 구성 요소에서 헤드라인을 제거한 FND-NS
  • FND-N(b-)S: 뉴스 구성 요소에서 뉴스 본문을 제거한 FND-NS
  • FND-N(so-)S: 뉴스 구성 요소에서 뉴스 소스를 제거한 FND-NS
  • FND-S: 뉴스 구성 요소를 제거한 소셜 컨텍스트 구성 요소를 가진 FND-NS
  • FND-S (uc-): 소셜 컨텍스트에서 사용자 신뢰도를 제거한 FND-S
  • FND-S (cr-): 소셜 컨텍스트에서 군중 반응을 제거한 FND-S
  • FND-NS (uc-): 소셜 컨텍스트에서 사용자 신뢰도를 제거한 FND-NS
  • FND-NS (cr-): 소셜 컨텍스트에서 군중 반응을 제거한 FND-NS
  • FND (en-)-NS: 인코더 블록을 제거한 FND-NS—뉴스 및 소셜 컨텍스트 구성 요소의 시퀀스를 디코더에 직접 입력
  • FND (de-)-NS: 디코더 블록을 제거한 FND-NS
  • FND (12ly-)-NS: 12개의 레이어를 제거한 FND-NS (인코더와 디코더에서 각각 6개)

논문에서 제시된 결과는 뉴스 콘텐츠와 소셜 컨텍스트가 모두 가짜 뉴스 탐지에 중요한 역할을 한다는 것을 강조하고 있다. 구체적으로, 다음과 같은 주요 결과가 있다.

  1. 뉴스 콘텐츠와 소셜 컨텍스트의 중요성: 뉴스 콘텐츠 또는 소셜 컨텍스트 구성 요소를 제거하면 모델의 정확도가 떨어지는 것으로 나타났다. 특히 소셜 컨텍스트를 제거했을 때 더 큰 정확도 감소가 관찰되었다. 이는 두 요소가 모두 가짜 뉴스 탐지에 중요한 기여를 한다는 것을 알 수 있다.
  2. 뉴스 구성 요소의 영향: 뉴스 본문을 제거할 때 모델 성능이 가장 크게 저하되었으며, 이는 뉴스 본문이 가짜 뉴스 탐지에 중요한 정보를 담고 있음을 시사합니다. 헤드라인과 소스도 중요한 역할을 하지만, 소스가 헤드라인보다 더 많은 정보를 제공하는 것으로 나왔다.
  3. 소셜 컨텍스트의 세부 요소: 사용자 신뢰도나 군중 반응을 제거하면 모델 성능이 감소했다. 특히 군중 반응을 제거했을 때 성능이 더 크게 떨어졌으며, 이는 군중 반응이 가짜 뉴스 탐지에 더 직접적인 정보를 제공하기 때문일 가능성이 있다.
  4. 모델 아키텍처의 영향: 인코더를 제거했을 때보다 디코더를 제거했을 때 모델 성능이 더 크게 저하됐다. 이는 디코더가 자기 회귀 모델로서 자동 인코딩 모델보다 중요한 역할을 한다는 것으로 결론을 내렸다.
  5. 시퀀스 길이의 중요성: 모델은 시퀀스 길이가 길어질수록 더 나은 성능을 보였으며, 최적의 성능은 시퀀스 길이 700에서 달성되었다. 이는 더 긴 시퀀스가 더 많은 뉴스 기능과 사용자 참여 데이터를 포함하여 가짜 뉴스 탐지에 유리함을 나타냈다.

The FND-NS with different sequence lengths

개념 드리프트의 영향 impact of concept drift

Concept Drift는 시간이 지남에 따라 데이터의 해석이 변화하는 것으로 데이터의 분포가 변하는 현상이다. 이는 특히 가짜 뉴스 탐지와 같은 문제에서 중요한 영향을 미친다. 예를 들어, 과거에 실제 뉴스로 분류된 내용이 시간이 지나면서 가짜 뉴스로 판명될 수도 있다. 사용자의 프로필이나 뉴스 프로필도 시간이 지남에 따라 변할 수 있으며, 일부는 더 이상 사용되지 않거나 삭제될 수 있다. 가장 중요한 점은 가짜 뉴스를 만드는 방법이 시간에 따라 진화한다는 것이다. 가짜 뉴스 탐지 모델은 처음에 훈련된 데이터와 시간이 지나면서 도입된 새로운 데이터 간의 불일치로 인해 성능 저하를 경험할 수 있다.

이 실험에서는 개념 드리프트가 모델 성능에 미치는 영향을 평가하기 위해 모델을 한 달에 두 번씩 재훈련시키고, 이후 매주 테스트를 진행했다. 첫 번째로, 첫 두 주의 데이터를 사용해 모델을 훈련하고, 세 번째 주의 데이터로 테스트했다. 그 다음에는 다음 두 주의 데이터와 이전의 두 주 데이터(예: 1주, 2주, 3주, 4주)를 합쳐 모델을 훈련하고, 그 다음 주(예: 5주)의 데이터로 테스트하는 방식으로 진행했다. 이 과정은 4주의 데이터를 사용해 모델을 훈련시키고, 이후 주마다 테스트하는 방식으로 계속되었다.

전체적으로, 개념 드리프트가 모델 성능에 큰 영향을 미치지 않았으며, 단순히 모델을 주기적으로 재훈련하는 것만으로도 가짜 뉴스의 변화를 효과적으로 따라갈 수 있다는 결론이 나왔다. 특히, 가짜 뉴스의 개념 드리프트는 실제 뉴스에 비해 빈번하지 않다는 점도 관찰되었다. 이와 유사한 연구에서도 가짜 뉴스의 내용은 실제 뉴스에 비해 급격히 변하지 않는다는 결과가 있었다. 하지만 일단 퍼진 가짜 뉴스는 실제 뉴스보다 더 멀리, 더 넓게 전파되기 때문에 가능한 빨리 탐지하는 것이 중요하고 결론되었다.

초기 가짜 뉴스 탐지의 효과

이 실험에서는 모델과 비교 모델들이 초기 가짜 뉴스 탐지에서 어떤 성능을 보이는지 비교한다. Liu와 Wu의 방법론을 따라 뉴스 스토리의 전파 경로를 정의하며, 이는 다음과 같은 수식으로 나타낼 수 있다.

여기서 x는 관측 샘플이고, T는 탐지 마감시간이다. 이는 마감시간 T 이후의 관측 데이터를 훈련에 사용할 수 없다는 것이다. 예를 들어, 타임스텝 t를 가진 뉴스는 t 타임스텝 전에 전파된 뉴스다. 가짜 뉴스 탐지 연구에 따르면, 가짜 뉴스는 보통 1시간 이내에 퍼진다. 24시간 이후 가짜 뉴스를 탐지하는 것은 상대적으로 쉽지만, 초기 탐지는 어렵다.

15분, 30분, 60분, 100분, 120분의 다양한 탐지 기한에 따라 모델의 성능을 평가한 결과, FND-NS 모델은 모든 탐지 기한에서 우수한 성능이 나왔다. 이는 디코더가 과거 데이터를 기반으로 미래 값을 예측하는 데 강점을 보였기 때문이다.

 

 

한계 및 향후 연구 방향

도메인 수준 오류 분석

본 연구는 NELA-GT-19 데이터셋을 기반으로 진행되었으며, 다른 도메인이나 최신 데이터셋을 활용하지 못했다는 한계가 있었다. 이는 연구 결과의 일반화 가능성을 제한할 수 있으며, 향후 연구에서는 더 다양한 데이터셋을 활용하여 연구를 확장할 필요가 있다는 연구 결과이다.

라벨링의 한계

약한 지도학습을 통해 효과적으로 모델을 훈련시켰으나, 라벨의 신뢰성이 낮을 수 있다는 한계가 있었다. 본 논문에서는 향후 연구에서 반지도 학습 또는 지식 기반 약한 지도학습을 도입하여 라벨링의 신뢰성을 높일 계획이라고 언급하였다.

사용자 프로필의 제한

현재 연구는 Fakeddit 데이터셋의 일부분만을 활용하여 사용자 프로필을 모델링했다. 향후 연구에서는 소셜 네트워크에서 사용자 연결 정보를 추가로 포함하여 모델의 성능을 향상시킬 계획 있다.

전이 학습의 한계

MNLI를 활용하여 전이 학습을 진행했으나, 이는 전이 학습 도메인의 일부에만 의존한 것이기에 향후 연구에서는 보다 구체적인 전이 학습 도메인을 식별하여 모델 성능을 더욱 향상시킬 계획이라고 하였다.

시퀀스 길이의 한계

시퀀스 길이의 차이가 실험에서 FND-NS 모델이 베이스라인 모델을 능가하는 주요 요인 중 하나였다. 대부분의 모델은 512보다 긴 시퀀스를 지원하지 않기 때문에, 시퀀스 길이를 늘리면 더 많은 뉴스 기능과 사용자 참여 데이터를 정확하게 포함할 수 있었으나 긴 시퀀스는 더 높은 계산 비용을 수반하기 때문에 성능과 처리 시간 간의 절충이 필요하다.

결론

이 연구는 가짜 뉴스 탐지를 위한 새로운 심층 신경망 프레임워크를 제안하며, 초기 가짜 뉴스 탐지와 라벨 부족 문제를 해결하는 데 성공했다. 향후 연구에서는 다양한 도메인과 최신 데이터셋을 활용하여 연구의 범위를 확장하는 것이 필요하다.

반응형