英 연구팀 "사람들 딥페이크 구분 능력 떨어져…대책 마련돼야"

[ESG경제=김도산 기자] 딥페이크(deepfake·합성 조작) 음성으로 만든 영어와 중국어 문장을 들려줬더니 사람들이 딥페이크 음성 4개 중 1개는 진짜 사람 음성과 구분하지 못하더라는 실험 결과가 나왔다.
영국 유니버시티 칼리지 런던(UCL)의 루이스 그리핀 교수팀은 3일 과학저널 '플로스 원(PLOS ONE)‘에서 영어와 중국어 딥페이크 음성을 들려주고 진짜와 가짜를 찾아내는 실험에서 참가자들이 딥페이크 음성의 27%를 구분해 내지 못했다고 밝혔다.
연구팀은 이번 연구 결과가 딥페이크 음성·이미지의 위협에 대응하기 위한 대응 전략의 필요성을 보여준다고 말했다.
딥페이크는 사람 실제 목소리나 외모와 비슷하게 음성·이미지 등을 합성 조작해 만드는 기술이다. 딥페이크는 실제 인물의 동영상이나 오디오의 패턴과 특성을 학습해 원본 음성이나 이미지를 재현할 수 있도록 알고리즘을 훈련하는 기계학습(ML)의 일종인 ’생성형 인공지능(AI)‘ 범주에 속한다.
초창기에는 딥페이크 음성 알고리즘은 원본 오디오 생성을 위해 수천 개의 음성 샘플이 필요했지만, 최신 사전학습 알고리즘은 단 3초 분량의 음성 클립만으로도 사람 음성이 재현이 가능하다.
이번 연구팀은 영어와 중국어로 된 딥페이크 음성 샘플 50개씩을 만들고 이를 529명에게 들려주면서 가짜와 진짜 음성을 구분하도록 했다. 실험 참가자들은 딥페이크 음성의 73%만 구분해 냈는데, 이런 탐지율은 영어와 중국어 사이에 차이가 없었다.
연구팀은 딥페이크 음성 구분이 어렵다는 것은 딥페이크가 악용될 가능성이 크다는 것을 의미한다고 지적했다. 지난 2019년 영국의 한 에너지 회사에서는 한 직원이 AI 기술로 제작된 상사의 딥페이크 음성 메시지를 받고 헝가리 회사에 20만 유로(약 2억5,000만원)를 송금하는 사건이 발생하기도 했다.
그리핀 교수는 "생성형 AI 기술이 발달하고 누구나 사용할 수 있게 되면서 그 이점뿐 아니라 위험도 목격하게 됐다"며 "정부와 기관들은 새로 등장하는 기술의 남용에 대처하기 위한 전략을 개발해야 할 것"이라고 주장했다.

