News
지메일은 어떻게 스팸 메일을 거를까
본문
받은 편지함에 도착한 스팸 메일 한통이 일으키는 효과는 때론 엄청나다. 메일을 열어본 순간 PC를 감염시켜 먹통으로 만들거나, 사용자 컴퓨터에 저장된 정보를 유출한다. 가끔 스팸이 아닌 척 교묘하게 위장한 탓에 적발하기도 쉽지 않다. 수많은 기업이 이메일 보안에 큰 비용을 들이는 이유다.
같은 고민을 구글 지메일 팀도 했다. 매월 약 사용자 15억명이 지메일을 쓴다. 구글의 기업용 도구인 G스위트를 이용해 지메일로 일하는 기업 고객도 500만명에 이른다. 어떻게 하면 이들이 스팸 메일 걱정 없이 일하게 도울 수 있을까.
구글은 텐서플로를 사용해 매일 받은편지함에서 스팸 메일 1억여개를 제거한다고 구글클라우드 공식 블로그를 통해 2월7일(현지기준) 밝혔다.
텐서플로는 구글이 자체 개발한 머신러닝 기술이다. 지난 2015년 오픈소스로 해당 프로젝트를 공개해, 외부에서도 무료로 쓸 수 있게 됐다. 그 때부터 구글은 스팸 방지 용도로 지메일 서비스에 머신러닝 기술을 도입했다. 2017년엔 텐서플로 기반 심층 인공신경망까지 활용해 정확도를 높였다.
“우수한 보안이란 끊임없이 위협에 앞서 나가는 것을 의미합니다. 기존 머신러닝 기술을 이용해 지메일 받은 편지함에서 스팸 및 피싱, 악성코드 이메일을 99.9% 정확도로 걸러냅니다.”
네일 쿠마란 제품 매니저는 블로그 글을 통해 이같이 설명했다. 구글은 스팸 메일 데이터를 모아 스팸 메일 특징을 파악하는 알고리즘 필터를 만들었다. 필터 규칙에 따라 스팸 메일 특성이 보이며, 받은편지함에서 거르는 식이다. 이런 규칙은 문자 중심의 이메일에는 잘 통했다.
구글은 텐서플로를 통해 스팸 메일 탐지 필터 고도화에 나섰다. 새로운 머신러닝 알고리즘과 모델 구조를 통해 기존 규칙으로는 감지하기 어려운 스팸 메일을 찾아냈다. 이미지로만 이뤄진 이메일이나, 임베디드 코드가 삽입된 이메일, 합법적인 계정에서 보낸 도메인 메시지까지 스팸 여부를 확인할 수 있게 됐다.
스팸 메일을 빠르게 파악하기 위해 동시다발적으로 학습을 진행했다. 스팸 메일 학습 데이터 한 묶음으로 여러 가지 학습 시나리오를 만들어 진행했다. 그중 가장 유용성이 높고, 적합한 알고리즘을 채택해 적용했다. 끊임없이 변화하는 스팸 메일 트렌드에 즉각 대응할 수 있게 됐다.
이 과정에서 텐서보드를 활용했다. 텐서보드는 머신러닝 연산 과정을 쉽게 파악할 수 있는 시각화 도구다. 데이터양이나 값에 따라 학습률이 어떻게 달라지는지 등을 그래프로 확인할 수 있다. 인공지능 학습을 잘할 수 있게 도와준다.
이런 학습을 통해 구글 지메일은 스팸 메일 적발 비율을 높이고 있다. 중요 메시지가 스팸 메시지로 취급되는 경우도 보완했다. 이메일에는 사람의 눈으로 볼 수 없는 코드 수천개가 숨겨져 있다. 이 특성 중 일부가 스팸으로 취급되는 특성과 일치한다고 해서 모두 스팸 메일로 분류되면, 사용자는 중요 메시지를 놓치게 된다.
“머신러닝 알고리즘 고도화를 통해 스펨과 유사한 특성의 중요 메일인지, 스팸인지를 변별하는 능력도 키웠습니다. 지속적인 테스트를 통해 필터링 비율을 높이는 중입니다.”
저작권자 (주)블로터앤미디어
출처 : 블로터(http://www.bloter.net/archives/330793)