베이지안 스팸 필터링에 대해 알아야 할 사항

by 하인츠 차차 세트 셔

통계를 통해받은 편지함을 정리하는 방법 알아보기

베이지안 (Bayesian) 스팸 필터는 내용에 따라 스팸이 될 확률을 계산합니다. 단순한 컨텐츠 기반 필터와 달리 베이지안 스팸 필터링은 스팸과 좋은 메일을 통해 매우 강력하고 적응력이 뛰어난 스팸 방지 접근법을 학습합니다.

정크 메일을 어떻게 인식합니까?

스팸을 어떻게 탐지하는지 생각해보십시오. 빠른 눈짓으로도 충분합니다. 스팸 메일이 무엇인지 알면 좋은 메일이 무엇인지 알 수 있습니다.

좋은 메일처럼 보이는 스팸의 가능성은 ... 0입니다.

컨텐츠 기반 필터 채점이 조정되지 않음

자동 스팸 필터가 그렇게 작동하면 좋지 않을까요?

콘텐츠 기반 스팸 필터를 채점하면 바로 그 점이 좋습니다. 그들은 스팸의 전형적인 단어 및 기타 특성을 찾습니다. 모든 특성 요소에는 점수가 지정되고 전체 메시지에 대한 스팸 점수는 개별 점수에서 계산됩니다. 일부 채점 필터는 합법적 인 메일의 특성을 찾아 메시지의 최종 점수를 낮 춥니 다.

채점 필터 접근법은 효과가 있지만 몇 가지 단점도 있습니다.

특성 목록은 필터 엔지니어가 사용할 수있는 스팸 (및 양호한 메일)을 기반으로 작성됩니다. 누구나 얻을 수있는 전형적인 스팸을 잘 이해하려면 수백 개의 이메일 주소로 메일을 수집해야합니다. 이는 특히 메일 의 특성이 사람마다 다르 므로 필터의 효율성을 약화 시키지만 이는 고려되지 않았습니다.
찾으려는 특성은 다소 차이 가 있습니다 . 스팸 발송자가 스팸 메일을 필터에 맞게 조정하려는 노력을 기울이면 필터링 특성을 수동으로 조정해야합니다 (심지어 더 큰 노력).
각 단어에 할당 된 점수는 아마도 좋은 예상치에 근거한 것이지만 여전히 임의적입니다. 또한 특성 목록과 마찬가지로 일반적으로 스팸의 변화하는 세계 나 개별 사용자의 요구에 맞지 않습니다.

베이지안 스팸 필터, 자신을 조정 해 더 좋고 나아졌습니다.

베이지안 스팸 필터는 일종의 채점 기반 콘텐츠 필터입니다. 그들의 접근 방식은 스팸 필터를 단순하게 채점하는 문제를 없애 주지만 근본적으로 그렇게합니다. 필터 채점의 약점은 수동으로 작성된 특성 및 점수 목록에 있으므로이 목록은 제거됩니다.

대신 베이지안 스팸 필터는 목록 자체를 만듭니다. 이상적으로는 스팸으로 분류 한 (큰) 이메일과 다른 좋은 메일로 시작하는 것이 좋습니다. 필터는 합법적 인 메일과 스팸을 분석하여 스팸 및 양호한 메일에 나타나는 다양한 특성의 확률을 계산합니다.

베이지안 스팸 필터가 전자 메일을 검사하는 방법

베이지안 스팸 필터가 볼 수있는 특성은 다음과 같습니다.

물론 메시지의 본문 에있는 단어들, 그리고
헤더 (예 : 발신자와 메시지 경로 )뿐 아니라
HTML / CSS 코드 (예 : 색상 및 기타 서식), 또는
단어 쌍, 문구 및
메타 정보 (예 : 특정 구문이 나타나는 곳).

예를 들어 "데카르트"라는 단어가 스팸에 나타나지는 않지만 사용자가받는 합법적 인 전자 메일에 종종 나타나는 경우, "데카르트"가 스팸임을 나타내는 확률은 0에 가깝습니다. 반면에 "토너"는 독점적으로, 그리고 종종 스팸에 나타납니다. "토너"는 스팸에서 발견 될 가능성이 매우 높으며 1 미만 (100 %) 이하입니다.

새 메시지가 도착하면 베이지안 스팸 필터에 의해 분석되고 스팸 인 전체 메시지 확률은 개별 특성을 사용하여 계산됩니다.

메시지에 "Cartesian"과 "toner"가 모두 있다고 가정합니다. 스팸 메일이나 합법적 인 메일이 있는지 여부는 아직 명확하지 않습니다. 다른 특성은 필터가 메시지를 스팸 또는 양호한 메일로 분류 할 수있는 확률을 나타냅니다 (아마도 잘만 그리고 아마도).

베이지안 스팸 필터가 자동으로 학습 가능

이제 분류를 했으므로 메시지를 사용하여 필터 자체를 더욱 교육시킬 수 있습니다. 이 경우 양호한 메일을 나타내는 "직교 좌표"확률이 낮아지고 ( "직교 좌표"와 "토너"가 모두 포함 된 메시지가 스팸으로 확인 된 경우) 또는 스팸임을 나타내는 "토너"확률을 다시 고려해야합니다.

이 자동 적응 기술을 사용하여 베이지안 필터는 자신과 사용자의 결정 (필터에 의한 오판을 수동으로 수정 한 경우)을 통해 학습 할 수 있습니다. 베이지안 필터링의 적응성은 개별 이메일 사용자에게 가장 효과적임을 확신합니다. 대부분의 사람들의 스팸은 유사한 특성을 가지고있을 수 있지만 합법적 인 메일은 모두에게 특징적으로 다릅니다.

스패머가 과거의 베이지안 필터를 어떻게 얻을 수 있습니까?

적법한 메일의 특성은 스팸이 베이지안 스팸 필터링 프로세스와 마찬가지로 중요합니다. 필터가 모든 사용자를 위해 특별히 훈련 된 경우 스팸 발송자는 모든 사람 (또는 대부분의 사용자)의 스팸 필터를 처리하는 데 훨씬 더 힘든 시간을 가지며 스팸 발송자가 시도하는 거의 모든 항목에 필터를 적용 할 수 있습니다.

스패머들은 스팸 메시지를 모든 사람이 얻을 수있는 일반 전자 메일처럼 완벽하게 보이게 만들려면 잘 훈련 된 베이지안 필터를 통과해야합니다.

스팸 발송자는 일반적으로 보통의 이메일을 보내지 않습니다. 이 이메일이 정크 메일로 작동하지 않기 때문이라고 가정합니다. 그래서 보통의 지루한 이메일 만 스팸 필터를 통과 할 수있는 유일한 방법 일 때 기회가되지 않을 것입니다.

스팸 발송자가 대부분 평범한 이메일로 전환하면받은 편지함에 많은 스팸이 다시 표시되어 이메일이 베이지안 전날 (또는 그보다 더 나쁜 날)처럼 좌절 할 수 있습니다. 그것은 또한 스팸의 대부분의 종류를위한 시장을, 그러나 파괴하고, 이렇게 오래 지속되지 않을 것이다.

강력한 지표는 베이지안 스팸 필터의 Achilles & # 39; 힐

한 가지 예외는 스팸 발송자가 일반적인 콘텐츠를 사용해도 베이지안 필터를 통과하는 것으로 인식 될 수 있습니다. 좋은 메일에 매우 자주 나타나는 한 단어 나 특성은 스팸처럼 보이게하는 메시지를 필터에 의해 허물로 평가하는 정도로 중요 할 수 있다는 베이 즈 통계의 본질에 있습니다.

스팸 발송자가 귀하의 확실한 불량 메일 단어를 결정하는 방법을 찾으면 (예 : HTML 수신 확인 을 사용하여 어떤 메시지를 열 었는지 확인), 그 중 하나를 정크 메일에 포함시킬 수 있으며, 훈련 된 베이지안 필터.

John Graham-Cumming은 두 개의 베이지안 필터가 서로 작동하도록하여 "좋은"필터를 통과하는 메시지를 찾아내는 "나쁜"방법을 시도했습니다. 그는 프로세스가 시간 소모적이고 복잡하지만 작동한다고 말합니다. 우리는 적어도 대규모로는 안되며 개인의 이메일 특성에 맞춰서 이런 일이 일어나지 않을 것이라고 생각합니다. 스팸 발송자는 대신 조직의 일부 키워드 (아마도 IBM의 일부 사용자를위한 "Almaden"과 같은 것)를 찾아 낼 수 있습니다.

일반적으로 스팸은 일반 메일과 항상 (크게) 다르거 나 스팸이 아닙니다.

결론 : 베이지안 필터링의 강도는 약점이 될 수 있습니다.

베이지안 스팸 필터는 다음과 같은 콘텐츠 기반 필터 입니다.

개별 전자 메일 사용자의 스팸 및 양호한 메일을 인식하도록 교육되어 스패머에게 매우 효과적이고 어렵게 만듭니다.
끊임없이 많은 노력이나 수동 분석을하지 않아도 스패머의 최신 트릭에 적응할 수 있습니다.
개별 사용자의 양호한 메일을 고려하여 오탐 (false positive) 비율이 매우 낮습니다 .
불행히도 이것이 베이 즈안 (Bayesian) 스팸 방지 필터에 대한 맹목적인 신뢰를 야기 할 경우 가끔 실수를 더욱 심각하게 만듭니다. false negative (스팸 메일은 일반 메일과 똑같이 보입니다)의 반대 효과는 사용자를 방해하고 좌절시킬 수 있습니다.