데이터 마이닝의 분류

분류는 더 정확한 예측 및 분석을 돕기 위해 데이터 모음에 범주를 지정하는 데이터 마이닝 기술입니다. 의사 결정 트리 (Decision Tree) 라고도하는이 분류는 대용량 데이터 집합의 분석을 효과적으로 수행하기위한 여러 가지 방법 중 하나입니다.

왜 분류?

매우 큰 데이터베이스는 오늘날의 "빅 데이터"세계에서 표준이되고 있습니다. 여러 테라 바이트의 데이터가있는 데이터베이스를 상상해보십시오. 테라 바이트는 1 바이트의 데이터입니다.

페이스 북만으로도 매일 600 테라 바이트의 새로운 데이터를 수집 할 수 있습니다 (2014 년,이 사양을 마지막으로 발표 한 시점). 빅 데이터의 주된 문제는 그것을 이해하는 방법입니다.

그리고 막대한 양의 데이터 만이 유일한 문제는 아닙니다. 큰 데이터는 다양하고 체계적이지 않고 빠르게 변화하는 경향이 있습니다. 오디오 및 비디오 데이터, 소셜 미디어 게시물, 3D 데이터 또는 지형 공간 데이터를 고려하십시오. 이러한 종류의 데이터는 쉽게 분류되거나 구성되지 않습니다.

이러한 과제를 해결하기 위해 유용한 정보를 추출하기위한 다양한 자동 방법이 개발되었습니다.

분류 작동 원리

테크 - 말하기에 너무 멀리 움직일 위험이있는 상황에서 분류 작업이 어떻게 작동하는지 논의 해 봅시다. 목표는 질문에 대답하거나 결정을 내리거나 행동을 예측할 수있는 분류 규칙 집합을 만드는 것입니다. 시작하려면 일련의 학습 데이터가 개발되어 특정 속성 집합과 가능한 결과가 포함됩니다.

분류 알고리즘의 역할은 해당 속성 집합이 어떻게 결론에 도달했는지 발견하는 것입니다.

시나리오 : 아마도 신용 카드 회사가 어떤 잠재 고객이 신용 카드 제안을 받아야하는지 결정하려고 시도했을 것입니다.

이것은 일련의 학습 데이터 일 수 있습니다.

교육 데이터
이름 나이 성별 연간 소득 신용 카드 제안
존 도우 25 명 $ 39,500 아니
제인 도우 56 에프 $ 125,000

Age , GenderAnnual Income 의 "predictor"열에서 "predictor attribute" 신용 카드 제안 의 가치가 결정됩니다. 교육 집합에서 예측 특성은 알려져 있습니다. 그런 다음 분류 알고리즘은 예측 자 속성의 값에 도달 한 방법, 즉 예측 자와 결정간에 어떤 관계가 있는지 결정하려고 시도합니다. 예측 규칙 세트를 개발할 것이며 대개 IF / THEN 문을 사용합니다. 예를 들면 다음과 같습니다.

IF (연령> 18 OR 연령 <75) 및 연간 수입> 40,000 그 다음 신용 카드 제공 = 예

분명히 이것은 간단한 예제이며 알고리즘은 여기에 표시된 두 레코드보다 훨씬 더 큰 데이터 샘플링을 필요로합니다. 또한 예측 세부 규칙은 속성 세부 정보를 캡처하는 하위 규칙을 포함하여 훨씬 더 복잡 할 수 있습니다.

다음으로 알고리즘에 분석 할 데이터의 "예측 세트"가 주어 지지만이 세트에는 예측 속성 (또는 결정)이 없습니다.

예측 자 데이터
이름 나이 성별 연간 소득 신용 카드 제안
잭 프로스트 42 $ 88,000
메리 머레이 16 에프 0 달러

이 예측 자 데이터는 예측 규칙의 정확성을 추정하는 데 도움을 주며 개발자가 예측을 효과적이고 유용하다고 생각할 때까지 규칙을 조정합니다.

나날의 분류 사례

분류 및 기타 데이터 마이닝 기술은 소비자로서의 일상적인 경험의 대부분을 뒷받침합니다.

날씨 예보는 분류를 사용하여 하루가 비가 올지, 햇살이 좋든 흐린지를보고 할 수 있습니다. 의료 종사자는 건강 상태를 분석하여 의료 결과를 예측할 수 있습니다. 분류 방법의 유형 인 Naive Bayesian은 조건부 확률을 사용하여 스팸 전자 메일을 분류합니다. 사기 발견에서부터 제품 제안에 이르기까지, 데이터를 분석하고 예측을 내리는 일이 매일 뒤에서 분류됩니다.