K-는 클러스터링을 의미합니까?

k-means 알고리즘을 사용한 데이터 마이닝

k- 평균 클러스터링 알고리즘은 데이터 마이닝 및 기계 학습 도구로서 관측을 관계의 사전 지식없이 관련 관측 그룹으로 집중 시키는 데 사용됩니다. 샘플링을 통해 알고리즘은 데이터가 속한 범주 또는 클러스터를 값 k 로 정의되는 클러스터 수와 함께 표시하려고 시도합니다 .

k- 평균 알고리즘은 가장 간단한 클러스터링 기술 중 하나이며 의료 영상, 생체 인식 및 관련 분야에서 일반적으로 사용됩니다. k- 수단 클러스터링의 장점은 처음에 알고리즘에 대한 지시를 알고리즘에 지시하지 않고 (감독 된 형식의 알고리즘을 사용하여) 데이터를 알려주는 것입니다 (감독되지 않은 형식 사용).

1957 년 스튜어트 로이드 (Stuart Lloyd)가 처음 제안한 표준 알고리즘이기 때문에 컴퓨터 과학계에서 특히 로이드 알고리즘 (Lloyd 's Algorithm)이라고도합니다. "k-means"라는 용어는 James McQueen이 1967 년에 만들어 냈습니다.

k-means 알고리즘 함수의 의미

k- 평균 알고리즘은 그 연산 방법으로부터 그 이름을 얻는 진화 알고리즘입니다. 이 알고리즘은 관측치를 k 그룹으로 클러스터링하며, k 는 입력 매개 변수로 제공됩니다. 그런 다음 관측치가 클러스터의 평균에 근접하여 클러스터에 각 관측치를 할당합니다. 그런 다음 클러스터의 평균이 다시 계산되고 프로세스가 다시 시작됩니다. 다음은 알고리즘 작동 방식입니다.

  1. 이 알고리즘은 임의로 k 지점을 초기 클러스터 센터 (평균)로 선택합니다.
  2. 데이터 집합의 각 점은 각 점과 각 클러스터 중심 간의 유 클리 디언 거리에 따라 닫힌 클러스터에 할당됩니다.
  3. 각 클러스터 센터는 해당 클러스터의 포인트 평균으로 다시 계산됩니다.
  4. 2 단계와 3 단계는 클러스터가 수렴 될 때까지 반복됩니다. 수렴은 구현에 따라 다르게 정의 될 수 있지만 일반적으로 2 단계와 3 단계를 반복 할 때 관측치가 변경되지 않거나 변경 사항이 클러스터의 정의에 중요한 차이를 만들지 않는다는 것을 의미합니다.

클러스터 수 선택

k- 에 대한 주요 단점 중 하나는 클러스터링이란 알고리즘의 입력으로 클러스터 수를 지정해야한다는 것입니다. 설계된대로 알고리즘은 적절한 클러스터 수를 결정할 수 없으며 사전에이를 식별하기 위해 사용자에게 의존합니다.

예를 들어, 남성 또는 여성으로 이진 성별 정체성을 기준으로 클러스터링 할 사람 그룹이있는 경우 입력 k = 3을 사용하여 k- 평균 알고리즘을 호출하면 두 개만 강제 할 때 클러스터를 세 클러스터로 만들거나 k = 2의 입력은보다 자연스러운 적합성을 제공 할 것이다.

유사하게, 개인의 그룹이 가정 상태에 따라 쉽게 클러스터링되고 입력 k = 20으로 k- 평균 알고리즘을 호출 한 경우 결과가 너무 일반화되어 효과적 일 수 있습니다.

이러한 이유로 여러 k 값을 사용하여 데이터에 가장 적합한 값을 확인하는 것이 좋습니다. 또한 기계 학습 지식에 대한 탐구에서 다른 데이터 마이닝 알고리즘 의 사용을 탐색 할 수도 있습니다.