SMOTE**(Synthetic Minority Oversampling Technique)** 방법 진행
- 기존 소수 클래스의 주변에 가상 데이터를 생성하여 채우는 기법
- KNN 알고리즘 기반으로 함
-
소수 클래스 중 하나를 무작위로 선택
-
해당 클래스에서 K개의 소수 클래스 이웃을 찾고, 이중 하나를 무작위 선택
-
선택된 두 클래스 사이에서 가상 데이터를 생성
- 두 데이터를 연결하는 직선 사이에 균등 분포를 따라 데이터가 하나 생성 됨.
⚠️ K=1 일 경우 무조건 서로 가까운 값 사이에만 관측치가 생성되므로 과적합이 발생할 수 있음
Houscore에는 어떻게 쓸 수 있을까?
- 데이터가 4점에 몰려 있기 때문에 데이터 불균형 문제 발생
- 불균형 문제를 해결하기 위해 over sampling 방법 진행 고려
- *over sampling : 소수 클래스의 데이터를 늘리는 방향으로, 다수 클래스와의 비율을 맞추는 기법
- pycaret에서 train(70%), test(30%) 데이터 균등하게 분할 및 SMOTE 방법으로 오버샘플링 진행