https://pycaret.gitbook.io/docs/get-started/preprocessing/data-preparation
데이터 셋 다양한 이유로 빈데이터 혹은 가치잃은 데이터가 코드상 빈칸 혹은 NaN 으로 존재. 대부분 머신러닝 알고리즘은 이 가치없는 데이터 처리 불가. 해당 데이터 제거 기본 방식 가끔 사용. 하지만 중요 정보, 관련 정보 와 패턴 사라지는 비용 발생. 더 나은 전략은 결측값 대체.
imputation_type: string, default = 'simple'
numeric_imputation(숫자타입): int, float, or string, default = ‘mean’ (아마 저희는 drop을 써야 할것 같습니다. )
대체 전략 숫자 컬럼. imputation_type= iterative 일 경우 무시.
categorical_imputation(카테고리 대체): string, default = ‘mode’ (역시 drop 사용 예정)
대체 전략 카테고리 컬럼. imputation_type= iterative 일 경우 무시.
iterative_imputation_iters: int, 기본값 = 5
반복횟수 . imputation_type= iterative 일 경우 무시.
Numeric_iterative_imputer: str 또는 sklearn 추정기, 기본값 = 'lightgbm'
가치 잃은 숫자 타입을 위한 회귀변수. None 일 경우. LGBClassifier 사용. imputation_type= iterative 일 경우 무시.
categorical_iterative_imputer: str 또는 sklearn 추정기, default = 'lightgbm'
가치 잃은 숫자 타입을 위한 회귀변수. None 일 경우. LGBClassifier 사용. Ignored when imputation_type=simple
.
# load dataset
from pycaret.datasets import get_data
hepatitis = get_data('hepatitis')
# init setup
from pycaret.classification import *
clf1 = setup(data = hepatitis, target = 'Class')
각 기능 데이터 셋 에는 각각 숫자, 카테고리, 날짜 연관된 데이터 타입 이 있다.
파이켓 추론 알고리즘 각 기능의 데이터 유형 자동 감지. 데이터 유형 오류 발생 경우 있음. 데이터 유형 확인 중요.
ex) 데이터셋 숫자 및 카테고리 기능 안의 데이터 셋에서 누락된 값 다르게 귀속. 데이터 타입 덮어쓰기 시 숫자 타입, 카테고리 기능 그리고 데이터 기능 파라미터 사용 가능.
모델 학습시 특정 항목 무시 가능.
numeric_features: list of string, default = None
유추 데이터 타입 불일치시 , numeric_features 이용해 데이터 타입 덮어쓰기 대체 가능.
categorical_features: list of string, default = None
유추 데이터 타입 불일치시 , categorical_features 이용해 데이터 타입 덮어쓰기 대체 가능.