파이캣 | Notion

https://pycaret.gitbook.io/docs/get-started/preprocessing/data-preparation

데이터 전처리

데이터 셋 다양한 이유로 빈데이터 혹은 가치잃은 데이터가 코드상 빈칸 혹은 NaN 으로 존재. 대부분 머신러닝 알고리즘은 이 가치없는 데이터 처리 불가. 해당 데이터 제거 기본 방식 가끔 사용. 하지만 중요 정보, 관련 정보 와 패턴 사라지는 비용 발생. 더 나은 전략은 결측값 대체.

매개변수

imputation_type: string, default = 'simple'
- 대신 사용할 유형, simple 혹은 iterative 유형. 만약 None 타입일경우 결측값 대치 수행 X
numeric_imputation(숫자타입): int, float, or string, default = ‘mean’ (아마 저희는 drop을 써야 할것 같습니다. )

대체 전략 숫자 컬럼. imputation_type= iterative 일 경우 무시.
- drop: 해당rows 버리기.
- mean: 해당 데이터 평균값 대체
- median: 중간값 대체.
- mode: 빈출값 대체.
- knn: K-Nearest Neighbors 근사치 대체.
- int or float: 제공한 숫자 데이터 대체.
categorical_imputation(카테고리 대체): string, default = ‘mode’ (역시 drop 사용 예정)

대체 전략 카테고리 컬럼. imputation_type= iterative 일 경우 무시.
- drop: 해당rows 버리기.
- mode: 빈출값 대체.
- str: 제공한 문자로 대체
iterative_imputation_iters: int, 기본값 = 5

반복횟수 . imputation_type= iterative 일 경우 무시.
Numeric_iterative_imputer: str 또는 sklearn 추정기, 기본값 = 'lightgbm'

가치 잃은 숫자 타입을 위한 회귀변수. None 일 경우. LGBClassifier 사용. imputation_type= iterative 일 경우 무시.
categorical_iterative_imputer: str 또는 sklearn 추정기, default = 'lightgbm'

가치 잃은 숫자 타입을 위한 회귀변수. None 일 경우. LGBClassifier 사용. Ignored when imputation_type=simple.

예시

# load dataset
from pycaret.datasets import get_data
hepatitis = get_data('hepatitis')

# init setup
from pycaret.classification import *
clf1 = setup(data = hepatitis, target = 'Class')

데이터 타입

각 기능 데이터 셋 에는 각각 숫자, 카테고리, 날짜 연관된 데이터 타입 이 있다.

파이켓 추론 알고리즘 각 기능의 데이터 유형 자동 감지. 데이터 유형 오류 발생 경우 있음. 데이터 유형 확인 중요.

ex) 데이터셋 숫자 및 카테고리 기능 안의 데이터 셋에서 누락된 값 다르게 귀속. 데이터 타입 덮어쓰기 시 숫자 타입, 카테고리 기능 그리고 데이터 기능 파라미터 사용 가능.

모델 학습시 특정 항목 무시 가능.

매개 변수

numeric_features: list of string, default = None

유추 데이터 타입 불일치시 , numeric_features 이용해 데이터 타입 덮어쓰기 대체 가능.
categorical_features: list of string, default = None

유추 데이터 타입 불일치시 , categorical_features 이용해 데이터 타입 덮어쓰기 대체 가능.