https://pycaret.gitbook.io/docs/get-started/preprocessing/data-preparation

데이터 전처리

데이터 셋 다양한 이유로 빈데이터 혹은 가치잃은 데이터가 코드상 빈칸 혹은 NaN 으로 존재. 대부분 머신러닝 알고리즘은 이 가치없는 데이터 처리 불가. 해당 데이터 제거 기본 방식 가끔 사용. 하지만 중요 정보, 관련 정보 와 패턴 사라지는 비용 발생. 더 나은 전략은 결측값 대체.

매개변수

예시

# load dataset
from pycaret.datasets import get_data
hepatitis = get_data('hepatitis')

# init setup
from pycaret.classification import *
clf1 = setup(data = hepatitis, target = 'Class')

데이터 타입

각 기능 데이터 셋 에는 각각 숫자, 카테고리, 날짜 연관된 데이터 타입 이 있다.

파이켓 추론 알고리즘 각 기능의 데이터 유형 자동 감지. 데이터 유형 오류 발생 경우 있음. 데이터 유형 확인 중요.

ex) 데이터셋 숫자 및 카테고리 기능 안의 데이터 셋에서 누락된 값 다르게 귀속. 데이터 타입 덮어쓰기 시 숫자 타입, 카테고리 기능 그리고 데이터 기능 파라미터 사용 가능.

모델 학습시 특정 항목 무시 가능.

매개 변수