데이터셋 구성

건물 데이터셋

데이터명 전처리 후 데이터 수 데이터 출처 수집방법 및 형태 수집시간
실거래가(21-24.3) 7,198,708 국토교통부 실거래가 공개시스템 csv 다운로드 3일
개별공시지가 34,228,943 국토교통부 디지털 트윈국토 (국가중점데이터) csv 다운로드 1일
건축물대장 총괄표제부 / 표제부 5,500,322 국토교통부 건축데이터 개방 csv 다운로드 1일

인프라 데이터셋

데이터명 전처리 후 데이터 수 데이터 출처 수집방법 및 형태 수집시간
학교 21,524 유치원알리미/ 공공데이터포털 - 지방교육재정연구원 / 대학알리미 csv 다운로드 2일
학원 117,720 공공데이터포털 - 각지역교육청 csv 다운로드 2일
버스 204,209 공공데이터포털 - 국토교통부 csv 다운로드 1일
지하철 894 국토교통부 레일포털 / 공공데이터 - 국가철도공단 csv 다운로드 1일
병원 380,636 HIRA 빅데이터개방포털 csv 다운로드 1일
세탁소 20,262 LOCALDATA(지방행정인허가데이터개방) xlsx 다운로드 1일
도서관 1,278 국가도서관통계시스템 csv 다운로드 1일
공원 18,865 공공데이터포털 - 지방자체단체 csv 다운로드 1일
마트 2,920 공공데이터포털 - 지역디지털서비스과 xlsx 다운로드 1일
안전등급 228 KOSIS 국가통계포털 xlsx 다운로드 1일

AI 모델링

초기 데이터셋

Untitled

소수 첫째자리에서 반올림

소수 첫째자리에서 반올림

과적합 우려

avg_score 0,1,2점에 대한 학습이 제대로 이뤄지지 않지 않을까 판단됨


추후 멘토님께 상황 말씀드린 결과 0~2점 데이터셋을 추가로 5,000건 제공 받음

Untitled

범위 지정하여 라벨링

범위 지정하여 라벨링


Random Forest 모델