13. Python - 모델 선택과 훈련
여태 데이터를 읽고, 탐색하고, 훈련세트와 테스트 세트로 나누며 준비를 해왔습니다.이제, 모델 선택과 훈련을 해보겠습니다. sklearn의 LinearRegression을 통해 파이프라인을 적용합니다. 레이블을 살펴보면, 첫 번째 예측은 40%도 넘게 빗나간 것을 알 수 있습니다.그래서, 사이킷런의 mean_square_error 함수를 이용해 전체 훈련 세트에 대해 이 회귀모델의 RMSE를 측정해봅니다. 대부분의 중간 주택 가격은 $120,000에서, $265,000인데, 예측 오차가 $68,628이란 것은 문제가 있죠. 이 모델은 훈련 데이터에 과소 적합된 사례입니다. 이런 상황은, 특성들이 좋은 예측을 만들만큼 충분한 정보를 제공하지 못했거나 모델이 충분이 강력하지 않다는 것입니다. 과소적합을 해결..
2018. 11. 25.