본문 바로가기

#DecisionTreeRegressor2

43. Python - 결정 트리(Decision Tree) 자. 오늘은 새로운 챕터, 결정 트리입니다.SVM처럼 결정 트리(Decision tree)는 분류와 회귀 작업 그리고 다중출력 작업도 가능한 다재다능한 머신러닝 알고리즘입니다. 또한, 매우 복잡한 데이터셋도 학습할 수 있는 강력한 알고리즘입니다.결정 트리는 최근에 자주 사용되는 가장 강력한 머신러닝 알고리즘인 랜덤 포레스트의 기본 구성 요소이기도 합니다. 이 장에서는 결정 트리의 훈련, 시각화, 예측 방법에 대해 먼저 알아보겠습니다.그리고, 사이킷런의 CART 훈련 알고리즘을 둘러보고 트리에 규제를 가하는 방법과 회귀 문제에 적용하는 방법에 대해 알아봅니다.마지막으로, 결정 트리의 제약 사항에 대해 알아보겠습니다. 결정 트리를 이해하기 위해 일단 하나를 만들어서, 어떻게 예측을 하는지 살펴보겠습니다.다음.. 2019. 2. 12.
13. Python - 모델 선택과 훈련 여태 데이터를 읽고, 탐색하고, 훈련세트와 테스트 세트로 나누며 준비를 해왔습니다.이제, 모델 선택과 훈련을 해보겠습니다. sklearn의 LinearRegression을 통해 파이프라인을 적용합니다. 레이블을 살펴보면, 첫 번째 예측은 40%도 넘게 빗나간 것을 알 수 있습니다.그래서, 사이킷런의 mean_square_error 함수를 이용해 전체 훈련 세트에 대해 이 회귀모델의 RMSE를 측정해봅니다. 대부분의 중간 주택 가격은 $120,000에서, $265,000인데, 예측 오차가 $68,628이란 것은 문제가 있죠. 이 모델은 훈련 데이터에 과소 적합된 사례입니다. 이런 상황은, 특성들이 좋은 예측을 만들만큼 충분한 정보를 제공하지 못했거나 모델이 충분이 강력하지 않다는 것입니다. 과소적합을 해결.. 2018. 11. 25.