본문 바로가기

#OneHotEncoder2

12. Python - 변환기, 특성 스케일링 오늘은 특성 스케일링에 앞서 나만의 변환기에 대해 먼저 볼텐데요. 앞서서 조합했던 특성들을 추가하는 간단한 변환기입니다.사이킷런은 상속이 아닌 덕 타이핑(duck typing)을 지원하므로, fit() (self를 반환) , transform(), fit_transform() 메서드를 구현한 파이썬 클래스를 만들면 됩니다. 또한 BaseEstimator를 상속하고, 생성자에 *args, **kargs를 사용하지 않으면, 하이퍼파라미터 튜닝에 필요한 두 메서드(get_param()과 set_param())을 추가로 얻게 됩니다. 이 경우, 변환기가 add_bedrooms_per_room 하이퍼파라미터 하나를 가지고 있고 기본값은 True로 지정합니다.(합리적 기본값이 좋습니다.) BaseEstimator는.. 2018. 11. 24.
11. Python - 데이터 탐색과 시각화 저번에 테스트 셋과 훈련셋으로 나누었습니다. 이제 테스트 셋 확인 후 훈련 세트에 대해서만 탐색을 합니다. 이 그림은 캘리포니아 지역을 잘 나타내지만, 어떤 특별한 패턴을 찾기는 힘듭니다.alpha 옵션을 0.1로 주면 데이터 포인트가 밀집된 영역을 잘 보여줍니다. housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 이렇게 보면, Bay Area와 Los Angeles 근처, San Diego 같이 밀집된 지역이 눈에 잘 띄고, Central Valley 특히 Sacramento와 Fresno 근처를 따라 밀집된 지역이 긴 띠를 이루고 있다고 하네요. (미국 지리는 잘..ㅠ) 이제 이 그림에다가, 주택 가격을 나타내봅니다. 원의 반지.. 2018. 11. 23.