반응형
안녕하세요. 오늘은 중요한 특성을 선택하는 변환기를 파이프라인에 추가하는 방법에 대해 알아보겠습니다.
기존에 만들었던 방식처럼, indices_of_top_k (상위 k개의 인덱스들을 가져온다는 이름같은 이름)
TopFeatureSelector 클래스를 만듭니다. 하지만 이 특성 선택 클래스는 이미 어떤 식으로든 특성의 중요도를 계산했다고
가정합니다. 왜냐면, TopFeatureSelector의 fit()메서드에서 직접 계산한다면 매우 느리기 때문입니다.
k=5로 지정하여 상위 5의 특성을 뽑아냅니다.
그 결과, median_income, INLAND, pop_per_hhold, longitude, latitude가 나왔네요,
이제 이전에 정의한 준비 파이프라인과 특성 선택기를 결합하여 preparation_and_feature_selection_pipeline이라는
이름으로 만듭니다. 그리고 housing_prepared_top_k_features라는 이름에 파이프라인을 .fit_transform(housing) 하여
특성이 잘 뽑혀나왔는지 확인하면 끝!
블로그 이 글의 상당 부분은 [핸즈온 머신러닝, 한빛미디어/오렐리앙 제롱/박해선] 서적을 참고하였습니다. 나머지는 부수적인 함수나 메서드에 대해 부족한 설명을 적어두었습니다. 학습용으로 포스팅 하는 것이기 때문에 복제보다는 머신러닝에 관심이 있다면 구매해보시길 추천합니다. 도움이 되셨다면 로그인 없이 가능한 아래 하트♥공감 버튼을 꾹 눌러주세요! 출처
반응형
'## 오래된 게시글 (미관리) ## > Python (Linux)' 카테고리의 다른 글
20. Python - 그리드 탐색을 이용하여 준비 단계의 옵션 자동 탐색하기 (0) | 2018.11.28 |
---|---|
19. Python - 전체 데이터 준비와 예측을 하나의 파이프라인으로 만들기 (0) | 2018.11.28 |
17. Python - 그리드 탐색을 랜덤 탐색으로 바꾸기 (2) | 2018.11.28 |
16. Python - 서포트 벡터 머신을 통한 하이퍼 파라미터 설정 (0) | 2018.11.26 |
15. Python - 테스트 세트로 평가하기 (0) | 2018.11.25 |