빅데이터분석기사 특강에서 궁금한 점 2가지(aceFormula, ("BoxCox") 답변부탁드려요.
김계철 교수님, 안녕하세요.
특강 준비해주시고, 코드도 주셔서 정말 감사합니다.
그런데 궁금한 점이 생겼어요. 전 당연히 R입문자라서 배운 것에서 조금만 달라져도
왜 그런지 몰라 궁금해서 여쭈오니 꼭 알려주시면 감사하겠습니다~~~
1. 제2유형 예측모형 설명하시면서 아래 코딩하셨어요. 기존 강의에서는 타겟변수(예.Income)만 써서
train(Income~,,data=acs, ~~~~~~~~)로 배웠는데 빅분기 시험에서 복사-붙여넣기도 안되는 상황에서
aceFormula 만들어서 알려주신 이유는 단순히 모형성능 차이를 설명하기 위해서 인거죠?
혹시 다른 이유가 있는지 궁금해요. 이것을 쓰면 어떤 효과가 있는가요?
<특강 코딩>
aceFormula<-Income~NumChildren+NumRooms+NumWorkers+OwnRent+ElectricBill+
FoodStamp+HeatingFuel
tune<-train(aceFormula,data=acs,
method='knn',
metric="ROC",
trControl=ctrl)
2. 제2유형 예측모형 전처리에서 기존에는 preProcess=c("center","scale")을 가르쳐 주셨는데,
특강에서는 preProcess=c("BoxCox","center","scale")로 하심은 정규화함으로써, 모형 성능을 향상하기
위함인지요?
아울러 저의 지난 번 질문( t.test에서 var.equal=FALSE 관련) 답변도 부탁드립니다~
댓글
안녕하세요.
이패스비즈 ADsP / 빅데이터분석기사 강사 김계철 입니다.
답변 드립니다.
1. caret 패키지 사용 방법에 대한 사례일 뿐 결과는 동일합니다.
2. preProcess=c("center","scale") 만으로도 충분해요. caret 다른 기능도 설명하기 위함입니다.
"BoxCox"--> 정규분포하기 위함
3. var.equal=FALSE 으로 기본 설정이 되어 있습니다. 등분산성 여부를 확인해야 합니다.
감사합니다.
댓글을 남기려면 로그인하세요.