완료
Cfa lv.2 quant 유XX 강사님 질문
-
과정명: quant
-
강사명: 유XX
Quant 16번째 강의에서 커리 477쪽 LASSO 설명하실 때 패널티 텀에서 b의 크기가 클수록 패널티가 커지는 컨셉에 대해 이해가 안 돼 질문드립니다.
패널티를 주는 이유가 독립변수를 지나치게 많이 설정하는 것을 방지하기 위함으로 알고 있습니다. 강사님이 설명하실 때는 Y에 영향을 미치는 수많은 요인들을 무시하고 독립변수 하나만 설정하게 되면 이 독립변수의 계수 b가 커질 (과대평가될) 것이고 이것이 penalty term에 반영된다고 하셨습니다. 말씀대로라면 독립변수 갯수를 줄일수록 살아있는 독립변수의 영향이 커지니 계수(패널티)도 커질 수 있는데, 이는 패널티 컨셉에 반대되는 것 아닌지 궁금합니다.
0
댓글
질문에 감사드립니다.
"패널티를 주는 이유가 독립변수를 지나치게 많이 설정하는 것을 방지하기 위함"은 맞는 말입니다.
패널티에 sigma가 있는 이유는 독립변수의 개수가 많을수록 패널티를 크게 하기 위해서입니다.
Lasso이 가장 중요한 핵심은 독립변수의 개수를 줄이는 데 있습니다.
질문은 " 독립변수 갯수를 줄일수록 살아있는 독립변수의 영향이 커지니 계수(패널티)도 커질 수 있는데, 이는 패널티 컨셉에 반대되는"입니다.
그러면 왜 b가 들어가 있을까요? b를 1로 하는게 단순해서 편한데 말입니다.
그 이유는, (1) 기계학습에서, 수많은 독립변수가 있습니다. 특정 독립변수의 계수가 크다면 그 영향력이 상대적으로 크므로 패널티를 줍니다. (2) 독립변수를 하나 줄이면 그 효과는 i), 패널티가 작아지고, ii) 남아 있는 독립변수의 계수가 과장될 수도 있습니다. 그러나 i)의 효과가 ii)보다 훨씬 큽니다. 왜냐하면 i)은 직접적인데 반해 ii)는 간접적으로 영향을 주기 때문입니다.
이상입니다.
댓글을 남기려면 로그인하세요.