유극렬 강사님께 질문있습니다.
FRM2020 part1 quantitative analysis
143p bias-variance tradeoff와 148p module quiz 20.2 2번에서
in-sample(trading sample) 일때와 out-of-sample(test sample)일때 를 구분해서 설명했는데
머신러닝에서 사용하는 개념으로는 책에서는 out-of-sample일때 적용되는거같습니다.
머신러닝에서의 개념은 이해가되는데 in-sample와 out-of-sample일때의 차이점을 모르겠습니다.
또 결정계수(R)에서 R이 높으면 RSS가 적어서 bias error가 작을거라고 직관적으로 생각하고 있는데 잘못된 생각인거 같은데 이유를 모르겠습니다. R과 bias error의 관계가 잘 정리가 되질 않습니다.
158p ARMA covariance stationary 조건을 보면
shock(white noise)의 계수의 절대값이 1보다 작아야한다고 나와있는데
one-periode lagged의 계수의 절대값이 1보다 작아야하는건 없어도되나요?
아니면 둘다 만족해야하나요?
187p positive definiteness 질문있습니다
positive definiteness는 correlation matrix 의 모든 성분이 양수인것인데
first type을 보면 모든 성분이 same amount를 가진다고 적혀있습니다.
191p 맨마지막 문단을 보면 성분이 0도 가능하다고 하는데
correlation matrix에서 (1,1)은 자기 상관계수여서 무조건 1이 되어야 하는거 아닌가요?
second type은 correlation이 -1과 1사이가 가능하다고 하는데 그러면 어떻게
positive definiteness가 되는지 모르겠습니다.
댓글
게시판을 늦게 보게 되어 이제야 답변 드립니다.
143p ==>trading이 아니고 training 입니다.
"머신러닝에서 사용하는 개념으로 책에서는 out-of-sample일때 적용되는거같습니다."라고 하셨는데, 그 의미가 뭔지 잘 모르겠습니다. FRM 교과서에서 bias error와 variance error의 개념은 다른 모든 교과서와 반대로 설명되어 있습니다. 저는 일반 교과서를 따르는게 맞다고 생각합니다.
통계학에서 표본은 하나이나, 머신러닝에서 표본은 보통 2개나 3개로 나눕니다. 2개로 나누는 경우를 봅시다. training sample을 이용하고 모형을 만들고, 이 모형을 test sample에서 적용해 보면 모형의 문제점이 파악되고 이에 따라 모형을 개선합니다. 이 과정을 거칩니다. 통계학과 달리, 이런 여러 단계를 거치는 이유는 머신러닝에서 독립변수의 개수가 너무 많아, test sample에서 줄이기 위함입니다.
결정계수가 크면 R(regression)SS이 작아 bias error가 작습니다. 다시 한번 말씀드리면, 이 책에서의 개념 설명은 다른 모든 책의 반대로 되어 있어서 혼동이 된게 아닌가 생각합니다.
158P ==> ARMA도 AR의 특성을 그대로 지니고 있기 때문에 one-periode lagged의 계수의 절대값도 1보다 작아야 합니다.
187p ==> "positive definiteness는 correlation matrix 의 모든 성분이 양수인것인데" 이 틀린 문장입니다. 오해가 생긴듯 합니다.
matrix A가 positive definiteness이려면 모든 벡터 x에 대해 x^T A x의 값이 양인 것입니다. (여기서 T는 transpose)
왜 양이어야 하면, 포트폴리오 수익률의 분산이 음이 나오면 안되기 때문입니다.
자산이 2개이고, 이 포트폴리오 수익률의 분산을 구해보시고, 이를 matrix를 적용해보세요. 그러면 positive definiteness이어야 하는지 파악할 수 있습니다.
correlation matrix에서 (1,1)은 확률변수가 1인 경우를 말하는 건가요? 이런 경우에는 positive definiteness를 정의하지 않습니다. 최소 확률변수가 2개 이상인 경우에 정의합니다.
이상입니다.
댓글을 남기려면 로그인하세요.