유극렬 강사님께 질문있습니다.
- 과정명: 2020 FRM part1 Quantitative analysis
교제 196p에서
control variates 부분
3번째 문단에
the new x* variable estimate will have a smaller sampling error than the original x variable if the control statistic and statistic of interest are highly correlated.
에서 the control statistic 와 statistic of interest가 어떤 기호를 말하는지 잘 모르겠습니다.
또 control variate 는 montecarlo(x_hat, y_hat)과 시장에서 관측할 수 있는 y를 통해서 새로운 x*를 만들어가는게 맞나요? 제대로 이해한지 궁금합니다.
198p the bootstrapping method 에서
independent and identically distributed 와circular block bootstrap 차이에 대해서 이해가 힘듭니다.
independent and identically distributed은
independent 여서 199p 예시에 있는대로 (x1,x1,x2)가 가능하고
(즉, 하나씩 뽑는 것이고 x1 이 한 단위, circular block bootstrap은 (x1,x2,x3)이 한 단위가 맞나요? )
circular block bootstrap은
dependent 여서 (x1,x1,x2)가 불가능한가요? 또 (x1, x2, x3)(x2, x3, x4)(x3, x4, x5)....(x9, x10, x1)(x10, x1, x2)로 항상 규칙적을 sample을 뽑아야하나요? 또 (x9, x10, x1)(x10, x1, x2) 은 warp around 라고 표현했는데 무슨 의미인가요?
200p Random number generation에서
PRNGs typically produce sequences of random numbers uniformly distributed between zero and one.에서
갑자기 왜 uniformly distributed가 나오는지 모르겠습니다.
또 장점인 1)repeatability 2) computing clusters 또한 읽어도 이해가 안됩니다.
댓글
질문에 감사드립니다.
교과서 책에서 중간 과정이 생략된 채, 저자가 임의대로 해석해서 요약하는 바람에 이해가 쉽지 않습니다.
#1 " the control statistic 와 statistic of interest가 어떤 기호를 말하는지"에 대한 질문입니다.
문장 전체를 읽으면, control statistic은 y^를, statistic of interest는 x^를 말하는 것으로 보입니다. x^와 y^가 highly correlated 되면 공분산의 값이 커서 (cov(x^,y^) is large), var(x*) < var(x^)가 된다는 뜻으로 해석됩니다.
** 제 개인적 견해: 수학적 증명 없이 저자가 자신의 해석대로 글을 작성한 관계로 단어 하나하나에 너무 깊게 해석하지 않는 게 좋을 듯합니다.
#2. 우선, Bootstrapping을 고려하지 않아 봅니다. 과거의 자료가 {3, 4, 2, 3, 4, 2, 3, 4, 2, 3, 4, 2}의 순서대로 나타났다고 가정합시다. 그 다음은 무슨 숫자가 나올까요?
답은 3 입니다.
왜 3이냐 하면 2, 3, 4가 계속 반복되기 때문입니다. 즉, 다음에 나타날 숫자는 independent하지 않습니다.
만약 independent라고 가정한다면, 다음에 나타날 숫자는 무엇입니까? 2, 3, 4, 중 하나이며 각각이 나타날 확률은 1/3씩이라고 답해야 합니다. 틀린 답이지요.
따라서 이런 경우에는 independent~라고 가정하여 시뮬레이션을 하는 게 아니라 3개씩 묶는 게 좋겠지요. 이를 circular block ~~라고 부릅니다.
책의 사례에서 {x1,x2,x3}, ...의 방식으로 3개씩 묶었는데, x10이 넘어가면 어떻게 해야 하는 문제가 남았습니다. 그럴 땐, x10 다음의 값을 x1로 간주합니다. 이를 wrap around, 3개씩 묶는데(wrap) 끝이 나오면 되돌아간다(around)라고 표현합니다.
#3. PRGN은 우리말로 유사난수라고 부릅니다. 정확히 말해 완전한 '난수'가 아닙니다. 첫번째 값(seed value)이 주어지면, 공식에 의해 그 이후의 값은 자동적으로 생성됩니다.
예를 들어 한 시뮬레이션에서 첫번째 값은 0.1로 하고, 다른 시뮬레이션에서도 첫번째 값을 0.1로 하면 생선되는 난수는 동일합니다. '완전한 난수'이려면 완전히 다른 숫자가 생성되는데 말입니다. 그래서 '유사' 입니다.
그래서 한 유사난수를 다른 시뮬레이션에서도 그대로 사용할 수 있어 (repeatability) 편리한 장점이 있습니다.
1개의 금융상품에 대한 시뮬레이션을 하는 경우를 봅시다. '완전한 난수'를 사용하면, 동일한 상품인 경우라도 시뮬레이션 할 때마다 결과는 달라집니다. 반면에 '유사'난수에 첫번째 값을 동일하게 하면 결과는 동일하게 나옵니다.
2개의 금융상품의 관계를 알고 싶을 때, '완전한 난수'를 사용하면 결과의 차이가 난수의 차이 때문인지, 아니면 상품의 성격이 달라서 인지 알 수 없습니다. 그러나 '유사난수'에 동일한 첫번째 값을 사용하면 두 상품의 차이는 난수 때문이 아니라 상품의 성격 때문입니다. 즉 상품의 성격 차이로 생기는 차이를 파악할 수 있습니다.
이상입니다
댓글을 남기려면 로그인하세요.