답변함

빅데이터 분석기사 김계철 교수님

kooheeseong2023

2023년 05월 31일 07:19

빅데이터 분석기사 실기267페이지 insurance_trian_10.csv데이터를이용한 문제 질문입니다. macro-f1평가지표에 따라 평가한다고 되어있는데 269페이지에 되어있는 도움말에서 f1값을 꼭 구하고 그다음에 trian<-read.csv("insurance_train10.csv")를 해야하는건가요? 아니면 274~275페이지 처럼 이런식으로 macro-f1값을 구하고 따로 집어넣는건가요? 문제의 포인트가 이해가 가지를 않습니다 ㅜ.ㅜ

두번째 문제는 293페이지 model_4 에서 knn를 하려고 했는데 이런 오류가 반복해서 뜹니다

Warning in preProcess.default(thresh = 0.95, k = 5, freqCut = 19, uniqueCut = 10,  :
  These variables have zero variances: RestaurantAnche Vivolo, RestaurantBaraonda, RestaurantBello, RestaurantBice, RestaurantBond?Ristorante?,37,20,17,19,0,40.7401891,-73.9939379
109,Casa Mia", RestaurantBravo Gianni, RestaurantBruno Ristorante, RestaurantCafe Trevi, RestaurantCaffe Cielo, RestaurantCampagna, RestaurantCasa Di Meglio, RestaurantCastellano, RestaurantCinque Terre, RestaurantCoco Pazzo Caf?,49,20,19,19,1,40.7259028,-74.0015739
34,DeGrezia", RestaurantDa Antonio Ristorante, RestaurantDa Tommaso, RestaurantDaniella Ristorante, RestaurantEcco-la, RestaurantEnoteca i Trulli, RestaurantFELIDIA, RestaurantFino, RestaurantGennaro, RestaurantGiovanni, RestaurantGrifone, RestaurantIl Gatto & La Volpe, RestaurantIl Nido, RestaurantIl Riccio, RestaurantIl Tinello, RestaurantIl Vagabondo, RestaurantIl Valentino, RestaurantJoanna's, RestaurantLa Grolla, Ristorante, RestaurantLe Madri, RestaurantLusardi's, RestaurantMangia e Bevi, RestaurantMediterraneo, RestaurantNanni's, RestaurantNo [... truncated]

댓글 1개

emhu8640
2023년 06월 01일 01:09

교수님

안녕하세요.

이패스비즈 ADsP / 빅데이터분석기사 강사 김계철 입니다.

질문 내용 답변 드립니다.

1.빅분기 실기 시험에서 제공하는 데이터셋은 다음과 같습니다. x_train(입력=독립변수),y_train(타켓=종속)을 통해서 학습하고 x_test을 통해서 분류 또는 회귀평가의 예측값을 확률 또는 카테코리, 연속형 값으로 제출하는 과정이 작업형 제2유형입니다. 데이터셋에는 x_test의 정답이라 할 수 있는 y_test 값이 없습니다. 따라서 수험생이 분류 또는 회귀모형의 예측값에 대한 macro-f1 또는 roc_auc 알수가 없습니다. 따라서 x_train,y_train 데이터셋을 가지고 간접적으로 확인할 뿐입니다.

도움말에는 있는 macro-f1은 평가지표를 이해하기 위한 배경지식입니다. 참조만 해주세요

2. 해당 문구는 오류 메세지가 아니고 경고 메세지(확인해달라는 메세지)입니다. The R package caret 기능 중 열변수의 분산이 0인 컬럼은 제거해 달라는 문구입니다. 최적의 파라미터 tuneGrid=param_grid,옵션을 사용하다 보면 자주 해당 문구가 올라옵니다. 사용하는대는 문제가 없습니다. 보내주신 해당 코딩을 동일하게 구현해 봤습니다. 제 rstudio에는 문제 없이 실행되고 있습니다.

> model_4 <- train(Price ~ ., nyc, method="knn",
+ preProcess=c("center", "scale"),
+ tuneGrid=param_grid, trainControl=tc,
+ metric="Rsquared")
> model_4
k-Nearest Neighbors

165 samples
4 predictor

Pre-processing: centered (4), scaled (4)
Resampling: Bootstrapped (25 reps)
Summary of sample sizes: 165, 165, 165, 165, 165, 165, ...
Resampling results across tuning parameters:

k RMSE Rsquared MAE
1 8.039355 0.3657465 6.369667
2 7.429888 0.4198568 5.875203
3 6.930742 0.4685051 5.482477
4 6.669260 0.4952633 5.248131
5 6.569329 0.5050704 5.132935
6 6.518741 0.5081300 5.056530
7 6.445942 0.5154434 4.994814
8 6.398533 0.5208936 4.950830
9 6.368258 0.5236189 4.923353
10 6.337721 0.5272718 4.883437
11 6.318150 0.5305031 4.854127
12 6.259288 0.5398501 4.795129
13 6.270172 0.5390892 4.813947
14 6.279278 0.5392729 4.830075
15 6.270158 0.5421974 4.831107
16 6.276004 0.5424585 4.843821
17 6.278883 0.5423094 4.850809
18 6.294924 0.5413721 4.871345
19 6.295254 0.5424940 4.874900
20 6.291925 0.5445271 4.884312

Rsquared was used to select the optimal model using
the largest value.
The final value used for the model was k = 20.

감사합니다.

0

댓글을 남기려면 로그인하세요.

원하는 것을 찾지 못하셨나요?

질문하기