일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 하체운동
- 건강
- 코테 공부
- 덤벨운동
- 코드
- 바디프로필
- 운동
- 프로그래머스
- 코딩테스트
- 코테준비
- 바프준비
- 티스토리챌린지
- pytorch
- 데드리프트
- 개인 피티
- 영화 비평
- 연구 시작
- 개인 PT
- 암풀다운
- pip install
- 다이어트
- 논문 리뷰
- github
- 개인 운동
- PT 운동
- 개발자
- 오블완
- Knowledge Tracing
- 체스트프레스
- 디버깅
- Today
- Total
목록인공지능 대학원생의 생활/딥러닝 (Deep-learning) (13)
치즈의 AI 녹이기
커스터마이징 한 multihead attention class를 적용했을 때 다른 것들 보다도 유독 backward 속도가 느려 원인을 찾는 중이다. 원래대로라면 0.02 초 정도가 나와야 한다. 1. 모델 구조상 학습할 파라미터가 많아서 그런 것인가? 유일한 구조상 차이라고 한다면, RelativePosition이라는 클래스 두 개를 새롭게 정의한 것이다. 해당 클래스 내부의 파라미터라곤, max_length, head_dim 크기의 embedding matrix 하나. 이 또한 크기가 크지 않다고 판단했다. 2. 모든 모델 내 텐서가 같은 device에 할당되어 있는가? (cpu에 할당되어 있는 텐서가 있는가?) .get_device()로 의심이 갈만한 요소들을 체크했으나, 문제 없었다. 3. 계산이..
이 글이 도움이 되셨다면, 아래에 댓글 부탁드립니다. If this page was helpful, please leave a comment.
추천은 크게 두 가지 방식으로 나누어지며, 각각의 평가지표가 다르다. 1. Rating oriented: 아이템에 대한 평점 예측 -> MSE, RMSE, Accuracy, Precision, Recall, F1-score 2. Ranking oriented: 아이템의 순위 예측 -> MRR. MAP, NDCG 이번 글에서는 Ranking oriented recommendation metric에 대해서 주로 다룬다. 해당 지표는 recommended item 중 relevant item이 얼마나 차지하는 지 측정하는 지표이다. relevant item : 사용자가 실제로 선호하는 아이템 recommended item : 추천된 아이템 1. Precision N: 추천된 Top N 아이템 중에 실제 관련된..
1. 딥러닝 모델의 input으로 들어가는 데이터의 sequence length는 하나의 하이퍼파라미터다. RNN 기반 모델처럼 길이가 길어질수록 성능에 영향을 주는 모델일 수도 있고, Transformer 기반 모델처럼 길이의 변화가 성능에 영향을 미치지 않는 모델일 수도 있다. 따라서 각 모델에서 성능이 가장 높은 sequence length가 있다면, 그것으로 고정하여 실험을 진행하면 된다. 2. attention mechanism을 적용한 모델은 그렇지 않은 모델보다 더 일반화된 모델이다. 따라서 (학습이 잘 되었음을 전제하였을 때) 반드시 성능이 더 좋아야 한다. 만약 성능이 좋지 않은 결과가 나왔다면 원인 분석으로 해볼 수 있는 것이 다음과 같다. 1) 오버피팅의 문제인지 확인 2) 초기화의 ..
논문을 보다보면, Experiment Part에서 다음과 같은 실험 표를 많이 볼 수 있었습니다. 따라서 오늘은 Ablation Study에 대해 알아보겠습니다. "Ablate"의 사전적 의미를 해석해 보면, '제거하다'라는 뜻이 있습니다. 이처럼 논문에서 자주 등장하는 용어인 Ablation이란, 논문에서 제안한 딥러닝 모델 내에 적용되었던 여러 Method들을 하나씩 더해보거나 빼 본 후 성능을 비교하는 분석 방법입니다. 이렇게 비교해 봄으로써 해당 Method의 효과를 확인할 수 있습니다. 예를 들어, 위 Table 5에서는 RKT라는 모델을 제안하면서 PE, RE, TE라는 3가지 Method를 적용합니다. 따라서 Ablation Study에서는 PE, RE, TE를 각각 빼보면서 실험한 결과를 ..
Batch Gradient Descent back propagation을 할 때, 모든 데이터 n개에 대해서 m개의 weight에 대해 진행한다. 결국, 1 epoch마다 nxm번의 미분 계산이 필요하다. n과 m이 수십만 개 단위이기 때문에 계산량이 굉장히 많고, 따라서 좀 더 효율적인 optimizing 방식을 찾게 된다. Stochastic Gradient Descent 한개의 데이터마다 한번씩 weight 업데이트. 장점: 수렴속도가 batch gradient descent가 빠름. 단점: 데이터마다 차이가 크면 loss가 튐. Mini-batch Gradient Descent mini-batch 사이즈만큼의 데이터마다 한번씩 weight 업데이트. 장점: 수학적으로 batch gradient d..