Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 암풀다운
- 코드
- github
- 덤벨운동
- 운동
- 논문 리뷰
- 바프준비
- 티스토리챌린지
- 체스트프레스
- 오블완
- Knowledge Tracing
- 프로그래머스
- PT 운동
- 개인 피티
- 하체운동
- 다이어트
- 바디프로필
- 코테 공부
- 개인 운동
- 개발자
- 영화 비평
- 연구 시작
- 데드리프트
- pytorch
- 건강
- 디버깅
- 개인 PT
- 코테준비
- 코딩테스트
- 라섹 수술 후기
Archives
- Today
- Total
치즈의 AI 녹이기
backward 속도가 느린 문제 해결하기. 본문
커스터마이징 한 multihead attention class를 적용했을 때 다른 것들 보다도 유독 backward 속도가 느려 원인을 찾는 중이다. 원래대로라면 0.02 초 정도가 나와야 한다.
1. 모델 구조상 학습할 파라미터가 많아서 그런 것인가?
유일한 구조상 차이라고 한다면, RelativePosition이라는 클래스 두 개를 새롭게 정의한 것이다.
해당 클래스 내부의 파라미터라곤, max_length, head_dim 크기의 embedding matrix 하나. 이 또한 크기가 크지 않다고 판단했다.
2. 모든 모델 내 텐서가 같은 device에 할당되어 있는가? (cpu에 할당되어 있는 텐서가 있는가?)
.get_device()로 의심이 갈만한 요소들을 체크했으나, 문제 없었다.
3. 계산이 오래 걸릴만한 부분이 어디인지 파악하기 위해 의심가는 부분을 다 넘겼더니 다시 backward 시간이 정상적으로 돌아오는 것을 보아, 이부분에 문제가 있다는 것을 확인하였다.
'인공지능 대학원생의 생활 > 딥러닝 (Deep-learning)' 카테고리의 다른 글
Transformer Positional Encoding 방법 유형 정리 (0) | 2022.09.27 |
---|---|
Contrastive Learning for Knowledge Tracing (0) | 2022.09.15 |
Improving Knowledge Tracingwith Collaborative Information (0) | 2022.09.15 |
NDCG: 아이템 랭킹 추천에서 사용되는 평가 지표 (0) | 2022.04.26 |
연구실 미팅 후 일기 (0) | 2021.08.30 |