Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 코테준비
- 라섹 수술 후기
- 암풀다운
- 체스트프레스
- 논문 리뷰
- 코드
- 하체운동
- 바프준비
- 덤벨운동
- 코딩테스트
- 바디프로필
- pytorch
- Knowledge Tracing
- 운동
- 개인 운동
- 코테 공부
- 개인 PT
- 건강
- 데드리프트
- 개발자
- 연구 시작
- 개인 피티
- github
- 디버깅
- 다이어트
- 티스토리챌린지
- 프로그래머스
- 오블완
- PT 운동
- 영화 비평
Archives
- Today
- Total
치즈의 AI 녹이기
Knowledge Distillation 본문
Knowledge Distillation, 지식 증류란,
Teacher Network로부터 추출(증류)한 지식을 Student Network로 transfer하는 과정을 말한다.
등장 배경
이 방법론은 모델 배포(model deployment)에서 기원하였다.
높은 성능을 갖지만 용량, 예측시간의 효율성이 떨어지는 모델(Teacher Network)과
Teacher Network보다 상대적으로 성능은 낮지만 용량, 예측시간의 효율성이 있는 모델(Student Network)이 있을때,
Teacher가 가진 장점을 Student Network에 전달하는 방법을 고안한 것이다.
방법
1) Soft Label
classification 예측 단계에서 softmax를 통과해 나온 확률분포가 예를 들어 다음과 같다고 하자.
개 | 소 | 고양이 | 오리 |
0.7 | 0.08 | 0.2 | 0.02 |
이때, 정답 class(개)을 제외한 class(소, 고양이, 오리)에 대한 확률 값이 모델이 갖고 있는 '지식'이라고 간주한다.
따라서 이러한 지식을 무시하지 않기 위해 제외한 class 확률 값들이 너무 작아지지 않도록 softmax temperature를 적용한다.
2) Distillation loss
먼저 teacher model(T)을 학습한 후, 손실함수를 이용하여 T가 학습한 지식을 student model(S)에 넘긴다.
'인공지능 대학원생의 생활 > 구글링' 카테고리의 다른 글
Permission denied (0) | 2021.12.18 |
---|---|
모델 학습을 개선하는 4가지 테크닉 (0) | 2021.11.25 |
Beam Search (0) | 2021.10.28 |
Git에 requirements.txt 생성하기 (0) | 2021.07.27 |
BERT와 RoBERTa의 차이점 (0) | 2021.07.25 |