일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- pytorch
- 논문 리뷰
- 개인 피티
- github
- 프로그래머스
- 오블완
- 코테준비
- 운동
- 연구 시작
- 체스트프레스
- 코테 공부
- Knowledge Tracing
- PT 운동
- 건강
- 바프준비
- 하체운동
- 개인 PT
- 개인 운동
- 데드리프트
- 티스토리챌린지
- 개발자
- 디버깅
- 코딩테스트
- 다이어트
- 영화 비평
- 암풀다운
- 바디프로필
- 코드
- 덤벨운동
- 라섹 수술 후기
- Today
- Total
목록인공지능 대학원생의 생활/구글링 (41)
치즈의 AI 녹이기

이 글을 참고하여 해결하였다. https://robot-vision-develop-story.tistory.com/30 Docker GPU[0000] ERROR 딥러닝 도커를 하다보면 docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]. ERRO[0000] error waiting for container: context canceled 이런 에러를 많이 접.. robot-vision-develop-story.tistory.com

tmux 안에서 파일을 읽거나 쓰려고 할 때 위와 같은 에러가 난다면, sudo chown -R tako:tako .

1. torch.cuda.amp 활용하기 일부 작업에 대하여 float32에서 float16으로(또는 반대) 바꾸어 각 연산을 적절한 데이터 유형과 일치시킴으로써 학습 속도를 좀 더 빠르게 할 수 있다. autocast(torch.cuda.amp와 동일)은 네트워크의 순방향 패스(forward + loss)에만 적용되어야 한다. 2. Gradient Accumulation gradient를 특정 배치 주기까지 모았다가 한번에 업데이트하여 적은 메모리 환경에서 작은 배치사이즈로 큰 배치사이즈를 사용하는 효과를 기대한다. 큰 배치사이즈를 사용함으로써 학습 시 정보의 노이즈를 제거하고 더 나은 gradient descent를 수행할 수 있다. 3. Gradient Clipping gradient explodi..

Knowledge Distillation, 지식 증류란, Teacher Network로부터 추출(증류)한 지식을 Student Network로 transfer하는 과정을 말한다. 등장 배경 이 방법론은 모델 배포(model deployment)에서 기원하였다. 높은 성능을 갖지만 용량, 예측시간의 효율성이 떨어지는 모델(Teacher Network)과 Teacher Network보다 상대적으로 성능은 낮지만 용량, 예측시간의 효율성이 있는 모델(Student Network)이 있을때, Teacher가 가진 장점을 Student Network에 전달하는 방법을 고안한 것이다. 방법 1) Soft Label classification 예측 단계에서 softmax를 통과해 나온 확률분포가 예를 들어 다음과 같..

자연어 생성에서의 Beam search와 Greedy search의 차이 준비물: 학습된 자연어 생성 모델 목표: 학습된 자연어 생성 모델을 갖고 자연어를 생성(예측) 기본적인 방법: 예측된 확률 분포에 따라 가능한 모든 아웃풋 시퀀스의 조합을 탐색. 그러나 이는 계산 비용이 크다. 따라서 이를 해결하는 방법 두 가지를 소개한다. 1. Greedy search 기본적인 Seq2Seq 모델에서 채택하는 방식. 현 시점에서 가장 확률이 높은 단어를 다음 시점의 인풋으로 넣어 아웃풋을 도출한다. 시간복잡도 측면 good, 최종 정확도 측면 bad. 각 시점마다 확률이 좀 낮아도 최종 정확도는 높아질 수 있기 때문. 2. Beam search Greedy search의 단점을 보완하여 등장. 현 시점에서 확률 ..

내 Git 코드를 다른 로컬에서 실행하면 코드 실행에 필요한 패키지를 다시 설치해야 할 일이 종종 생깁니다. 그 때마다 일일이 pip install ~~해주기엔 귀찮으니 requirements.txt를 생성하여 한 번에 설치할 수 있도록 해보겠습니다. 파일 생성은 생각보다 굉장히 간단했습니다. pip freeze > requirements.txt 위 명령어를 실행해 주면 없던 requirements.txt가 생성되는 것을 확인할 수 있습니다. 그 다음 실행하고자 하는 로컬 위치에서 아래 명령어를 입력해주면 requirements.txt 내에 들어있는 패키지들을 한번에 설치할 수 있습니다. pip install -r requirements.txt

모델 구조에 있어서 RoBERTa는 BERT와 똑같습니다. 차이점은 다음과 같습니다. RoBERTa는 BPE Tokenizer를 더 큰 단어 사전을 갖고 사용한다. RoBERTa는 dynamic word masking을 적용하고, nsp를 없앴다. RoBERTa의 하이퍼 파라미터들. 참고 링크 : https://skimai.com/roberta-language-model-for-spanish/ Tutorial: How to train a RoBERTa Language Model for Spanish - by Skim AI Tutorial on how to train and fine-tune a RoBERTa language model for Spanish from scratch. Part of a ser..