치즈의 AI 녹이기

연구실 미팅 후 일기 본문

인공지능 대학원생의 생활/딥러닝 (Deep-learning)

연구실 미팅 후 일기

개발자 치즈 2021. 8. 30. 16:37

1. 딥러닝 모델의 input으로 들어가는 데이터의 sequence length는 하나의 하이퍼파라미터다.

RNN 기반 모델처럼 길이가 길어질수록 성능에 영향을 주는 모델일 수도 있고,

Transformer 기반 모델처럼 길이의 변화가 성능에 영향을 미치지 않는 모델일 수도 있다.

따라서 각 모델에서 성능이 가장 높은 sequence length가 있다면, 그것으로 고정하여 실험을 진행하면 된다. 

 

2. attention mechanism을 적용한 모델은 그렇지 않은 모델보다 더 일반화된 모델이다. 따라서 (학습이 잘 되었음을 전제하였을 때) 반드시 성능이 더 좋아야 한다. 

만약 성능이 좋지 않은 결과가 나왔다면 원인 분석으로 해볼 수 있는 것이 다음과 같다.  

1) 오버피팅의 문제인지 확인

2) 초기화의 문제인지 확인 

3) 애초에 최적화하기 어려운 문제인지 확인

 

3. 무작정 먼저 시각화하기 보다는 정량적 증명을 해보이는 것이 필요하다.

소수의 샘플만을 시각화 하는 것은 일반화의 오류에 빠질 수 있다.

샘플링을 한다면 세부적으로 설계를 하는 것이 필요하다.

두 모델에 성능 차이가 보인다면, 각 모델에서 맞추는 데이터와 틀리는 데이터 샘플이 비슷한지 확인해 보는 게 필요하고

attention mechanism이 잘 적용되는지를 확인해보고 싶다면, sequence 양상이 비슷한 데이터 샘플들을 추출하여 비교해 볼 수 있다.