일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- OS
- 재귀
- programmers
- instaloader
- Stack
- PANDAS
- db
- Python
- kmu
- LSTM
- GIT
- C++
- 회귀
- python3
- 데이터베이스
- gan
- Seq2Seq
- Regression
- 머신 러닝
- 국민대학교
- 국민대
- googleapiclient
- 정렬
- Heap
- 스택
- 프로그래머스
- SQL
- 파이썬
- machine learning
- 운영체제
- Today
- Total
목록Seq2Seq (3)
정리 노트

Seq2Seq with Attention 디코더는 인코더의 모든 출력을 참고합니다. 인코더에서 나온 hidden state 값들을 모두 출력 값으로 별도의 배열 같은 곳에 기록합니다. 디코더에서 매번 hidden state를 갱신할 때 바로 이전의 hidden state값과 인코더의 hidden state값들과 각각 행렬 곱을 수행해서 'energy'라는 값을 생성합니다. 'energy'는 현재 어떤 단어를 출력하기 위해서 source 문장의 어느 단어에 집중해야 하는지 수치화해 표현한 값입니다. energy값에 softmax를 취해 확률 값을 구하고 가중치를 반영해서 가중치 값을 hidden state에 곱한 것을 각각의 비율의 맞게 더해준 weighted sum 벡터를 매번 반영합니다. Transfo..
Attention query와 비슷한 값을 가진 key를 찾아 value를 얻는 과정입니다. 여기서 key, value는 encoder의 각 time-step 별 출력(각 source language의 단어 또는 문장)을 의미하고 query는 현재 time-step의 decoder 출력(target language로 번역된 단어 또는 문장)을 의미합니다. 참고: https://hazel01.tistory.com/45 Attention 아키텍처 하나의 Attention은 전체 토큰에 대한 출력을 입력으로 받는 FC의 파라미터를 공유해 사용합니다. 전체 encoder의 출력 + 현재 decoder의 hidden이 decoder의 hidden으로 되고 이게 실제 Attention의 값입니다. import to..
언어 모델 문장(시퀀스)에 확률을 부여하는 모델로 특정 상황에서의 적절한 문장이나 단어를 예측할 수 있습니다. ex) P(난 널 사랑해 | I love you) > P(난 널 싫어해 | I love you) P(먹었다 | 나는 밥을) > P(싸웠다 | 나는 밥을) 하나의 문장(W)은 여러 단어들(w)로 구성된다. P(W) = P(w1, w2, w3, ..., wn) (n은 자연수) 그래서 이를 결합 확률로 표현할 수 있고 연쇄 법칙을 적용할 수 있습니다. 연쇄 법칙 P(w1, w2, w3, ..., wn) = P(w1) * P(w2 | w1) * P(w3 | w1, w2), ..., P(wn | w1, w2, ..., w(n-1)) (n은 자연수) ex) P(친구와 친하게 지낸다) = P(친구와, 친하게..