일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Heap
- 프로그래머스
- db
- gan
- OS
- python3
- Stack
- 운영체제
- programmers
- googleapiclient
- 국민대학교
- 파이썬
- 회귀
- machine learning
- LSTM
- 데이터베이스
- kmu
- SQL
- Regression
- Seq2Seq
- GIT
- Python
- instaloader
- 머신 러닝
- 재귀
- 국민대
- PANDAS
- 정렬
- 스택
- C++
- Today
- Total
목록코사인 유사도 (2)
정리 노트
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 이전의 포스트에서 자카드 유사도로 문서 간의 유사도를 계산했고, LSH(Local Sensitive Hashing)를 통해 탐색 속도를 높였습니다. 유사도를 계산할 때 코사인 유사도를 사용한다면, LSH도 이에 맞게 바뀌어야 합니다. 코사인 유사도에 대한 설명은 제가 저번에 적었던 포스트의 마지막 부분을 참고하시면 됩니다. 따라서 이번 포스트에서 코사인 유사도를 사용할 때 LSH가 어떻게 이루어지는지 알아보겠습니다. Bag of Words 알아보기 전에 문서를 표현했던 방법에 대해 다시 한번 봅시다. 이전 포스트에서처럼 문..
순차 데이터(자연어)의 표현 법 저번에 봤던 CNN, GAN 같은 경우에 이미지를 벡터로 변환해서 학습이 이루어졌습니다. 자연어를 다룰 때에도 똑같습니다. 자연어를 벡터로 변환시킵니다. 벡터는 벡터끼리 연산이 가능합니다. 이 특징을 바꿔서 말하자면 자연어와 자연어 사이의 연산이 가능하게 된다는 것입니다. 1. One-hot 인코딩 단어를 수치적으로 표현하는 가장 기본적인 방법입니다. 예를 들어 가지고 있는 전체 단어 목록이 아래와 같다고 합시다. 대한민국 독립 만세 일제 광복절 스마트폰 애국 이때 "광복절"이라는 단어는 다음과 같은 벡터로 표현이 가능해집니다. 대한민국 독립 만세 일제 광복절 스마트폰 애국 0 0 0 0 1 0 0 => [0, 0, 0, 0, 1, 0, 0] 지금 같은 상황이면, 단어 하..