일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- python3
- LSTM
- 스택
- 정렬
- 운영체제
- instaloader
- 프로그래머스
- SQL
- C++
- programmers
- gan
- 국민대학교
- machine learning
- 회귀
- Regression
- OS
- Seq2Seq
- Python
- GIT
- db
- googleapiclient
- Stack
- 파이썬
- 국민대
- kmu
- PANDAS
- 재귀
- 머신 러닝
- Heap
- 데이터베이스
Archives
- Today
- Total
목록자카드 유사도 (1)
정리 노트
Min-Hashing
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 왜 필요한가? 문서함에 수많은 문서가 있고, 각 문서에는 많은 단어들이 적혀있다고 가정합시다. 이 문서함에서 우리가 가지고 있는 하나의 문서와 가장 유사도가 높은 문서를 찾아봅시다. 이때 가장 먼저 떠오르는 방법은 각 문서와 하나씩 유사도를 계산하는 방법일 것입니다. 이 포스트에서 유사도 계산할 때 자카드 유사도를 사용합니다. 자카드 유사도의 계산 식은 아래와 같습니다. 문서함에 있는 문서의 개수를 d, 문서에 적힌 평균 단어 개수를 n이라고 하면, 자카드 유사도 계산의 시간 복잡도가 O(N)이므로 총 O(nd)의 시간 복..
개념 정리
2023. 6. 8. 23:14