일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Stack
- gan
- Regression
- SQL
- Seq2Seq
- 머신 러닝
- Python
- 국민대학교
- Heap
- C++
- 재귀
- 스택
- 파이썬
- kmu
- instaloader
- OS
- LSTM
- db
- machine learning
- programmers
- 정렬
- 국민대
- 운영체제
- googleapiclient
- 프로그래머스
- 회귀
- GIT
- python3
- 데이터베이스
- PANDAS
- Today
- Total
목록개념 정리 (76)
정리 노트
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 문제 상황 0과 1로만 이루어져 있는 bit들의 stream이 입력으로 들어오는 상황에서 최근 들어온 k개의 bit 중 1의 개수를 구해야 하는 상황이 있다고 합시다. 가장 쉽게 생각할 수 있는 방법은 최근 k개의 bit들을 저장해서 개수를 세는 방법입니다. 새로운 bit가 들어오면 가장 예전의 bit를 버린다면 스트림으로 들어오는 입력에서 1의 개수를 셀 수 있을 것입니다. 자료구조 queue를 사용한다면 어렵지 않은 해결책입니다. 하지만, 저장해야 할 bit 용량이 너무 커서 메모리에 담을 수 없다면 어떻게 해야 할까요..
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다!Reservoir sampling은 데이터 스트림에서 임의의 개수의 데이터를 추출하는 방법입니다. 이를 이해하기 위해서는 data stream에 대해 알아야 할 필요가 있습니다.Data Stream데이터 스트림은 끊임없이 입력되는 데이터를 얘기합니다. 이 데이터는 외부에서 발생해 하나 이상의 경로를 통해 빠르게 입력이 되고, 발생 속도와 빈도가 외부에서 결정됩니다. 대표적인 예시로 은행 거래 내역, 서버 로그 데이터 등이 있습니다. 데이터 스트림에 하는 질의는 주로 2가지로 분류할 수 있습니다.1회성 질의(Ad-hoc que..
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 이전의 포스트에서 자카드 유사도로 문서 간의 유사도를 계산했고, LSH(Local Sensitive Hashing)를 통해 탐색 속도를 높였습니다. 유사도를 계산할 때 코사인 유사도를 사용한다면, LSH도 이에 맞게 바뀌어야 합니다. 코사인 유사도에 대한 설명은 제가 저번에 적었던 포스트의 마지막 부분을 참고하시면 됩니다. 따라서 이번 포스트에서 코사인 유사도를 사용할 때 LSH가 어떻게 이루어지는지 알아보겠습니다. Bag of Words 알아보기 전에 문서를 표현했던 방법에 대해 다시 한번 봅시다. 이전 포스트에서처럼 문..
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 이 포스트의 흐름은 전에 작성한 Min-Hashing 포스트에서 이어집니다. 따라서 이 포스트를 보기 전에, 아래의 포스트를 읽어보는 것을 추천합니다. Min-Hashing 이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 왜 study-note-99.tistory.com 왜 필요한가? Min-Hashing 포스트에서는 자카드 유사도 계산을 더 빠르지만 덜 정확하게 계산해서 문서 간 유사도 ..
이 포스트는 국민대학교 소프트웨어학부 '빅데이터최신기술' 강의를 듣고 요약하는 포스트입니다. 원하시는 정보가 없을 수도 있습니다. 이 점 유의 바랍니다. 오류 지적은 매우 환영합니다! 왜 필요한가? 문서함에 수많은 문서가 있고, 각 문서에는 많은 단어들이 적혀있다고 가정합시다. 이 문서함에서 우리가 가지고 있는 하나의 문서와 가장 유사도가 높은 문서를 찾아봅시다. 이때 가장 먼저 떠오르는 방법은 각 문서와 하나씩 유사도를 계산하는 방법일 것입니다. 이 포스트에서 유사도 계산할 때 자카드 유사도를 사용합니다. 자카드 유사도의 계산 식은 아래와 같습니다. 문서함에 있는 문서의 개수를 d, 문서에 적힌 평균 단어 개수를 n이라고 하면, 자카드 유사도 계산의 시간 복잡도가 O(N)이므로 총 O(nd)의 시간 복..
이 글은 스스로 공부하면서 정리한 글입니다. 오류 지적은 매우 환영합니다! Amazon Cognito Amazon cognito는 인증과 권한의 기능을 제공하는 AWS 서비스입니다. Cognito로 저희가 만들 application에 가입, 로그인 기능 등을 구현할 수 있고, 접근 권한도 설정할 수 있습니다. 여기서 간단히 인증과 권한에 대해 짚어봅시다. 인증: 사용자가 누구인지 알아보는 것 권한: 사용자가 접근할 수 있는 범위 그리고 Amazon cognito는 OAuth 2.0, OIDC, SAML을 지원합니다. 중요 개념들 Amazon cognito를 이용하기 위해 2가지의 개념을 알아야 합니다. 사용자 풀(User Pools) Amazon cognito 안에 있는 user directory로 사용..
공부하면서 정리한 글이라 오류가 있을 수 있습니다. 오류 지적 매우 환영합니다! OAuth(Open Authorization) 표준 규약 인터넷 사용자들이 아이디 혹은 비밀번호를 제공하지 않고 다른 서비스 상에서 자신의 정보를 제공할 수 있도록 하는 권한을 부여하는 것 3개의 참여자 Client: 자신의 서비스, resource server에 접속해서 정보를 가져감 Resource Owner: 서비스를 사용하는 사용자, 자원의 소유자 Resource Server: 자신의 서비스가 연동하려는 서비스(ex. Google, Facebook, Twitter, …), 제어하려는 자원을 가지고 있는 서버 OAuth를 사용하기 위해서 client는 resource server에게 사전에 승인을 받아야 합니다. 승인을..
https://www.docker.com/resources/what-container/ What is a Container? | Docker A container is a unit of software that packages code and its dependencies so the application runs quickly and reliably across computing environments. www.docker.com Docker 만약 저희가 파이썬으로 앱을 만들어서 배포하면 사용자는 파이썬과 파이썬 interpreter, 파이썬 파일들도 모두 다운로드하여야 하는 번거로움이 생깁니다. 이런 때에 Docker를 사용하면 docker container image만 다운로드하여도 앱을 실행할 수..