일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Binary Search Proof
- 이진탐색
- haar matrix
- 이진탐색 증명
- 선택정렬 증명
- GPT-3
- chatGPT
- Proof Selection Sort
- 선택정렬
- BERT
- binary search
- ChatGPT 설명
- Discrete Wavelet Transform
- Selection Sort
- Today
- Total
목록분류 전체보기 (42)
Just Do IT
0. 들어가며 DDPM 논문을 읽다보면 다음과 같은 말이 등장합니다. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics 처음 DDPM을 읽었을 때 무슨 뜻인지 모르고 그냥 넘어갔던 기억이 있습니다. 본 논문에서는 Denoising score matching with Langevin dynamics 방법론을 다룹니다. 해당 방법을 이해하고 이 포스팅을 끝까지 보시면 결국 DDPM이 Score-..
0. 들어가며 제목은 모든 수식을 알아본다고 호기롭게 썼으나 제가 이해한 만큼만 이 포스팅에 담길 예정입니다. 학습이 어떤식으로 이루어 지는지에 초점을 맞추기 보다는 왜 loss가 이런 식으로 구성되었고, Autoencoder를 사용한 이유 등 남들은 조금 궁금해 하지 않았던 내용도 다룰 예정입니다. Autoencoder는 아주 예전부터 등장했던 아이디어 입니다. 보통 차원 축소나 denoising등을 위하여 많이 쓰였으나 Kingma는 이 구조를 Likelihood들 approximation하는데 사용합니다. 위 그림에서 보면 Variational Autoencoder는 Explicit density안의 approximate density에 분류되어 있습니다. 즉, 모든 Generative model의..
0. 들어가며 일기쓰는 것도 귀찮아 하고 시간 없다는 핑계로 블로그 포스팅이나 깃허브 커밋도 잘 안하던 제가 작년에 마음먹은게 있다면 '나를 뒤돌아 보는 시간을 꼭 갖자' 였습니다. 사실 지금까지 삶을 돌이켜보면 항상 흘러가는대로 살았던 것 같습니다. 그 상황 상황에서는 최선을 다했지만 '내가 어떤 것을 이뤘고 어떤 실패를 했는가?' 라는 질문에는 정리 되어있지 않은 기억 때문에 쉽게 답을 내릴 수 없었습니다. 그게 뭐가 중요하냐 라고 생각할 수도 있지만 면접이나 포트폴리오를 준비하면서 뼈저리게 느낀 것은 '내 생각과 경험을 정리하는 것은 어렵다' 였습니다. 면접관이 던진 질문에 대해서 조리있게 대답하려면 미리 해당 질문에 대한 답이 어느정도 머리에 정리되어 있어야 하고 포트폴리오를 만들 때에도 내가 어..
들어가며 딥러닝을 공부하며 Optimizer에 대해 알아갈 때 쯤 위에 보이는 그림을 보게됩니다. 저 또한 SGD를 배우기 시작하며 위 그림을 봤고, Adam을 이용하면서 한번 더 보게 됐던 것 같습니다. 당시에는 Optimizer를 제외 하고도 배울게 너무 많았기 때문에 SGD와 Adam 사이의 여러 방법론들은 무시한 채 넘어갔었는데 이번 기회에 전체적인 흐름을 공부하면서 최근에 많이 쓰이는 AdamW까지 정리해보려고 합니다. 본 포스팅은 AdamW까지 가는 흐름을 설명하기 위해 작성하기 때문에 AdaDelta와 Nadam은 포스팅에서 제외하도록 하겠습니다. Normal equation Normal equation이란 regression을 진행할 때 오차를 최소화하는 파라미터 $\theta$를 찾아내는..
들어가며 Deep Belief Network(이하 DBN)는 제한된 볼쯔만 머신이라고도 불리는 Restricted Boltzmann Machine(이하 RBM)을 여러 층 쌓아 학습시킨 모델로 2006년 Hinton 교수가 연구하여 논문이 나온 Generative model(생성모델)입니다. 현재는 RBM의 방식은 잘 사용하지 않지만 현재의 딥러닝 구조와 상당히 유사하고 RBM을 여러층 쌓은 Deep Belief Network은 AutoEncoder의 전신이라고 불릴 정도로 구조와 역할이 닮았습니다. Neural Network가 지금처럼 활발히 연구가 되기전 weight의 초기화는 모델 학습에 있어서 엄청나게 중요한 요소였습니다. (물론 현재에도 마찬가지로 weight의 초기화는 굉장히 중요한 요소지만,..
최근에 겪은 여러가지 경험을 통해 성격을 좀 바꿔보자는 마음을 먹었다. 여러가지 요인이 통합적으로 작용했지만, 구글 부트캠프에서의 경험이 중요한 변수 중의 하나였다. 부트캠프에서 굉장히 motivate된 사람들과 공부하고, 똑똑한 사람들의 개발 블로그를 자주 보면서 대다수가 자신이 달성한 목표를 분기별로 정리하는 글을 작성했다는 사실을 발견했다. 물론 글 작성과 딥러닝 실력의 인과관계는 성립이 안되겠지만 일정 수준 이상의 상관관계는 있다고 생각되기 때문에 나도 작성해보려고 한다. 하지만 나는 고등학교 성격검사결과 자기반성0%로 일기를 쓰거나 나를 되돌아 보는 시간 갖는걸 절대 안하는 성격이다. 추가로 이렇게 구구절절 인스타그램에 글쓰는것도 귀찮아서 절대 안한다. 하지만 몇몇 성격에 영향을 끼치는 변수를 ..
1. State Value Function State Value Function $ V_\pi(s) $는 state s에서 부터 끝까지 갔을 때의 expected return을 말합니다. $$ v_\pi(s) = E_\pi[G_t|S_t=s] $$ 2. Action Value Function Action Value Function $ q_\pi(s,a) $는 state s에서 action a를 선택하고 끝까지 갔을 때의 expected return을 말합니다. $$ q_\pi(s,a) = E_\pi[G_t|S_t=s,A_t=a] $$ 3. Return 여기서의 return은 time t에서 받을 수 있는 total discounted reward를 말합니다. $$ G_t = R_{t+1} + \gamma..
1. Stochastic(random) Process Stochastic Process는 time(St)로 Index되어지는 random variables들의 collection이라고 하고 주로 환경을 설명하기 위해 사용되는 개념입니다. 한글로 하면 시간의 흐름에 따라 변하는 확률 변수들의 모음이라고 할 수 있습니다. 확률 변수들은 시간에 따라 변화하며 각각의 상태나 상황에서 다양한 결과를 생성할 수 있습니다. 예를들어 환경이 Stochastic Process인 경우, 로봇의 움직임이나 주변 조건이 항상 동일하지 않습니다. 따라서 로봇이 같은 명령을 받더라도 바람이나 센서등에 의해 로봇의 움직임이 랜덤하게 변할 수 있습니다. 2. State Transition Probability Matrix state..
공돌이의 수학정리노트 님의 포스팅을 보고 나름대로 정리한 글 입니다. MLE란? MLE는 Maximum Likelihood estimation이라고 하고 한국말로는 최대 우도 추정 혹은 최대 가능도 추정이라고 한다.(개인적으로 우도라는 말보다는 가능도라는 말이 훨씬 기억하기도 쉽고 직관적인 것 같다.) 데이터 셋 $X$가 존재할 때 파라미터 $ \theta $로 구성된 확률 밀도 함수(pdf)에서 최적의 $\theta$를 찾는 방법이다. MLE는 ML/DL을 공부하면 항상 나오는 개념이다. 당연하게도 우리는 데이터셋 $X$에 대하여 처음부터 $X$의 분포를 알 수 없기 때문에 이를 추정하기 위해 MLE의 개념을 대입한다. 처음 들으면 Likelihood가 뭔지도 모르고 어떻게 추정하는지도 모른다. 하나하..
0. 들어가며일론머스크가 공동창업자로 있었던 OpenAi에서 22년 11월 30일날 베타테스트를 시작한 ChatGPT가 연일 이슈입니다. GPT-3가 나왔을 때는 AI를 공부하던 사람들과 업계에서 큰 이슈가 되었다면 이번 ChatGPT는 일반 대중들에게 까지도 소개가 될 만큼 대단한 영향력을 끼치고 있습니다. 그래서 이번 기회에 GPT의 역사를 쉽게 설명해서 정리해보려고 합니다. 1. GPT란?ChatGPT라는 이름을 두 단어로 쪼개보면 Chat과 GPT로 쪼갤 수 있습니다. 말그대로 채팅에 특화되어있는 GPT모델 이라는 뜻입니다. GPT모델은 OpenAI가 개발한 Pre-Trained 모델로 transformer의 decoder만 사용한 구조로 되어있습니다. GPT는 Generative Pre-trai..