일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Selection Sort
- GPT-3
- 선택정렬
- Binary Search Proof
- BERT
- Proof Selection Sort
- ChatGPT 설명
- 선택정렬 증명
- binary search
- 이진탐색 증명
- haar matrix
- chatGPT
- 이진탐색
- Discrete Wavelet Transform
- Today
- Total
목록AI Study (14)
Just Do IT
0. 들어가며 DDPM 논문을 읽다보면 다음과 같은 말이 등장합니다. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics 처음 DDPM을 읽었을 때 무슨 뜻인지 모르고 그냥 넘어갔던 기억이 있습니다. 본 논문에서는 Denoising score matching with Langevin dynamics 방법론을 다룹니다. 해당 방법을 이해하고 이 포스팅을 끝까지 보시면 결국 DDPM이 Score-..
0. 들어가며 제목은 모든 수식을 알아본다고 호기롭게 썼으나 제가 이해한 만큼만 이 포스팅에 담길 예정입니다. 학습이 어떤식으로 이루어 지는지에 초점을 맞추기 보다는 왜 loss가 이런 식으로 구성되었고, Autoencoder를 사용한 이유 등 남들은 조금 궁금해 하지 않았던 내용도 다룰 예정입니다. Autoencoder는 아주 예전부터 등장했던 아이디어 입니다. 보통 차원 축소나 denoising등을 위하여 많이 쓰였으나 Kingma는 이 구조를 Likelihood들 approximation하는데 사용합니다. 위 그림에서 보면 Variational Autoencoder는 Explicit density안의 approximate density에 분류되어 있습니다. 즉, 모든 Generative model의..
들어가며 딥러닝을 공부하며 Optimizer에 대해 알아갈 때 쯤 위에 보이는 그림을 보게됩니다. 저 또한 SGD를 배우기 시작하며 위 그림을 봤고, Adam을 이용하면서 한번 더 보게 됐던 것 같습니다. 당시에는 Optimizer를 제외 하고도 배울게 너무 많았기 때문에 SGD와 Adam 사이의 여러 방법론들은 무시한 채 넘어갔었는데 이번 기회에 전체적인 흐름을 공부하면서 최근에 많이 쓰이는 AdamW까지 정리해보려고 합니다. 본 포스팅은 AdamW까지 가는 흐름을 설명하기 위해 작성하기 때문에 AdaDelta와 Nadam은 포스팅에서 제외하도록 하겠습니다. Normal equation Normal equation이란 regression을 진행할 때 오차를 최소화하는 파라미터 $\theta$를 찾아내는..
들어가며 Deep Belief Network(이하 DBN)는 제한된 볼쯔만 머신이라고도 불리는 Restricted Boltzmann Machine(이하 RBM)을 여러 층 쌓아 학습시킨 모델로 2006년 Hinton 교수가 연구하여 논문이 나온 Generative model(생성모델)입니다. 현재는 RBM의 방식은 잘 사용하지 않지만 현재의 딥러닝 구조와 상당히 유사하고 RBM을 여러층 쌓은 Deep Belief Network은 AutoEncoder의 전신이라고 불릴 정도로 구조와 역할이 닮았습니다. Neural Network가 지금처럼 활발히 연구가 되기전 weight의 초기화는 모델 학습에 있어서 엄청나게 중요한 요소였습니다. (물론 현재에도 마찬가지로 weight의 초기화는 굉장히 중요한 요소지만,..
1. State Value Function State Value Function $ V_\pi(s) $는 state s에서 부터 끝까지 갔을 때의 expected return을 말합니다. $$ v_\pi(s) = E_\pi[G_t|S_t=s] $$ 2. Action Value Function Action Value Function $ q_\pi(s,a) $는 state s에서 action a를 선택하고 끝까지 갔을 때의 expected return을 말합니다. $$ q_\pi(s,a) = E_\pi[G_t|S_t=s,A_t=a] $$ 3. Return 여기서의 return은 time t에서 받을 수 있는 total discounted reward를 말합니다. $$ G_t = R_{t+1} + \gamma..
1. Stochastic(random) Process Stochastic Process는 time(St)로 Index되어지는 random variables들의 collection이라고 하고 주로 환경을 설명하기 위해 사용되는 개념입니다. 한글로 하면 시간의 흐름에 따라 변하는 확률 변수들의 모음이라고 할 수 있습니다. 확률 변수들은 시간에 따라 변화하며 각각의 상태나 상황에서 다양한 결과를 생성할 수 있습니다. 예를들어 환경이 Stochastic Process인 경우, 로봇의 움직임이나 주변 조건이 항상 동일하지 않습니다. 따라서 로봇이 같은 명령을 받더라도 바람이나 센서등에 의해 로봇의 움직임이 랜덤하게 변할 수 있습니다. 2. State Transition Probability Matrix state..
0. 들어가며일론머스크가 공동창업자로 있었던 OpenAi에서 22년 11월 30일날 베타테스트를 시작한 ChatGPT가 연일 이슈입니다. GPT-3가 나왔을 때는 AI를 공부하던 사람들과 업계에서 큰 이슈가 되었다면 이번 ChatGPT는 일반 대중들에게 까지도 소개가 될 만큼 대단한 영향력을 끼치고 있습니다. 그래서 이번 기회에 GPT의 역사를 쉽게 설명해서 정리해보려고 합니다. 1. GPT란?ChatGPT라는 이름을 두 단어로 쪼개보면 Chat과 GPT로 쪼갤 수 있습니다. 말그대로 채팅에 특화되어있는 GPT모델 이라는 뜻입니다. GPT모델은 OpenAI가 개발한 Pre-Trained 모델로 transformer의 decoder만 사용한 구조로 되어있습니다. GPT는 Generative Pre-trai..
들어가며 이번 포스팅에서는 흔히 Vanilla GAN 혹은 Simple GAN이라고 불리는 가장 기본적인, 논문에서 제시한 알고리즘을 바탕으로 구현을 해볼 예정입니다. 가장 심플한 GAN이기 때문에 하이퍼 파라미터에 따라, 초기 noise에 따라 학습이 잘 안되기도 하고 나름 잘되기도 합니다. Pytorch lightning을 이용해서 구현해보도록 하겠습니다. Pytorch lightning은 Pytorch 프레임워크를 베이스로 보일러 플레이트를 최대한 제거하고 공통된 스타일의 템플릿을 제공해주는 역할을 합니다. 보일러 플레이트란?https://charlezz.medium.com/%EB%B3%B4%EC%9D%BC%EB%9F%AC%ED%94%8C%EB%A0%88%EC%9D%B4%ED%8A%B8-%EC%BD..
들어가며 상당수의 부분을 Time Travler님의 https://89douner.tistory.com/329 글에서 참고했습니다. 논문에 대해 굉장히 깊은 수준으로 다루십니다. 5-1. GAN (Part1. GAN architecture) 안녕하세요. 이번 글에서는 최초의 GAN 논문인 "Generative Adversarial Nets"을 리뷰하려고 합니다. 우선, GAN이라는 모델이 설명할 내용이 많다고 판단하여 파트를 두 개로 나누었습니다. Part1에서는 GAN a 89douner.tistory.com Intractable Problem 전에 논문 리뷰를 진행할 때 difficulty of approximating many intractable probabilistic computations를 ..
들어가며 AI학문의 대부 Yoshua Bengio의 제자인 Ian Goodfellow가 만들어낸 정말 기발한 아이디어가 녹아있는 논문이다. 처음 GAN의 아이디어를 들었을 때 '어떻게 이런 생각을 할 수 있었을까'라는 생각이 들 정도로 충격을 받았던 기억이 있다. GAN은 논문이 처음나온 2014년부터 지금까지 꾸준히 연구되고 성장하는 분야로 noise로 시작해서 새로운 이미지를 '생성' 해내는 창의적인 모델이다. 먼저 이 글에서는 GAN의 기본 개념을 rough하게 다뤄보려고 한다. VAE와의 차이, KL divergence와 JS divergence 등등 수학적인 이론은 따로 다룰 예정이다. 0. Abstract 이 논문에서는 동시에 두가지 모델을 train하는 방법론을 제시한다. 그 모델은 data..