TIL💡/AI(7)
-
[논문] BERT: Attention Is All You Need 읽기
AI 대회 2라운드 참가 전에 이번에는 BERT에 대해서 제대로 이해하면 좋을 것 같다는 생각이 들어 논문을 처음으로 읽어봤다. 덕분에 목적과 구조에 대해 조금 더 제대로 이해할 수 있었지만, 여전히 모국어가 아닌 논문이다보니 잘 이해하지 못한 부분이 있는 것 같아서 추가적으로 한국어로 된 자료를 찾아보았다. 굉장히 유용하고 상세하게 핵심을 잘 짚어주었기에 스크랩하였다. https://nlpinkorean.github.io/illustrated-transformer/ The Illustrated Transformer 저번 글에서 다뤘던 attention seq2seq 모델에 이어, attention 을 활용한 또 다른 모델인 Transformer 모델에 대해 얘기해보려 합니다. 2017 NIPS에서 Go..
2022.07.31 -
AI RUSH 2022 참가 🏃♀️
작년에 참가했던 친구의 추천으로 지원해본 AI RUSH.. AI 기초 지식이 워낙 부족한 탓에 서류부터 될까 걱정했는데, 서류가 통과되고 코테까지 보고 나니 일사천리로 결과가 나왔다. 오늘 갑자기 코딩테스트 합격했으니 최종 참가자라는 통보를 받았다. 기쁘긴 하지만 되고나니 큰일이다라는 생각이 든다. 더욱이 다음주부터 시작하는 일이 많아서 시간이 많이 빠듯할 것 같다는 우려도 있다..ㅠㅡㅠ 아무래도 알고리즘 공부 시간을 약간 줄이고, 기초 AI 공부를 더해야겠다. 부족하지만 최선을 다해서 대회에 임할 생각이다.
2022.06.18 -
5장. 오차역전파법(Backpropagation)
앞 장에서 신경망의 가중치 매개변수의 기울기(정확히는 가중치 매개변수에 대한 손실 함수의 기울기)는 수치 미분을 사용해 구했다. 수치 미분은 단순하고 구현하기도 쉽지만 계산 시간이 오래 걸린다는 게 단점이다. 오차역전파법은 가중치 매개변수의 기울기를 효율적으로 계산하도록 한다. 순전파(forward propagation): 계산을 왼쪽에서 오른쪽으로 진행 역전파(backward propagation): 계산을 오른쪽에서 왼쪽으로 진행 역전파를 통해 미분값을 전달할 수 있고, 각 변수의 미분을 효율적으로 구할 수 있다. 연쇄 법칙(Chain Rule)💡 1학년 미적분학I 시간에 가장 열심히 공부했던 체인룰... 역전파의 계산 절차는 신호 $E$에 노드의 국소적 미분($\frac{\partial y}{\pa..
2022.06.16 -
4장. 신경망 학습
주제 학습이란? 훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것 이번 장에서는 신경망이 학습할 수 있도록 해주는 지표인 손실 함수(loss function)를 소개한다. 이 손실 함수의 결괏값을 가장 작게 만드는 가중치 매개 변수를 찾는 것이 학습의 목표이다. 이번 장에서는 손실 함수의 값을 가급적 작게 만드는 기법으로, 함수의 기울기를 활용하는 경사법을 소개한다. 기계학습은 데이터가 생명이다. 기계학습에서는 사람의 개입을 최소화하고 수집한 데이터로부터 패턴을 찾으려 시도한다. 기계학습 문제는 데이터를 훈련 데이터와 시험 데이터로 나눠 학습과 실험을 수행하는 것이 일반적이다. 우선 훈련 데이터만 사용하여 학습하면서 최적의 매개변수를 찾는다. 그런 다음 시험 데이터를 사용하여 앞서 훈련한..
2022.06.12 -
3장. 활성화 함수(Step Function)
입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 활성화 함수라 한다. 이름이 말해주듯 활성화 함수는 입력 신호의 총합이 활성화를 일으키는지를 정하는 역할을 한다. $b$는 편향을 나타내는 매개변수로 뉴런이 얼마나 쉽게 활성화되는지를 제어한다. $w$는 각 신호의 가중치를 나타내는 매개변수로 각 신호의 영향력을 제어한다. $a = b + w_1x_1 + w_2x_2$ $y = h(a)$ 활성화 함수는 임계값을 경계로 출력이 바뀌는데 이런 함수를 계단 함수라 한다. 그래서 퍼셉트론에서는 활성화 함수로 계단 함수를 이용한다라 할수 있다. 즉 활성화 함수로 쓸 수 있는 여러 후보 중에서 퍼셉트론은 계단 함수를 채용하고 있다. 그렇다면 계단 함수 이외의 함수는 무엇이 있을까? 📈 시그모이드 함수 지금까..
2022.06.08 -
딥러닝 추천 강의 기록
https://fullstackdeeplearning.com/spring2021/ Full Stack Deep Learning Hands-on program for software developers familiar with the basics of deep learning seeking to expand their skills. fullstackdeeplearning.com 기본적인 영어라서 이해 가능하다. 그래도 혹시나 놓치는 부분이 있을까봐 국내의 DL 베스트셀러인 '밑바닥부터 시작하는 딥러닝'도 주문해서, 함께 조금씩 공부해보고 싶다. 물론 커리어에 쓰려는 목적은 없고, 그냥 정말 궁금하기 때문이다. 학부 시간에 조금 배우긴 했는데 워낙 두서없이 갑자기 배우고 적용했어야 해서 힘들었다. 그걸 애매..
2022.06.05