[AI] 경사하강법 (2)

Notice

Recent Posts

Recent Comments

Tags more

관리 메뉴

나의 작은 valley

Computer Science/[인공지능]

붕옥 아이젠 2023. 2. 7. 18:47

728x90

# norm: L2-노름을 계산하는 함수
# ir = 학습률, T=학습횟수
for t in range(T):
	error = y - x @beta
    grad = - transpose(x) @error
    beta -= ir*grad

>> 미분가능하고 볼록한 함수에 대해서 적절한 학습률과 학습횟수가 선택되었다는 가정하에 수렴이 보장되어 있다.

- 확률적 경사하강법을 사용한다.

- SGD를 통해 최적화를 한다.

>> 모든 데이터를 활용하여 업데이트를 하는 것이 아닌 1개 혹은 일부를 이용하여 업데이트를 한다.

기존에 무어-펜로즈 역행렬을 이용하여 선형회귀모델을 구했었는데, 이는 경사하강법으로도 구해볼 수 있다.

경사하강법(GD)은 전체 데이터를 이용해서 목적식의 gradient 벡터를 계산한다.

반면, SGD는 미니배치를 가지고 gradient 벡터를 계산한다. 미니배치는 확률적으로 선택된 데이터 묶음이므로 매 step마다 다른 미니배치를 사용할 때마다 목적식의 모양이 점점 바뀌게 된다.

오늘날 딥러닝의 데이터는 굉장히 많고 사이즈도 크기 때문에, 하드웨어상 경사하강법에 한계가 있다. 일반적인 경사하강법을 사용하여 모든 데이터를 업로드하면, Out-of-memory 오류가 뜨는 경우가 생긴다.

따라서 이러한 점에서 SGD는 필수적인 알고리즘으로 사용되고 있다. 미니배치로 쪼갠 데이터를 활용하여 경사하강법을 업데이트할 수 있으므로 좀 더 빠른 연산이 가능하고, 하드웨어의 한계를 극복해 GPU로 병렬연산하는것이 가능해진다.

728x90

'Computer Science/[인공지능]' Related Articles

Comments