오구의코딩모험

[ML/DL] 경사하강법(Gradient Descent), 뉴턴-랩슨법(Newton-Raphson) 본문

AI/ML,DL

[ML/DL] 경사하강법(Gradient Descent), 뉴턴-랩슨법(Newton-Raphson)

오구.cpp 2022. 12. 13. 18:32
반응형

오늘은

비용 함수를 최소화하는 매개 변수인 w b을 찾기 위한 작업,

옵티마이저(Optimizer) (=최적화 알고리즘)에 대해 알아보도록 하자!

 

 

우선

지난 포스팅에서 공부했던

선형 회귀에 적합한 옵티마이저인 경사하강법부터 살펴보자

 


 

경사하강법(Gradient Descent)

 

지난 포스팅에서

함께 공부한 비용 함수는 평균 제곱 오차(MSE)였다.

 

 

https://wikidocs.net/21670

[좌측 그림]

오차를 제곱했기 때문에

오차와 가중치 w에 대한 그래프는 위와 같이 그려질 것이다.

편향을 나타내는 b는 제외하고 생각하였다.

 

[우측 그림]

임의의 w값을 하나 설정하고

우리는 w값을 수정해나가며 cost가 최소값이 될 때를 찾는다.

그게 바로 비용 함수의 최소가 될 것이며

 

곧, 오차의 최소

 

https://wikidocs.net/21670

[좌측 그림]

언제 최소가 되느냐

바로 접선의 기울기가 0이 되는점!

 

[우측 그림]

무시무시한 수식이 쓰여있지만

기울기가 음수 일 땐,

w를 더해줘서 0을 향해가고

기울기가 양수 일 땐,

w를 빼줘서 0을 향해간다는 말이다.

 

즉, 방향을 정해주는 것

 

 

 

 

이때 이 기울기에

α을 곱해서 w가 얼만큼 움직일지 정해주는데,

우리는 학습률(learning rate)이라고 말한다.

 

인공지능을 학습할 때,

하이퍼파라미터로 학습률을 다뤘었는데

이러한 기능인지 처음 알게 되었다.

 

 

학습율이 무조건 크면 금방 최소값을 찾지 않을까?

 

그렇진 않다.

 

학습율이 너무 커버리면,

위의 그래프처럼 발산하는 상황이 벌어진다.

때문에 학습율이 너무 높으면, 발산

너무 낮으면, 최소값 찾는데 시간이 오래 걸린다.

 

그래서 적절한 학습율을 정해주는 것이 중요!

 

하지만

학습율도 고려한 최적화 방법이 있으니

바로 뉴턴-랩슨법


 

뉴턴-랩슨법(Newton-Raphson)

구글에 검색해보니

실숫값 함수의 영점을 근사하는 방법의 하나

라고 정의되어 있는데,

이해해본대로 써보도록 하겠다.

 

https://www.youtube.com/watch?v=MlZoafOnMS0

 

[좌측 그림]

우리가 앞서 보았던

f(x) = cost와 w의 관계 그래프를 미분하여

f '(x) = 기울기만 보면 위의 그래프처럼 될 것이다.

 

[우측 그림]

우리가 알고싶은 것은 기울기가 0이 되는 지점이니

기울기 그래프의 접선을 그었을 때,

값이 0이 되는 지점을 찾고

이러한 방법을 반복하여 기울기가 0이 되는 지점을 찾는 방법이다.

 

이렇게 찾는다면

학습율을 정해주지 않아도

정해진 수식에 의해 빠르게 0을 찾아갈 수 있다!

 

영상에서는

zero-finding이라 표현하였다.

 

정리해보면

https://amber-chaeeunk.tistory.com/62

이렇게 표현할 수 있다.

 

 


 

비용 함수를 최적화하는 옵티마이저를 알아보았는데,

이 외에도 학습율을 최적화 하는 옵티마이저도 있다고 한다.

 

https://www.youtube.com/watch?v=c7NURwHmM5k
딥러닝 실습을 할 때,Adam을 주로 사용했던 기억이 나는데영상 속에서도 주로 Adam이 자주 사용된다고 말하였다.

 

학습율 옵티마이저에 대해서도다뤄볼 계획이다.

 

 

 

 

오늘은 여기까지!

 

 

 

 

참고자료

https://amber-chaeeunk.tistory.com/62

[최적화] 3-2강 뉴턴법 쉬운 설명

[딥러닝] 1-2강 경사하강법 vs Newton's method | 선형 회귀 풀이

ㄹㅇ쉬운 딥러닝 5강 : 신나는 경사하강법

딥 러닝을 이용한 자연어 처리 입문

반응형
Comments