ANN부터 DNN까지,
AI의 뇌를 해부하다
최신 생성형 AI를 움직이는 가중합, 활성화 함수, 손실함수, 경사하강법의 수학적 원리를 한 흐름으로 살펴봅니다.
- 핵심 질문: 챗봇과 자율주행 모델은 어떻게 판단을 계산할까?
- 마우스를 움직이면 네트워크의 신호 흐름이 즉시 반응합니다.
인공지능은 진짜 뇌처럼
생각할까?
뉴런 구조에서 영감을 받긴 했지만, 실제 생물학적 뇌의 동작 원리와는 다른 수학적 알고리즘이다.
- 오해: ANN이 실제 뇌세포처럼 사고한다.
- 진실: 퍼셉트론은 뉴런에서 영감을 받은 계산 모델이다.
- 핵심 연결: 입력값, 가중치, 가중합이 판단의 기본 단위가 된다.
생물학적 뉴런
→ 입력층
→ 가중치
→ 계산 흐름
퍼셉트론 ANN 구조
왼쪽 뉴런의 수상돌기, 수초, 축삭돌기에 마우스를 올리거나 대조 버튼을 눌러 수학 구조와 연결해 보세요.
기본 공식: 가중합과 편향
입력값은 그대로 더해지지 않습니다. 각 입력에 중요도인 가중치를 곱한 뒤 편향을 더합니다.
- \(x_i\): \(i\)번째 데이터 특성값
- \(w_i\): \(i\)번째 특성이 판단에 미치는 영향력
- \(b\): 판단 기준을 이동시키는 편향
어떤 정보가
더 중요할까?
자율주행 브레이크 판단에서 장애물 거리와 차량 속도 중 어떤 정보에 더 큰 가중치를 둘지 직접 조절합니다.
- \(x_1\): 장애물이 가까울수록 커지는 위험 신호
- \(x_2\): 현재 차량 속도 위험 신호
- 가중합 \(X\)가 임곗값을 넘으면 긴급 브레이크가 작동합니다.
\(x_1=8\)
\(x_2=5\)
대기
장애물 거리 가중치를 충분히 높이면 보행자 앞에서 안전하게 멈춥니다.
신호를 보낼까,
말까?
가중합 \(X\)가 인공지능이 설정한 기준, 즉 '임곗값 \(k\)'를 넘는 순간 0에서 1로 신호가 발사됩니다.
- \(X\): 입력값과 가중치의 곱을 합한 가중합
- \(k\): 신호를 활성화할지 결정하는 기준(임곗값)
가중합 X가 임곗값 k보다 작으므로 신호가 차단됩니다.
Step에서 ReLU,
GeLU까지
최신 대규모 언어 모델은 미분과 최적화에 유리한 매끄러운 활성화 함수를 널리 사용합니다.
버튼을 눌러 함수 곡선을 비교해 보세요.
단층 퍼셉트론의 한계:
XOR 문제
하나의 직선으로 평면을 둘로 나누는 모델은 XOR처럼 대각선으로 나뉜 데이터를 분류할 수 없습니다.
| \(x_1\) | \(x_2\) | 결과 |
|---|
AND와 OR는 직선 하나로 분리되지만 XOR는 실패합니다.
은닉층(Hidden Layer)의 마법
직선 하나로 해결할 수 없었던 XOR 문제. 입력층과 출력층 사이에 은닉층을 추가하면, 복잡한 비선형 문제도 완벽하게 해결할 수 있게 됩니다.
- 은닉층의 역할: 입력 데이터를 새로운 고차원 공간으로 매핑합니다.
- 비선형 공간 변환: 평평했던 좌표평면을 3차원 공간처럼 휘어지게 만듭니다.
은닉층 변환 실행하기 버튼을 누르면 평면이 3차원 공간으로 휘어지며 분류되는 과정을 볼 수 있습니다.
더 깊게,
더 똑똑하게
은닉층을 여러 개 쌓으면 심층 신경망이 됩니다. 각 층은 데이터를 조금씩 더 추상적인 표현으로 바꿉니다.
층이 깊어질수록 네트워크는 더 많은 중간 표현을 만듭니다.
데이터는 어떻게
흘러갈까?
입력 이미지가 숫자 행렬로 바뀌고 여러 층을 통과해 최종 예측 확률로 변하는 흐름을 순전파라고 합니다.
- 입력 → 은닉층 → 출력층으로 한 방향 계산이 진행됩니다.
- 결과는 “강아지 98%, 고양이 2%”처럼 확률로 해석됩니다.
AI가 실수를
깨닫는 방법
예측값과 실제 정답 사이의 차이를 오차라고 하고, 여러 오차를 하나로 모은 값이 손실입니다.
평균 제곱 오차
오차를 제곱하면 부호와 상관없이 차이가 커질수록 손실이 빠르게 증가합니다.
- 추세선과 데이터 사이의 수직 거리가 오차입니다.
- 그 거리를 정사각형 면적으로 보면 제곱의 의미가 드러납니다.
손실함수의 최솟값을 찾아라
추세선의 기울기 \(a\)가 정답에 가까워질수록 손실 그래프의 공은 아래쪽으로 이동합니다.
데이터 분포와 추세선
손실곡선 최소화
기울기를 움직여 손실의 변화를 관찰하세요.
접선의 기울기가
방향을 알려준다
그래프 위 한 점에서 접선을 그으면 그 지점에서 손실이 증가하는 방향을 알 수 있습니다.
접선의 기울기를 확인해 보세요.
기울기의 반대 방향으로
가중치를 수정한다
현재 위치에서 도함수를 계산하고, 학습률만큼 반대 방향으로 이동합니다.
보폭의 크기가
성공을 좌우한다
너무 작으면 국소 최솟값에 갇힐 수 있고, 너무 크면 진동하거나 발산합니다.
학습률 값을 바꾸면 이동 궤적이 달라집니다.
되돌아가면서 가중치를 업데이트하여
실수를 고친다.
출력층에서 계산한 오차가 연쇄 법칙을 따라 앞쪽 층으로 되돌아가면서 각 가중치의 수정 방향을 정합니다.
- 순전파: 입력에서 출력으로 예측을 계산합니다.
- 역전파: 출력 오차에서 입력 쪽 가중치까지 기울기를 전달합니다.
기초에서 출발해
최첨단 AI로
DNN의 수학적 원리는 CNN, RNN, Transformer, MoE 같은 최신 구조의 바탕입니다.
- CNN: 이미지의 공간적 특징을 추출합니다.
- RNN: 순서가 있는 데이터 흐름을 다룹니다.
- Transformer: attention으로 먼 정보 관계를 계산합니다.
CNN
합성곱 필터로 이미지 특징을 찾습니다.
RNN
이전 상태를 참고해 순서 정보를 다룹니다.
Transformer
attention으로 데이터 사이의 관계를 직접 계산합니다.
똑똑한 AI,
공정하게 활용하기
알고리즘이 완벽해 보여도 데이터가 편향되어 있으면 AI의 판단도 함께 기울어집니다.
알고리즘
다양한 데이터가 균형 있게 들어갈 때 모델의 판단도 안정됩니다.
인공지능 수학
핵심 개념 마스터
카드를 눌러 오늘 배운 핵심 개념과 수식을 확인하세요.