MNIST 2탄 (Back Propagation)

2021. 10. 23. 11:43

수치미분을 사용했을 때보다 월등히 빠른 연산시간을 확인할 수 있다.

 
import numpy as np
from keras.datasets import mnist
from keras.utils.np_utils import to_categorical
from datetime import datetime
 
 
# 오차역전파(Back Propagation)
# 수치미분을 사용하지 않고, 행렬로 표현할 수 있는 수학공식을 사용하기 때문에 빠른 연산이 가능함
# 가중치나 바이어스가 변할 때, 최종오차가 얼마나 변하는 지를 나타내는 편미분을,
# 체인룰을 사용하여 국소미분으로 분리한 후, 수학 공식으로 표현하여 계산하는 방법
 
 
# MNIST 데이터 불러오기
(x_train, t_train), (x_test, t_test) = mnist.load_data()
 
x_train = np.reshape(x_train, (60000, -1))
x_test = np.reshape(x_test, (10000, -1))
 
x_train = x_train/255.0
x_test = x_test/255.0
 
t_train = to_categorical(t_train)
t_test = to_categorical(t_test)
 
print()
 
# csv 파일인 겨우
# x_train = np.loadtxt("파일경로", delimiter=',', dtype=np.float32)
 
 
def sigmoid(x):
    return 1 / (1 + np.exp(-x))
 
 
class NN:
 
    def __init__(self, input_nodes, hidden_nodes, output_nodes):
 
        self.input_nodes = input_nodes
        self.hidden_nodes = hidden_nodes
        self.output_nodes = output_nodes
 
        # np.random.rand() 이걸 써주면 학습이 안된다. 이유는 잘 모르겠다.
        # Xavier/He 가중치 초기화 기법 적용
        self.W2 = np.random.randn(self.input_nodes, self.hidden_nodes) / np.sqrt(self.input_nodes / 2)
        self.b2 = np.random.rand(self.hidden_nodes)
 
        self.W3 = np.random.randn(self.hidden_nodes, self.output_nodes) / np.sqrt(self.hidden_nodes / 2)
        self.b3 = np.random.rand(self.output_nodes)
 
        # 입력층 선형회귀 값 Z1, 출력값 A1 정의 (행렬로 표시)
        self.Z1 = np.zeros([1, input_nodes])
        self.A1 = np.zeros([1, input_nodes])
 
        self.Z2 = np.zeros([1, hidden_nodes])
        self.A2 = np.zeros([1, hidden_nodes])
 
        self.Z3 = np.zeros([1, output_nodes])
        self.A3 = np.zeros([1, output_nodes])
 
        self.learning_rate = 0.3
 
    def feed_forward(self):
        delta = 1e-7  # log가 무한대로 발산하는 것을 막아준다
 
        self.Z1 = self.input_data
        self.A1 = self.input_data
 
        self.Z2 = np.dot(self.A1, self.W2) + self.b2
        self.A2 = sigmoid(self.Z2)
 
        self.Z3 = np.dot(self.A2, self.W3) + self.b3
        self.A3 = sigmoid(self.Z3)
 
        return -np.sum(self.target_data * np.log(self.A3 + delta) + (1 - self.target_data) * np.log((1 - self.A3) + delta))
 
    def train(self, input_data, target_data):
 
        self.target_data = target_data
        self.input_data = input_data
 
        loss_val = self.feed_forward()
 
        # 출력층 loss_3
        loss_3 = (self.A3 - self.target_data) * self.A3 * (1 - self.A3)
        self.W3 = self.W3 - self.learning_rate * np.dot(self.A2.T, loss_3)
        self.b3 = self.b3 - self.learning_rate * loss_3
 
        # 은닉층 loss_2
        loss_2 = np.dot(loss_3, self.W3.T) * self.A2 * (1 - self.A2)
        self.W2 = self.W2 - self.learning_rate * np.dot(self.A1.T, loss_2)
        self.b2 = self.b2 - self.learning_rate * loss_2
 
    def loss_eval(self):
        delta = 1e-7
 
        self.Z1 = self.input_data
        self.A1 = self.input_data
 
        self.Z2 = np.dot(self.A1, self.W2) + self.b2
        self.A2 = sigmoid(self.Z2)
 
        self.Z3 = np.dot(self.A2, self.W3) + self.b3
        self.A3 = sigmoid(self.Z3)
 
        return -np.sum(self.target_data * np.log(self.A3 + delta) + (1 - self.target_data) * np.log((1 - self.A3) + delta))
 
    def predict(self, input_data):
 
        Z2 = np.dot(input_data, self.W2) + self.b2
        A2 = sigmoid(Z2)
 
        Z3 = np.dot(A2, self.W3) + self.b3
        A3 = sigmoid(Z3)
 
        return np.argmax(A3)
 
    def accuracy(self, input_x, input_t):
 
        right_list = []
        wrong_list = []
 
        for idx in range(len(input_x)):
            pred = self.predict(input_x[idx])
 
            if pred == np.argmax(input_t[idx]):
                right_list.append(idx)
            else:
                wrong_list.append(idx)
 
        print("accuracy = ", 100*len(right_list)/len(input_x), "%")
 
 
# 모델 훈련
model = NN(784, 100, 10)
 
start_time = datetime.now()
 
for step in range(10001):
 
    idx = np.random.randint(0, len(x_train)-1)  #총 6만개의 데이터중 임의로 2만개 선택
 
    model.train(np.array(x_train[idx], ndmin=2), t_train[idx])
 
    if step % 1000 == 0:
        print("step = ", step, ", error = ", model.loss_eval())
 
        end_time = datetime.now()
        print("elapsed time = ", end_time - start_time)
        start_time = datetime.now()
 
 
# 모델 테스트
model.accuracy(x_test, t_test)
 
 
 
 
 

Colored by Color Scripter

위의 소스코드를 실행시키면 아래와 같은 출력값을 얻을 수 있다.

저작자표시 비영리 변경금지

'머신러닝_딥러닝 > Tensorflow + Keras' 카테고리의 다른 글

(Tensorflow 2.x) Regression 2탄 (0)	2021.10.23
(Tensorflow 2.x) Regression 1탄 (0)	2021.10.23
MNIST 1탄 (0)	2021.10.23
XOR 문제 (딥러닝으로 해결) (0)	2021.10.23
XOR 문제 (0)	2021.10.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

누구나 쉽게, 인공지능

MNIST 2탄 (Back Propagation)

'머신러닝_딥러닝 > Tensorflow + Keras' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역