1. LSTM (Long Short-Term Memory)

Simple RNN 보다 학습 속도가 빠르고 데이터에 내재된 긴 시간의 종속 관계를 감지 가능한 모델

1) 구조

LSTM cell의 상태는 장기 상태와 단기 상태가 존재 (h는 단기 상태 값, c는 장기 상태 값)

내부 구조

완전 연결층 4개 존재
- 각 완전 연결층은 $h_{t-1}$과 $X_t$를 입력으로 사용, 벡터를 출력(이때 출력 벡터의 차원은 $Y_t$의 차원과 동일)
- 하나의 완전 연결층이 Simple RNN의 하나의 재귀층이라고 볼 수 있음
- 스택 형태가 아니라 옆으로 놓여있는 구조
- 활성화 함수는 logistic, 단 두 번째 연결층은 tanh를 사용
  - 두 번째 연결층이 핵심, 나머지는 해당 연결층의 출력을 조절하는 역할

2) 동작

입력과 이전 상태 값이 주어지면 먼저 $f_t, g_t, i_t, o_t$ 를 계산 ( = 각 완전 연결층 마다 주어진 값을 입력 )
- 이 때 값의 범위는 두 번째 연결층의 경우 -1 ~ 1, 나머지는 0 ~ 1
$g_t$와 $c_{t-1}$의 합을 $c_t$ ( = 장기 상태 값 )으로 변경
- 그대로 더하지 않고, 각각의 반영 비율을 it와 ft로 조절
  
  → $c_t = i_t * g_t + f_t * c_{t-1}$
$c_t$에 $\tanh$ 함수 적용 후 $o_t$를 곱해 $h_t$ ( = 단기 상태 값 ) 계산

→ $h_t = \tanh(c_t) * o_t$

3) tflearn lstm 구현

lstm() 함수를 이용해 lstm 층을 구성

tflearn.layers.recurrent.lstm(incoming, n_units, activation='tanh', ...)
# simple_rnn 함수와 패러미터 유사
# activation 기본값이 sigmold -> tanh
# inner_activation, forget_bias 패러미터 추가
	# inner_activation : 2번째 완전 연결층을 제외한 나머지 층의 활성화 함수
	# forget_bias : 나머지 층의 바이어스

2. GRU (Gated Recurrent Unit) Cell

LSTM의 단순화 된 버전
성능이 LSTM에 못지 않아 사용 빈도가 늘고 있음

1) 구조