[논문 리뷰] AutoRec: Autoencoders Meet Collaborative Filtering

논문 링크

Abstract

본 논문은 Collaborative Filter에 Autoencoder 방법론을 적용한 모델을 제안한다.

Autoencorder의 Encorder layer로 부터 축소된 Latent Space를 Decoder로 reconstruct하여 원본 데이터를 얻기위한 학습 모델

기존 Movielens와 Netfilx 데이터를 사용했을 때 MF(biased matrix factorization), RBM-CF, LLORMA 보다 가볍고 효율적인 학습 모델이다.

1. Introduction

AutoRec는 기존 CF 모델들에 비해 user와 item 간 embedding을 보다 잘 표현하고 복잡도를 줄인 것이 특징이다.

논문 저자는 AutoRec이 기존의 CF 모델기반 모델들에 비해 표현력(representational)과 연산(computational) 측면에서 이점을 가지고 있다 주장한다.

2. The Autorec Model

점수(rating) 기반 협업 필터링(Collaborative filtering)에선 $m$ 명의 유저와 $n$ 개의 아이탬의 rating $r^{u}, r^{i}$ 는 $R \in \mathbb{R}^{n}$ 에서 다음과 같이 표현된다.

각 user에 대해 $u \in U = \{1 ... m\}$ 다음과 같이 표현 $r^{u} = \{R_{u1} ... R_{un} \}$
각 item에 대해 $i \in I = \{1 ... n\}$ 다음과 같이 표현 $r^{i} = \{R_{1i} ... R_{mi} \}$

본 논문에서는 부분적으로 발견된 $r^{i}$ , $(r^{u})$ 에 대해 I-AutoRec Item-based(user-based) autoencoder 를 설계한다. $r^{i}$ , $(r^{u})$ 를 저차원(low-demensional)의 latent(hidden) 차원으로 사영시키고 비어있는 rating을 추론하기 위해 reconstruct(decode)한다.

학습 시에는 다음과 같은 RMSE를 최소화 하는 loss를 사용한다.

$\min_{\theta } \sum_{ r \in S}\left\| r - h(r;\theta)\right\|^{2}_{2}$

$S$ : rating matrix ( $\mathbb{R}^{d}$ )에서 rating vector 집합
$h(r ; \theta)$ : rating을 reconstruction 하는 함수 Autoencorder 함수

$h(r ; \theta)$ 는 다음과 같이 정의 된다

$h(r ; \theta) = f(W\cdot g(Vr + \mu) + b)$

$f(\cdot), g(\cdot)$ : Activation function (Identiy, Sigmoid, ...)
$\theta = \{W,V, \mu, b\}$ : 학습 파라미터

overfitting을 방지하기 위해 목적함수에 regularisation term 을 추가해줌

$\min_{\theta} \sum_{ r \in S}\left\| r - h(r;\theta)\right\|^{2}_{O} + \frac{\lambda}{2} \cdot (\left\|W\right\|^{2}_{F} + \left\|V \right\|^{2}_{F})$

$\left\|\cdot\right\|^{2}_{O}$ : 관측된 데이터에 대해서 만 RMSE를 계산함을 의미

학습이 진행되는 파라미터의 수는 $2mk + m + k$ <- $(W + V + \mu + b)$

AutoRec를 통해 예측되는 rating 은 다음과 같다.

$\widehat{R}_{ui} = (h(r^{(i)}); \hat{\theta}))_{u}$

Item rating base AutoRec 모델은 위 그림과 같이 표현된다.

AutoRec 모델이 다른 모델과 구분되는 점

RBM-based 모델과 비교했을 때
- RBM-based 모델이 generative, probabilistic모델인 반면 AutoRec 는 discriminative model이다.
- RBM-CF 는 log likelhood를 최소화 하지만 AutoRec는 RMSE를 직접적으로 최소화 함
- RBM은 Contrastive Divergence를 필요로 하지만, AutoRec는 비교적 빠른 역전파 방식(gradient-based backpropagation)을 사용
- RBM은 이산적(discrete) rating에만 적용 가능하고 각 rating value에 대해 모든 학습 파라미터를 가짐. 반면 AutoRec는 적은 학습 파라미터를 사용
- (원문) AutoRec is agnostic to rand hence requires fewer parameters. Fewer parameters enables AutoRec to have less memory footprint and less prone to overfitting