TABNET: ATTENTIVE INTERPRETABLE TABULAR LEARNING -1

2020. 1. 5. 18:00관심있는 주제/뉴럴넷 질문

728x90
https://github.com/google-research/google-research/tree/master/tabnet https://arxiv.org/abs/1908.07442#

TABNET이라는 것을 우연히 찾게 되었다. 현재 딥러닝은 tabular data 보다는 image, speech, text 등 더 비정형 데이터에 많이 사용되고 개발되고 있다. 그래서 개인적으로 나는 그런 분야보다는 tabular data에 더 집중해서 공부하다 보니 많은 자료가 나오지 않아서 아쉬움을 느낀다. 그래서 이 TABNET이 google 분석가들이 쓴 글이니 어느 정도 tensor flow로 구현도 되어 있고, 기발한 아이디어가 있을 것 같아 읽어 보기 시작했다. 

https://openreview.net/forum?id=BylRkAEKDH

 

TabNet: Attentive Interpretable Tabular Learning

We propose a novel high-performance interpretable deep tabular data learning network, TabNet. TabNet utilizes a sequential attention mechanism that softly selects features to reason from at each...

openreview.net

참고로 Reject....... -> Accept으로 변경됨.

ABSTRACT

저자는 TABNET이 고성능 해석 가능한 딥러닝 정형 데이터 네트워크라고 한다.
TabNet은 각 의사결정 단계에서 이치에 맞는 형상을 부드럽게 선택한 다음 처리된 정보를 취합하여 최종 예측 결정을 내리는 순차적 주의 메커니즘을 이용한다.
명시적으로 sparse feautre를 선택함으로써, TabNet은 각 의사결정 단계에서 모델 capacity가 완전히 관련된 변수들에게 고성능 모델 결과를 내는 관련된 변수를 활용하게 매우 효율적으로 학습한다. 
This Sparsity는 변수 선택 마스크의 시각화를 통해서 더 해석 가능한 의사 결정을 하게 해준다.
저자는 TabNet은 다른 뉴럴 네트워크 그리고 tabular data learning datasets의 넓은 범위에서 decision tree 변종들보다 뛰어난 것에 대해 설명하고 해석 가능한 변수 속성과 전체적인 모델 행동 안에서 통창력을 뽑을 수 있다.

여러까지 읽으면 변수 선택도 자동적으로 해주고, 각 변수에 대해서 해석 가능한 시각화까지 해준다고 하니 대박이라고 생각한다. 이제 실제로 어떻게 했는지 살펴보자.


1 INTRODUCTION

DNN은 Image, Text, Audio를 이해하는데 강력하다고 설명한다. 위에서 말한 비정형 타입들에 대해서 급속적인 발전이 이루어지고 있다. 간단한 의사 결정 layers를 통합하게 된 규범적 아키텍처는 새로운 데이터셋에 대해서 고성능을 만들어 낸다.  예를 들어, 이미지는 Convolution layer의 residual connection을 이용한 resnet이 실제로 좋은 성능을 내고 있다.
이 논문에서 초점으로 맞춘 것은 tabular (structured) data이다.
표 데이터는 실제로 전체 주소 지정 가능한 인공지능 시장에서 가장 일반적인 데이터 유형이다. (Chui et al., 2018)
그러나 tabular data를 이해하는 canonical nn 아키텍처는 덜 연구가 되었다. 대신에 ensemble decision tree의 변종들이 tabular data에서 많이 사용된다(lightgbm , catboost ,...)
이러한 tree-based 접근의 유명세에 대한 주요한 이유는 정형 데이터에 흔히 관측되는 근사적인 hyperplane boundaries decision manifolds 하는 그들의 representation power가 있다.
A primary reason for the popularity of tree-based approaches is their representation power for decision manifolds with approximately hyperplane boundaries that are commonly observed for tabular data.
게다가 decision tree-based 접근들은 학습도 굉장히 빠르고 개발하기도 쉽다.
그들은 그리고 기본적인 폼에서 매우 해석 가능하다. form (e.g. by tracking decision nodes and edges) 
그리고 다양한 해석 가능 기술들이 그들의 앙상블 폼에서 효과적으로 사용할 수 있다.
반면에 전통적인 stacked convolutional 또는 mlp기반으로 한 nn 아키텍처는 tabular data decision manifold에 최고로 적합하지가 않다. 이유는 매우 과대평가되기 때문이다. (적절한 귀납적 편견의 결여는 종종 표의 의사결정 매니폴드에 대한 강력한 해결책을 찾지 못하게 한다.)

On the other hand, conventional neural network architectures based on stacked convolutional or multilayer perceptrons, may not be the best fit for tabular data decision manifolds due to being vastly overparametrized – the lack of appropriate inductive bias often causes them to fail to find robust solutions for tabular decision manifolds (Goodfellow et al., 2016).

저자들은 이 논문에서 tabular data에서 뉴럴 네트워크 아키텍처는 'decision-tree-like'  mapping으로 새롭게 디자인했다고 한다.

앞에서 주어진 장점과 tree-based methods의 합리적인 성능을 고려할 때 왜 깊은 학습이 표 데이터를 탐구할 가치가 있는가?
한 가지 분명한 동기는 특히 더 많은 훈련 데이터를 사용하여 계산 비용이 증가하더라도 성능을 향상하는 것이다.
게다가  고성능 딥러닝 뉴럴 네트워크 아키텍처는  gradient descent-based end-to-end deep learning의 장점을 unlock(열다?)
예를 들어, decision tree learning (gradient boosting)은 입력 물에 역전파를 사용하여 오류 신호를 사용하여 복잡한 데이터 유형의 효율적인 학습을 유도하지 않는다.
한편, 깊은 신경망 아키텍처를 통해 영상과 같은 복잡한 데이터 유형을 tabular 데이터로 효율적으로 통합할 수 있다.
또 다른 tree-based 방법들에 알려진 문제는 streaming data로부터의 학습이다.  
트리 학습을 위한 대부분의 알고리즘은 분할점 및 간단한 수정을 위해 글로벌 통계 정보가 필요하다. such as (Ben-Haim & Tom-Tov, 2010) typically yield lower accuracy compared to learning from full data at once
그러나 딥 뉴럴 네트워크는 지속적인 학습에 대한 큰 잠재성을 보여준다.
마지막으로 딥러닝 모델들은 데이터 효율적인 도메인 적응과 같은 새로운 능력을 같은 의미 있는 representation을 학습한다. 

Lastly, deep learning models learn meaningful representations which enable new capabilities such as data-efficient domain adaptation (Goodfellow et al., 2016)

 

저자는 표의 데이터 학습을 위한 최적의 모델 설계를 향해 크게 도약하기 위한 심층 신경망 아키텍처인 TabNet을 제안한다. 위에서 논의된 tabular data에서 핵심 문제에 동기 부여된 TabNet의 디자인은 state-of-the-art performance와 해석 가능성 2가지 목표가 있다. 
decision tree motivations에서 TabNet은 각 인스턴스에 대해 개별적으로 간격 제어 방식의 소프트 피쳐 선택 가능하다.



TabNet의 기여한 점은 다음과 같다.

## 수정된 버전
1. TabNet inputs raw tabular data without any preprocessing and is trained using gradient descent-based optimization, enabling flexible integration into end-to-end learning.

2. TabNet uses sequential attention to choose which features to reason from at each decision step, enabling interpretability and better learning as the learning capacity is used for the most salient features (see Fig. 1). This feature selection is instance-wise, e.g. it can be different for each input, and unlike other instance-wise feature selection methods like (Chen et al. 2018) or (Yoon, Jordon, and van der Schaar 2019), TabNet employs a single deep learning architecture for feature selection and reasoning.

3. Above design choices lead to two valuable properties: (i) TabNet outperforms or is on par with other tabular learning models on various datasets for classification and regression problems from different domains; and (ii) TabNet enables two kinds of interpretability: local interpretability that visualizes the importance of features and how they are combined, and global interpretability which quantifies the contribution of each feature to the trained model.

4. Finally, for the first time for tabular data, we show significant performance improvements by using unsupervised pre-training to predict masked features (see Fig. 2).
  1. flexible representation을 배우고 flexible integration into end-to-end deeplearing을 하기 위해서 기존 tabular data methods와는 달리 TabNet은 feature preprocessing 없이 원시 표 데이터를 입력하여 기존의 경사 강하 기반 최적화를 사용하여 학습된다.
  2. 성능과 해석 가능성을 증가시키기 위해서, TabNet은 각 decision step으로부터 합리적인 변수를 선택하는 sequential attention mechanism을 활용한다. 아래 Figure 1에서 보듯이 저자는 모델이 각 입력에 대해 별도로 초점을 맞출 형상을 결정할 수 있도록 이 형상을 인스턴스(instance)로 설계한다.
    예) 소득 분류를 하기 위해서 capital gain은 개인의 중간 나이 때에 초점을 맞춘 변수가 중요했다.
    모델 매개변수가 상응하는 의사결정 단계에서 가장 중요한 특징에 완전히 활용되므로, 희소 형상의 명시적 선택은 해석 성과 더 효율적인 학습을 가능하게 한다.
  3. 전체적으로 저자의 세심한 아키텍처 디자인은 실제 세계의 표형 학습 문제에 대한 두 가지 귀중한 속성을 이끌어 낸다.
    (1) TabNet은 기존에 있었던 tabular data 모델보다 분류 문제와 회귀 문제에서 뛰어나다.
    (2) TabNet은 2가지 종류의 해석 가능이 가능하다.
    (인풋 변수들과 어떻게 그들을 결합하는지의 중요성을 시각화하기 위한 local interpretability(1) 그리고 학습된 모델에서 각 input feature의 기여 정도를 표현하는 global interpretability(2)가 있다. 

Figure 1. TabNet employs multiple decision blocks that focus on processing a subset of input features for overall decision making.  Two decision blocks shown as examples process the features that are professional occupation related and investment related in order to predict the income level.


2 RELATED WORK

Feature selection

On the other hand, instance-wise feature selection refers to selection of the most important features, individually and differently for each input. Instance wise feature selection was studied in (Chen et al., 2018) by training an explainer model to maximize the mutual information between the selected features and the response variable, and in (Yoon et al., 2019) by using an actor-critic framework to mimic a baseline model while optimizing the feature selection. Unlike these approaches, our proposed method employs soft feature selection with controllable sparsity in end-to-end learning a single model jointly performs feature selection and output mapping, enabled by the specific design of the architecture. Thus, we demonstrate superior performance with very compact representations.

Tree-based learning

They are based on learning the structures of trees at first, and then updating the leaves with the streaming data.


Integration of neural networks into decision trees

Yet, abandoning axis-aligned splits loses the automatic feature selection ability, which is important for learning from tabular data. In (Yang et al., 2018), a soft binning function is proposed to simulate decision trees in neural networks, which needs to enumerate all possible decisions and is inefficient. Our proposed model TabNet differs from these methods as it embeds the soft feature selection ability into a sequential attention-based network architecture, with controllable sparsity.

Attentive table-to-text models

Table-to-text models extract textual information from tabular data. Recent works (Liu et al., 2017) (Bao et al., 2019) propose an architecture based on sequential mechanism for field-level attention. Despite the high-level similarities in the architecture, TabNet aims to perform the ultimate classification or regression task considering the entire input features, rather than mapping them to a different data type.

 

728x90