Skip RNN: learning to skip state updates in recurrent neural networks
FOS: Computer and information sciences
Computer Science - Artificial Intelligence
Adaptive Computation
Computer Vision and Pattern Recognition (cs.CV)
Computer Science - Computer Vision and Pattern Recognition
02 engineering and technology
Knowledge representation (Information theory)
Conditional computation
Neural networks (Computer science)
Deep Learning
Àrees temàtiques de la UPC::Informàtica::Arquitectura de computadors
Natural language processing (Computer science)
0202 electrical engineering, electronic engineering, information engineering
Xarxes neuronals (Informàtica)
Representació del coneixement (Teoria de la informació)
Àrees temàtiques de la UPC::Matemàtiques i estadística::Anàlisi numèrica::Modelització matemàtica
recurrent neural networks
dynamic learning
conditional computation
Tractament del llenguatge natural (Informàtica)
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural
:Informàtica::Arquitectura de computadors [Àrees temàtiques de la UPC]
Recurrent Neural Networks
:Matemàtiques i estadística::Anàlisi numèrica::Modelització matemàtica [Àrees temàtiques de la UPC]
Grafs, Teoria de
Graph theory
Artificial Intelligence (cs.AI)
Recurrent neural networks
High performance computing
:Informàtica::Intel·ligència artificial::Llenguatge natural [Àrees temàtiques de la UPC]
Càlcul intensiu (Informàtica)
Dynamic learning
DOI:
10.48550/arxiv.1708.06834
Publication Date:
2017-01-01
AUTHORS (5)
ABSTRACT
Recurrent Neural Networks (RNNs) continue to show outstanding performance in sequence modeling tasks. However, training RNNs on long sequences often face challenges like slow inference, vanishing gradients and difficulty in capturing long term dependencies. In backpropagation through time settings, these issues are tightly coupled with the large, sequential computational graph resulting from unfolding the RNN in time. We introduce the Skip RNN model which extends existing RNN models by learning to skip state updates and shortens the effective size of the computational graph. This model can also be encouraged to perform fewer state updates through a budget constraint. We evaluate the proposed model on various tasks and show how it can reduce the number of required RNN updates while preserving, and sometimes even improving, the performance of the baseline RNN models. Source code is publicly available at https://imatge-upc.github.io/skiprnn-2017-telecombcn/ .<br/>Accepted as conference paper at ICLR 2018<br/>
SUPPLEMENTAL MATERIAL
Coming soon ....
REFERENCES ()
CITATIONS ()
EXTERNAL LINKS
PlumX Metrics
RECOMMENDATIONS
FAIR ASSESSMENT
Coming soon ....
JUPYTER LAB
Coming soon ....