TNML-ACML2020Tutorial

第38页

Knowledge Distillation (Hinton et al., NIPS 2014 Workshop)

Quantization and Sharing of Weight (Han et al., ICLR 2016)

Low-rank Matrix/Tensor Factorization (Novikov et al., NIPS 2015)

PPT 63页

Generalization of Compressed CNN

目前已有的压缩算法对训练好的权重矩阵进行矩阵/张量分解来完成低秩近似。然而,SOTA网络层,例如VGG和WAN,不必要进行低秩近似。

文中对VGG网络中的权重张量进行CP张量分解,直接的压缩很难实现,并且对微调网络往往需要很大的计算复杂度

img

纵轴Normalized是CP分解的分量振幅(也称为CP频谱),对应CP分解公式中的λr\lambda_{r}

X[λ;A,B,C]r=1Rλrarbrcr\mathcal{X} \approx [ \boldsymbol{\lambda} ; \mathbf{A}, \mathbf{B}, \mathbf{C} ] \equiv \sum_{r=1}^{R} \lambda_{r} \mathbf{a}_{r} \circ \mathbf{b}_{r} \circ \mathbf{c}_{r}

为了克服这种限制,文章中提出了一种分层结构设计,CPL(CP Layer)。CPL重新设定了重量张量的参数,以便可以以端到端的方式轻松学习Polyadic形式(CP形式)(Kolda和Bader,2009)。

PPT 75页

提出基于单模态(unimodal)和多模态(multimodal)情感分析的最新方法

PPT 76页

img

zmz_{m}是不同模态的输入向量(m = 1,...,M1,...,M),这种将不同模态的向量进行外积的方法使得模态数量呈指数式增长m=1Mdm\prod_{m=1}^{M}d_{m},权重张量的更新复杂度也将指数增长。这样不仅引入了很大的计算量,也更有可能发生过拟合。更为稳妥一点的方法结构(论文创新点)如下所示

img

将各个模态的向量直接与各个分解的r个权重张量进行对应计算,将计算复杂度从O(dym=1Mdm)O\left(d_{y} \prod_{m=1}^{M} d_{m}\right)降为O(dy×r×m=1Mdm)O\left(d_{y} \times r \times \sum_{m=1}^{M} d_{m}\right)

GRU Network

GRU(Gated Recurrent Unit) 算法是神经网络算法的一种,在2014年由Cho, et al.提出,主要是为了解决标准RNN网络中的梯度消失问题。GRU是LSTM的一种变体,大多数情况下两者都具有极好的实验结果。网络的关键之处在于引入了更新门(update gate)和重置门(reset gate),它俩决定了要传递的信息,保证与预测有关的信息不会随着时间的流逝而被删除掉,更多内容请看参考链接。

遗留问题

处理数据融合

拓扑结构

引用

  1. 深入理解 | CP、Tucker分解
  2. Understanding GRU Networks
  3. Understanding LSTM Networks
  4. Understanding Generalization in Deep Learning via Tensor Methods (Li et al., AISTATS 2020)
  5. Convolutional Rectifier Networks as Generalized Tensor Decompositions
  6. Compressing Recurrent Neural Networks Using Hierarchical Tucker Tensor Decomposition
  7. EXPRESSIVE POWER OF RECURRENT NEURAL NETWORKS
  8. A Tensorized Transformer for Language Modeling
  9. MUTAN: Multimodal Tucker Fusion for Visual Question Answering
  10. Tensor Fusion Network for Multimodal Sentiment Analysis
  11. Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition
  12. Long-Term Forecasting using Higher-Order Tensor RNNs
  13. Convolutional Tensor-Train LSTM for Spatio-Temporal Learning
  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2015-2024 YuleZhang's Blog
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信