基于张量的大数据多聚类及其安全和高效方法研究

迁移学习和实验

迁移学习(Transfer learning) 顾名思义就是就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习(starting from scratch)

先预处理MNIST的三分类问题(选取1,2,5),然后用HTN进行训练,达到收敛,保存最好效果的模型。模型的结构不变,改变模型的输入和输出数据进行处理,用预训练好的125数字分类器去训练新馆疫情的三个类别(无症状、肺炎、新冠疫情),进行迁移学习实验,然而实验结果并不是很理想。

随后又加入了动态调整的Optimizer,能够在训练中不断地调整学习率lr,这样避免lr过大,没有办法达到最优值。实验准确率还是在60%之前就停下了。这说明上面的优化方法并没有解决网络结构复杂的根本问题。因此,如何进行张量网络TTN的结构优化是一个重点问题。

基于张量的大数据多聚类及其安全和高效方法研究

主要看了第五六章的内容

第五章主要讲了基于张量链的张量多聚类和并行计算方法,通过引入张量链使得算法能够在存储和运算上具有很大的优势,能够有效地处理多源、高维度的数据,并且计算可以扩展到云平台上,实现并行计算。

而第六章则主要在第五章的基础上,设计出了基于增量的更新算法,能够有效地处理流数据,从而极大提高张量多聚类的效率。

通过这两章的学习,可以了解到这篇论文基于张量提出了一种非常强大的基于张量链能处理流数据的计算平台和算法,但比较遗憾的是该算法没有能和量子计算相结合。如果将云计算平台并行创新到量子计算并行,利用量子计算的优势来处理和表示张量链,那么算法的性能和表示能力将能得到进一步的提升。

1604275214085

这个二进制索引一共四位,从前到后依次表示交通模式、天气、温度、风速。例如“1100”前两位为1,表示选择数据集的交通模式天气来产生聚类效果,而温度风速这两个属性则没有被选择。0100没有较高的DI值,可能是因为天气的数据分布有很高的不确定性,论文中也没有详细的解释这部分原因。

1604275617948

另外就是这个图,随着对象数的增加,对象张量的压缩比减小,直到和权重张量的压缩比趋于一致大概在200左右。我猜想这个最后的压缩率可能就是张量链的表示带来的压缩效果,而对象张量在之前也有一些CP分解、Tucker分解的过程,这些算法分解的效果可能在高阶时并不理想,或者说开销特别大、没法用于并行的张量链(不用的张量在不同的机器上存储),因此压缩比会逐渐减小。

下周的想法是再分析一下如何修改HTN中张量网络层的结构,改成MPS或者添加随机线性权重组合的操作来实现参数的降维,从而提高模型的拟合能力。

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.
  • Copyrights © 2015-2024 YuleZhang's Blog
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信