Overfitting?

本周继续上周工作,为了解决训练时长过长和参数过多的问题,展开了一系列的实验

实验内容

本周继续上周工作,为了解决训练时长过长和参数过多的问题,展开了一系列的实验,重新设计了算法的代码将fastai框架改为pytorch框架。同时还由于算力不够的原因,向徐永健师兄请教了一下开发的经验和显卡的配置。最后进行了几组不同的实验来一步步的优化模型的参数,实验内容和过程如下:

Snipaste_2020-10-24_19-46-21_meitu_1

上图是包含Tucker分解的、Virtual Bond = 2,解决新冠疫情二分类问题的一个模型,是目前一个比较好的baseline了。如图所示,准确率最高达到了94%,交叉熵最低为0.2648,这个实验结果能为HTN的应用带来很大的参考价值。

1603551394170

另外主要一组是包含Tucker分解的、Virtual Bond = 3的、解决新冠疫情三分类问题(无症状、新冠、肺炎)的一个模型,运行时间长且很快收敛。如图所示,准确率一直在50%左右上下波动,交叉熵最低为0.8就不再发生明显的变化了,这是比较明显的过拟合现象。

其他的还有Tucker处理成128*128的实验,意义不太大了,就不在此介绍了。原论文中处理的二分类准确率最高可达98.08%,三分类可达87.02%,相比之下TTN由于参数原因限制了它能力的发挥,同时大规模的参数还导致以下不利影响:

  • 模型训练时间变长
  • 模型很容易出现过拟合

因此解决HTN过拟合问题的关键就在于对张量网络层进行降维、分解、Dropout等操作尽可能的减少参数的数目,从而能够得到更好的结果,当然扩大数据量也是一个可以考虑的方向。

另外在学习Pytorch视频时,发现神经网络中Dropout层通过随机的减少激活的神经元,从而尽可能避免过拟合现象。Dropout层的具体作用原理见下图

Dropout neural network model. (a) is a standard neural network. (b) is... |  Download Scientific Diagram

就像图中所展示的那样,在每一层的神经元中按照一定的比例随机丢弃一部分神经元,从而能加快模型的收敛速度,同时也能尽可能避免过拟合,当然如果丢弃的比例过多又可能造成欠拟合,需要合理的设计网络层与Dropout进行搭配,才能更好的发挥它的作用。

那么一个值得深思的问题是,如何能设计出一个类似神经网络中Dropout层的张量分解层,来对TTN或者其他张量网络层进行分解降维随机丢弃一些维度,这是一个很不错的Idea,需要尝试不同的分解方法,同时还要继续查阅相关的研究。

杂谈

关于COVID-19数据集

对比着搜了几篇新冠疫情相关的文章,发现数据集的主要来源是ieee8023/covid-chestxray-dataset,这个平台建立了一个胸部X射线CT图像的公开数据集,这些患者是COVID-19阳性或被怀疑是COVID-19或其他病毒性和细菌性肺炎(MERS,SARS和ARDS)。 数据将通过公共来源以及通过医院和医生的间接收集来收集。 所有图像和数据将在此GitHub存储库中公开发布,目前已经有2.4K+的关注度,同时该数据接口也可以通过Dataloader调用。上面进行实验的图片也都来自于这个数据集。

关于论文写作

overleaf是一个比较优秀的在线论文写作平台,可以在线的Edit和Compile文章,自动生成论文格式,写论文利器,我已经在上面创建了一个模板,并在此基础上进行论文的修改和写作。

未来的工作

本周也基本上读完了遗传算法,接来下要尝试去复现它,并再继续阅读论文寻找合适的张量分解方式或者其他数据集,最终将实验的代码重新进行了整理,模型融合,放到github私人仓库供大家学习使用。下周还要细读《基于张量的大数据多聚类及其安全和高效方法研究》的第五、六两章,把相关的背景知识要介绍清楚。

相关链接:

1. Open-i

2. COVID-19 image data collection

3. Deep-COVID: Predicting COVID-19 from chest X-ray images using deep transfer learning

4. Automated detection of COVID-19 cases using deep neural networks with X-ray images

5. ChestX-Ray8: Hospital-Scale Chest X-Ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.
  • Copyrights © 2015-2024 YuleZhang's Blog
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信