【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文？-木盒主机

欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

随着图像识别相关领域的研究与应用逐渐成熟，当下视频分析相关的研究和应用所占比例越来越大，其技术也更加复杂。视频分类和行为识别在视频监控与检索、网络直播、推荐系统等行业中有着广泛的应用，是深度学习在视频分析领域中最底层的问题之一，非常值得关注和学习。

作者&编辑 | 言有三

1 3DCNN模型

视频相对于图像多出了一个维度，而3D卷积正好可以用于处理这个维度，因此也非常适合视频分类任务，不过缺点是计算量比较大，早在2012年就有研究者开始使用3DCNN模型来进行视频分类，这与深度卷积神经网络模型的发展时间脉络基本重合。

文章引用量：12000+

推荐指数：✦✦✦✦✦

[1] Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231.

[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.

2 RNN与LSTM

视频和语音信号都是时序信号，而RNN和LSTM正是处理时序信号的模型，也是早期用于视频分类的重要模型。

文章引用量：6000+

推荐指数：✦✦✦✦✦

[3] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.

3 双流法

视频中的目标往往是运动的，因此光流也是非常重要的信息，从而引出一类专门进行视频处理的模型，双流法。双流法包含两个通道，一个是RGB图像通道，用于建模空间信息。一个是光流通道，用于建模时序信息。两者联合训练，并进行信息融合。

文章引用量：10000+

推荐指数：✦✦✦✦✦

[4] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J]. Advances in neural information processing systems, 2014, 27.

[5] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1933-1941.

4 3D与双流法融合

Two-Stream网络和3D网络各有优点，都可以很好的建模时序关系，但是计算量巨大，因此有的框架致力于融合两类框架，并降低计算量。

文章引用量：5000+

推荐指数：✦✦✦✦✦

[6] Carreira J, Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6299-6308.

5 一些数据集

研究视频分类任务需要一些数据集，视频分类数据集的规模随着时间推移也越来越大，其中适合新手朋友们学习使用的有HMDB-51，UCF-101，Kinetics Datasets。

[7] Kuehne H, Jhuang H, Garrote E, et al. HMDB: a large video database for human motion recognition[C]//2011 International conference on computer vision. IEEE, 2011: 2556-2563.

[8] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.

[9] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.

6 如何进行实战

为了帮助大家掌握一些视频分类与行为识别的重要方法，我们推出了相关的专栏课程《深度学习之视频分类与行为识别：理论实践篇》，感兴趣可以进一步阅读：

【视频课】CV必学，超8小时，3大模块，3大案例，循序渐进地搞懂视频分类与行为识别！

总结

本次我们简单介绍了视频分类与行为识别的一些重要内容，这是从事视频分析方向必须掌握的内容，值得所有从业者掌握。

有三AI冬季划-项目实战组

未经允许不得转载：木盒主机 » 【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文？

【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文？

相关推荐

热门推荐

DMIT 美国/香港/日本 CN2 GIA

搬瓦工限量版CN2 GIA整理

随便看看

热门标签

分类