深度学习综述

概念介绍

深度学习是机器学习领域的一个发展分支,其概念源于对人工神经网络的研究,意在通过建立模拟人类大脑的神经连接结构来对文本、声音和图像等复杂信号进行分层抽象处理,进而给出数据的分层特征表示 [1]。与之对应的是传统的隐马尔可夫模型、最大熵模型和支持向量机等等的浅层机器学习方法,浅层学习多依靠人工抽取经验进行特征抽取,再使用对应的模型学习获得没有层次结构的特征函数。而深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化。

发展历史

回顾深度学习的发展历程其实也就是纵览整个机器学习领域的发展历程。机器学习作为人工智能的一个分支始于 20 世纪 80 年代末期,首先是浅层学习在 20 世界 90 年代大放异彩,支持向量机、Boosting和最大熵方法(比如逻辑回归)等模型在理论分析和实际应用中都非常出色。2006 年加拿大多伦多大学的教授 Hinton 和他的学生们在 Science 期刊上发表了一篇新文章,指出基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程具有更优异的特征学习能力,并且深度神经网络在训练上的难度可以通过“逐层初始化”来有效克服 [2]。至此深度学习开始持续升温,谷歌、微软和百度等知名互联网科技公司纷纷在深度学习领域投入大量资源,并获得了突破性进展。

理论依据

神经科学研究人员利用解刨学知识研究哺乳类动物大脑接受和理解信息的方式,发现人脑并不是直接根据外部世界在视网膜上的投影,而是根据聚集和分解的过程处理后的信息来识别物体的。人类的这种感知系统的层次结构极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。这种对事物的认知方式对于复杂的数据,比如图像、语音和文本等非常有效。而传统的机器学习方法仅探索单层非线性变化的浅层学习结构,一个明显的局限就是无法良好地处理逻辑门中的函数奇偶性问题,同时浅层模型的瓶颈在于使用人工经验进行的特征抽取。

而深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征从而最终提升分类或预测的准确性。深度学习理论的另外一个理论动机是:如果一个函数可用 k 层结构以简洁的形式表达,那么用 k-1 层的结构表达则可能需要指数级数量的参数,且泛化能力不足。深度学习所得到的深度网络结构包含大量的神经元,每个神经元与大量其他神经元相连接,神经元间的连接强度即权值在学习过程中修改并决定网络的功能。通过深度学习得到的深度网络结构符合神经网络的特征 [3],因此深度网络就是深层次的神经网络,即深度神经网络(deep neural networks,DNN)。

深度神经网络分类

  1. 前馈深度网络:网络是最初的人工神经网络模型之一。在这种网络中,信息只沿一个方向流动,从输入单元通过一个或多个隐层到达输出单元,在网络中没有封闭环路。典型的前馈神经网络有多层感知机和卷积神经网络等。

  2. 反馈深度网络:与前馈网络不同,反馈网络并不是对输入信号进行编码,而是通过解反卷积或学习数据集的基对输入信号进行反解。前馈网络是对输入信号进行编码的过程,而反馈网络则是对输入信号解码的过程。典型的反馈深度网络有反卷积网络和层次稀疏编码网络等等。

  3. 双向深度网络:双向网络由多个编码器层和解码器层叠加形成,每层可能是单独的编码过程或解码过程,也可能 同时包含编码过程和解码过程。双向网络的结构结合了编码器和解码器这两类单层网络结构,双向网络的学习则结合了前馈网络和反馈网络的训练方法,通常包括单层网络的预训练和逐层反向迭代误差两个部分。典型的双向深度网络有深度玻尔兹曼机、深度信念网络和栈式自编码器等等。

深度学习的应用

  1. 语音识别和机器翻译:2011 年微软研究院基于深度神经网络的语音识别研究取得成果,彻底改变了语音识别原有的技术框架 [4]。采用深度神经网络后,可以充分描述特征之间的相关性并把连续多帧的语音特征并在一起,构成一个高维特征。

  2. 图像识别:图像是深度学习最早尝试的应用领域,早在 20 世纪 90 年代就出现了使用卷积神经网络(CNN)进行图像识别的相关工作。百度于 2012 年推出了将深度学习技术应用于图像 OCR 识别和人脸识别的搜索产品。深度学习应用于图像识别能避免人工进行特征抽取的缺点并提高准确率。

深度学习的趋势

目前深度学习在监督学习领域表现良好,但是很多现实问题中都是无标记的数据,对其进行标注的代价也过于巨大,深度学习在非监督学习领域的进展也值得关注。对比传统的机器学习方法,深度学习的理论分析显得更为困难,在训练样本规模、训练模型精度和训练时间之间的权衡优化问题上也更为困难。

参考文献

  1. BENGIO Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.

  2. HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

  3. PSALTIS D, SIDERIS A, YAMAMURA A. A multilayered neural network controller[J]. IEEE Control Systems Magazine, 1988, 8(2): 17-21.

  4. Dahl G,Yu Dong,Deng Li,et a1.Context dependent pre-trained deep neural networks for large vocabulary speech recognition[J]. IEEE Trans on Audio, Speech, and Language Processing, 2012, 20(I): 30-42.