chapter1-统计学习方法与深度学习方法概论
什么是统计学(statistics learning)
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
统计学三要素
方法 = 模型 + 策略 + 算法
模型、策略 、算法三要素是理解统计学习中,起到提纲挈领的作用。
模型(model):亦为假设空间(hypothesis),包含所有可能的概率分布或者决策函数。
策略(strategy): 亦为评价准则(evaluation criterion),评价模型经验风险最小化与结构风险最小化。不同模型有不同的风险函数
算法(algorithm): 学习模型的具体计算方法。
统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。即为最优化问题。
模型选择与泛化
统计学三要素的建立算是打好了地基。如何针对问题进行建模,如何增加模型的泛化能力,即鲁棒性(robust),亦是我们主要的探讨问题。
模型
分类问题、标注问题和回归问题都是监督学习的重要问题。我们将利用统计学知识以及深度学习理论去实践,解决问题—-建模。对于无监督学习问题,我们将另开一类进行探讨。
机器学习(machine learning)
机器学习与统计推断学联系尤为密切,也被称为统计学习理论。相比较统计学习,机器学习理论关注可以实现的,行之有效的学习算法,是基于统计学理论知识支撑的。所以,没有产生机器学习分支,而是根据统计学知识,进行代码实现,实践相关真实问题的过程,即为机器学习。如同学界与业界之间的区别,着重点不同,却也息息相关。
深度学习(deep learning)
相比较深度学习,利用统计学知识实践,产生机器学习,则为传统的机器学习。也就是常见的十大算法。而深度学习亦属于机器学习。它亦趋于实践,只是在算法实现上,与传统机器学习有较大的不同,所以独立进行命名。当然深度学习现在亦成为主流,灵活性也比传统的机器学习高,但是对于数据和计算资源的要求也更高。
数据挖掘
理论与算法,在学界中,显得格外的重要。在业界中,数据挖掘亦是格外的耀眼。数据挖掘,简单的说,就是通过提炼数据,数据存储,挖掘数据,构建模型,模型优化,结果评价以及结果展示的过程。使得能够在社会中,获得效益。
总之,统计学习、机器学习、深度学习,随之年代和知识逐渐的提升,更加适应现代需求。并且他们之间理论和算法实现都有较大的联系。如果您想知道它们之间的联系的话,请一同与我探讨数据挖掘吧!!!
注: