数据科学研究的近况与趋势全解
Gartner的调研及其新技术成长曲线(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,数据科学的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年之内开始应用于生产高地期(plateau of Productivity)。同时,Gartner的另一项研究揭示了数据科学本身的成长曲线(Hype Cycle for Data Science),如图1所示。从图1可以看出,数据科学的各组成部分的成熟度不同:R的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。
图1 数据科学的成长曲线(2016)
2. 数据科学的学科地位
2010年,Drew Conway 提出了第一张揭示数据科学的学科地位的维恩图——《数据科学维恩图(The Data Science Venn Diagram)》(图2),首次明确探讨了数据科学的学科定位问题。在他看来,数据科学处于统计学、机器学习和领域知识的交叉之处。后来,其他学者在此基础上提出了诸多修正或改进版本,如图3是Jerry Overton于2016年给出的数据科学维恩图。但是,后续版本对数据科学的贡献和影响远不及Drew Convey首次提出的数据科学维恩图。
图2 Drew Conway的数据科学韦恩图(2010) 图3 Jerry Overton的数据科学韦恩图(2016)
从Drew Conway的《数据科学维恩图》的中心部分可看出,数据科学位于统计学、机器学和某一领域知识的交叉之处,具备较为显着的交叉型学科的特点,即数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科。同时,从该图的外围可看出,数据科学家需要具备数学与统计学知识、领域实战和黑客精神,说明数据科学不仅需要理论知识和实践经验,而且还涉及黑客精神,即数据科学具有三个基本要素:理论(数学与统计学)、实践(领域实务)和精神(黑客精神)。
3. 数据科学的知识体系
从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发,如图4所示。
图4 数据科学的知识体系
基础理论:主要包括数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。需要特别提醒的是,“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |