数据科学研究的近况与趋势全解

发布时间：2021-09-27 19:06:20 所属栏目：大数据来源：互联网

导读：大数据时代的到来催生了一门新的学科数据科学。首先，本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题，并提出了专业数据科学与专业中的数据

　　Gartner的调研及其新技术成长曲线（Gartner's 2014 Hype Cycle for Emerging Technologies）表示，数据科学的发展于2014年7月已经接近创新与膨胀期的末端，将在2~5年之内开始应用于生产高地期（plateau of Productivity）。同时，Gartner的另一项研究揭示了数据科学本身的成长曲线(Hype Cycle for Data Science)，如图1所示。从图1可以看出，数据科学的各组成部分的成熟度不同：R的成熟度最高，已广泛应用于生产活动；其次是模拟与仿真、集成学习、视频与图像分析、文本分析等，正在趋于成熟，即将投入实际应用；基于Hadoop的数据发现可能要消失；语音分析、模型管理、自然语言问答等已经渡过了炒作期，正在走向实际应用；公众数据科学、模型工厂、算法市场（经济）、规范分析等正处于高速发展之中。

图1 数据科学的成长曲线（2016）

　　2. 数据科学的学科地位

　　2010年，Drew Conway 提出了第一张揭示数据科学的学科地位的维恩图——《数据科学维恩图（The Data Science Venn Diagram）》（图2），首次明确探讨了数据科学的学科定位问题。在他看来，数据科学处于统计学、机器学习和领域知识的交叉之处。后来，其他学者在此基础上提出了诸多修正或改进版本，如图3是Jerry Overton于2016年给出的数据科学维恩图。但是，后续版本对数据科学的贡献和影响远不及Drew Convey首次提出的数据科学维恩图。

图2 Drew Conway的数据科学韦恩图（2010）

图3 Jerry Overton的数据科学韦恩图（2016）

　　从Drew Conway的《数据科学维恩图》的中心部分可看出，数据科学位于统计学、机器学和某一领域知识的交叉之处，具备较为显着的交叉型学科的特点，即数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科。同时，从该图的外围可看出，数据科学家需要具备数学与统计学知识、领域实战和黑客精神，说明数据科学不仅需要理论知识和实践经验，而且还涉及黑客精神，即数据科学具有三个基本要素：理论（数学与统计学）、实践（领域实务）和精神（黑客精神）。

　　3. 数据科学的知识体系

　　从知识体系看，数据科学主要以统计学、机器学习、数据可视化以及（某一）领域知识为理论基础，其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发，如图4所示。

图4 数据科学的知识体系

　　基础理论：主要包括数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。需要特别提醒的是，“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内，而其“理论基础”在数据科学的研究边界之外，是数据科学的理论依据和来源。

（编辑：焦作站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页

识别实体与值对象的关	折叠屏技术全面提升三
了解大数据风控平台的	大数据时代的智能分析