探索中国CIO人才现状 | 第四季调研报告
7张图真正读懂数据科学!
2016-08-16  来源:e-works

数据科学已成为领域专家必备的知识和能力之一。如今,几乎所有的专家都在谈论大数据,但是部分“专家”并不是真正懂得大数据及其背后的科学——数据科学。在国内,数据科学的系统性研究仍属空白,人们只知道需要学习这门新兴科学,但并不知道如何学习。     数据科学已成为领域专家必备的知识和能力之一。如今,几乎所有的专家都在谈论大数据,但是部分“专家”并不是真正懂得大数据及其背后的科学——数据科学。在国内,数据科学的系统性研究仍属空白,人们只知道需要学习这门新兴科学,但并不知道如何学习。    

一、基础理论       数据科学家及数据科学项目的核心问题。    干货丨7张图真正读懂数据科学! 

    二、数据预处理       “数据预处理”是数据科学的主要研究内容之一。通常,数据预处理是数据计算活动的前提,可以提升数据计算的效果和效率。数据预处理工作不仅可以提高数据质量、降低数据计算的复杂度,而且还可以减少数据规模、提升数据处理的准确性。数据预处理涉及数据质量、数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等基本活动。数据科学家(或团队)应具备数据预处理的基本知识、实战经验和创造性思维。   干货丨7张图真正读懂数据科学! 

    三、数据统计       数据科学处于数学与统计知识、黑客精神与技能和领域实务知识等三大领域的交叉之处。       统计学是数据科学的主要理论基础之一。因此,统计分析能力是数据科学家的核心竞争力之一。当然,统计学是几乎所有学科领域专家应掌握的必备知识,也是很多专业的必修课程。但是,在实际工作中发现,部分领域专家的统计学基础较差,缺乏兴趣和信心,甚至对其产生恐惧感,严重影响了其数据处理能力。   干货丨7张图真正读懂数据科学! 

    四、机器学习       机器学习是数据科学的主要理论基础之一。同时,人机协同数据处理能力是数据科学家的核心竞争力之一。数据科学家(或团队)应具备机器学习的基本知识、实战经验和创造性思维。   干货丨7张图真正读懂数据科学! 

    五、数据可视化       数据可视化是数据科学的主要理论基础之一。因此,数据可视化能力是数据科学家的核心竞争力之一。数据科学家(或团队)应具备数据可视化的基本知识、实战经验和创造性思维。本章在讨论数据可视化在数据科学中重要地位的基础上,重点介绍数据可视化的主要类型、基本模型、常用方法、评价与改进以及典型案例,并最后讨论数据可视化技术的发展趋势。   干货丨7张图真正读懂数据科学! 

    六、数据计算       “数据计算”是数据科学的主要研究内容之一。数据处理、数据管理和数据产品研发活动均涉及一个底层问题——数据计算模式与平台的选择。因此,数据科学家(团队)应具备数据计算的基本知识、实战经验和创造性思维。   干货丨7张图真正读懂数据科学! 

    七、数据管理       “数据管理”也是数据科学的主要研究内容之一。通常,数据管理以数据预处理活动为基础,并为不同的数据处理系统提供共性平台。数据科学家(或团队)应具备数据管理的基本知识、实战经验和创造性思维。   干货丨7张图真正读懂数据科学!