Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

制约大数据发展的核心因素是什么?

$
0
0
Han Hsiao,不想当心理学家的数据科学家不是一个好金融分析师。

2014 年这个问题出现的时候,大数据的核心问题还没真正体现,所以一些答案基本上都是泛泛而谈。这里我来尝试总结一下。

众所周知,大数据按照处理环节可以分为三步:

  1. 大数据采集和清洗
  2. 数据存储和分析
  3. 数据展现和应用

从以上这三个方面,我想谈谈制约大数据发展的几个核心问题。

一、数据采集和清洗

  • 1.1 数据法规:用户隐私如何保护、商业规则如何制定、法律规范如何制定等等一系列法律法规都大大滞后于大数据科学的发展速度。由于技术 EXE 所限,纸上谈兵 TXT 成为常态。当前数据法律法规未明,采集方式八仙过海,预计未来很多大数据业务都将会继续游走在灰色地带,只有当商业运作初具规模并开始对消费者和企业产生影响之后,相关的法律法规才会被迫加速制定出来。(法律大数据研究与应用
  • 1.2 数据质量:由于大数据产业刚刚起步不久,目前在具体的某一领域或行业内,尚未有成型的数据采集、加工、分析和应用链条,大量数据源未被激活,包括政府在内的很多权威数据机构,普遍存在数据缺失、噪音多各方面的问题。举个栗子,如果一个电商网站销售额的 20% 是与推荐系统相关的时候(亚马逊是 35% Was Amazon's recommendation engine crucial to the company's success?),投入和产出是不成比例的,这也是很多小微企业难以为继的原因,技术上每 1% 的进步都需要 100% 的汗水和努力,1% 的误差都会极大地影响企业的市场份额。
  • 1.3 数据人才:去年我参加了「2016 年中国大数据产业峰会」,当时清华大学的一名教授预言:
未来 3 年,中国需要大约 180 万大数据人才,但目前只有约 30 万人。

作为国内 TOP2 的知名学府 Tsinghua 当然不会落后,2014 年就开始了动作( 清华大学培养跨学科交叉融合数据科学研究生),虽有些跟风的嫌疑,但至少是顺应发展。由于数据人才稀缺,大多数数据企业没有数据价值外化、将数据变现的有效路径,只能躺在金矿上睡觉。而在实际项目实施过程中,数据专家们不得不花费大量时间在数据清洗上,对原本就稀缺的数据人才其实是一种资源浪费。另一方面,数据专家们不但需要解读大数据,同时还需深谙某行业发展各个要素之间的关联,甚至包括策划、管理、执行等许多具体要素,这里就不赘述了。

(图 1.1 清华大学互联网大数据研究中心)

二、数据存储和分析

  • 2.1 数据隐私:理论上,用户和企业的原始数据沉淀在数据平台上(如 BAT),数据平台在未获授权的情况下不能提供给第三方,但实际情况是用户对原始数据的占有获取权及公开权基本取决于用户与平台达成的协议「用户须知」,加上互联网本身的开放性和某些企业故意作恶,用户基本无法捍卫自己的数据财产所有权。

(图 2.1 某网站的免责声明)

  • 2.2 数据安全棱镜计划(PRISM)曝光,我们知道美国政府已可以从电邮、短信、视频、照片、存储数据、甚至语音聊天等全方位对人进行监控,大数据挖掘让互联网世界已无死角可言。这同时证明黑客攻击方的能力和范围已无限升级。中国最顶尖白帽团队 Keen 的创始人王琦说:
大数据时代,数据就是钱。

数据黑客可以从互联网中盗取各种数据,互联网地下社工库(互联网社工库的传说,这个是真的存在吗?)就是最好的证明。

三、数据展现和应用

    • 3.1 数据展现:众所周知,数据的价值无法估量,但只有在被展现时才能发挥出来。高维数据可视化目前仍是一个棘手的问题,比如如何判断当前降维算法是否是合适?如何选择合适的数据展现方法?仍然拿推荐系统来举栗子,推荐的准确率、覆盖率、多样性、惊喜度等应该如何取舍才能提高用户满意度?这些都需要数据分析师对业务和技术都有相当程度的了解,因为数据科学本身是一个交叉学科,涉及统计学、计算机科学、商业领域经验等多种知识。
  • 3.2 数据产业链:如果没有对某个行业整体产业链的宏观把握,单个企业仅仅基于自己掌握的独立数据,就无法建立产业链各个环节数据之间的关系,也就无法对业务发展和应用做出精准的判断(通俗说就是难以将数据变现)。数据分析师如何将大数据层面上的关联具象到行业实践中?如何如何制定可执行方案应用数据挖掘的结论?当前的现时情况需要处于大数据生态圈中的企业需要进行合作,方能实现共赢。

(图 3.1 大数据产业图谱)

  • 3.3 数据独占性:合则两利,斗则俱伤。正因如此,国家为了促进大数据产业的发展以及小微企业创业,提出建立数据交易所的概念。然而另一方面,除了少数大企业如 BAT 自成体系外,这些需要共享信息的小微企业之间往往存在竞争关系,数据作为一种排他性的资源,越是稀缺的数据才越具有价值。所以共享数据时需要权衡利弊,这也在一定程度上限制了大数据企业的合作。

四、总结

大数据不是万能的,但没有数据是万万不能的。

当前大多数企业的信息化程度不高,管理层尚未形成相应的数据思维。换言之,大数据产业还有很长的路要走,在摸着石头过河的时候,探索出独特的数据之道也许更为重要。

PS.其他技术层面问题,如大数据相关的软硬件成熟度、成本,大数据应用的普及率、计算实时性等,鄙人以为在不远的将会都会一一攻克,至少目前不会成为制约大数据发展核心的问题,所以在这里就不作讨论了,其他有时间再补充。

以上。

数据之路漫漫,欢迎一同前行:预见未来——Han Hsiao 的知乎专栏 Foresee


Viewing all articles
Browse latest Browse all 20608

Trending Articles