所谓暗数据(dark data),Splunk给出的定义是:系统、设备和交互产生的公司内所有未知和未开发的数据。作为全球第一家上市的大数据公司,Splunk早期提出了机器数据(machine data)的概念并被业界广泛采用,随后提出的暗数据也正逐渐被重视和研究。
TRUE Global Intelligence的一份《暗数据现状报告》显示,企业机构总数据的一半以上(55%)属于暗数据,这意味着他们要么不知道这些数据的存在,要么不知道如何找到、准备、分析或使用这些数据。Splunk中国区总经理严立忠在接受e-works记者采访时甚至表示,暗数据可能是企业当今最大的未开发资源。
暗数据的挑战
在第三方的解读中,暗数据是指那些未被发掘或理解的数据,来自于大数据的阴暗面,即信息资产企业在日常业务活动中收集、处理和存储但不具备特定用途的数据。它包括尚未应用于业务、形成有竞争力的情报或对商业决策产生帮助的所有数据对象与类型。
随着IT技术的发展,数据正塑造着一个企业的方方面面,它赋予人以灵感、解决问题、创造利润。当今的企业运营过程,几十亿互联设备与无数云服务进行通信,积累了来自服务器日志文件、GPS网络、安全工具、调用记录、网络流量等的数据;从后端信息系统,到客户前台操作,每个数字都会被记录;从仓库货架上的货物到服务器室的温度,再到登录安全网络的时间和地点,所有一切都会被存储在某个地方。但这些数据大部分都分散和孤立,或者处于非结构状态,也没有被利用。简而言之,这些数据并没有发挥价值。
《暗数据现状报告》在全球7个国家调研的1300名企业领导人几乎一致认为,数据是现在和未来获得成功的关键,但几乎无人表示自己的组织能够充分利用自身所有数据的价值。这意味着有大量暗数据的存在,挑战无处不在。
在Splunk中国区总经理严立忠看来,“暗数据很难处理,是因为它正以惊人的速度增长,很难进行组织,这是其最大的挑战。因此,在这种混乱的环境中,企业很容易感到无助。而Splunk正在帮助企业应对这一挑战,帮助企业通过数据提出问题,获取答案并快速采取行动,实现业务价值。”
暗数据的机遇
从另一角度来说,尚未被发现和利用的暗数据可能含有潜在的机遇,这些数据可能会产生新的收益或降低企业内部成本。
严立忠以Splunk在能源电力行业的实践举例,传统MES系统管理企业的生产过程,可以实现结构化数据的管理,但期间还有很多过程数据并不能被记录和分析,这依然会引起产线的宕机或返工。Splunk的做法是将生产过程所有的数据记录下来,不仅仅是结果数据,还包括过程数据,这就包括所谓的暗数据。基于对企业业务的深刻洞察和人工智能技术,Splunk致力于帮助企业从暗数据中挖掘出更多的价值。
某种程度上,暗数据是由于业务和IT管理人员的忽视,成为了一种未被充分利用的资产,因此企业需要用更成熟的方式收集、管理和分析这些信息。在严立忠看来,在释放暗数据价值的过程中,人工智能技术正提供着越来越重要的支撑作用。《暗数据现状报告》显示,不管是提高企业运营效率、战略决策还是提升人力资源和客户体验,大约三分之二的人看到了人工智能的潜在价值,并有10%到15%的受访者说他们的组织正在部署人工智能技术。
另外,《暗数据现状报告》还显示,尽管受访者了解暗数据的价值,但他们承认没有可以利用这些数据的工具、专业知识或员工。因此,一个大势所趋是:企业需要培训更多的员工从事数据科学和分析,增加对数据整理的资金投入,以及部署软件,使技术水平较低的员工能够自己分析数据。
中国对暗数据认知超全球平均水平
值得一提的是,《暗数据现状报告》报告还显示出,中国企业对暗数据的认知超过了全球平均水平。绝大多数中国受访者对人工智能表示出了极大的热情和信心,中国目前的采用率(20%)略高于全球平均水平(16%)。
报告显示中国市场最热衷于数据价值和数据整理技能。大多数IT和业务经理(81%,是所有市场中最高的)认为数据技能对未来的工作极为重要或非常重要,并且有助于解决人工智能方面的挑战。
其中:85%的中国受访者(所有市场中比例最高)认为,人工智能可以弥补IT方面的技能差距;中国是仅有的两个“绝大多数受访者(77%)都声称极为或非常了解人工智能”的市场之一;96%的中国受访者认为,人工智能是由数据推动的;91%的受访者认为,无论是现在还是将来,人类都处于人工智能的核心位置。
另外,82%的中国受访者认为,数据与企业机构的成功息息相关,91%的受访者认为“拥有最多数据的企业机构将在竞争中获胜”;87%的受访者认为数据在未来十年将变得更有价值。
作者:王阳