中国人民共和国财政部

信息网络中心

当前位置:首页>研究交流

吴涛:大数据应用的几点思考

一、大数据应用的三个关键点  

国务院《促进大数据发展行动纲要》(简称《大数据纲要》)将大数据定位为“新一代信息技术和服务业态”,赋予大数据“推动经济转型发展”“重塑国家竞争优势”“提升政府治理能力”的战略功能,并将数据界定为“国家基础性战略资源”。大数据贵在应用,在应用方面,《大数据纲要》在公共领域提出许多发展方向,如宏观调控科学化、政府治理精准化、商事服务便捷化、安全保障高效化、民生服务普惠化;在产业层面,主要按行业领域划分为工业大数据、新兴产业大数据、农业农村大数据、万众创新大数据,以及大数据产品体系和大数据产业链。这些方向,只是大数据应用的潜力和空间,能不能应用起来,能不能发挥作用,还得看有没有可行模式和实际效果。无论是在公共领域还是在产业层面,大数据应用都离不开数据来源、处理技术和方法、创造价值的模式,这是我们关注的重点。概括来说,需要回答下面三个看似简单、却是关键的问题。

(一)数据从哪里来

关于数据来源,普遍认为互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源作为大数据金矿,正在不断产生各类应用。国外关于大数据的成功经验介绍,大多是这类数据资源应用的经典案例。还有一些企业,在业务中也积累了许多数据,如房地产交易、大宗商品价格、特定群体消费信息等。从严格意义上讲,这些数据资源还算不上大数据,但对商业应用而言,却是最易获得和比较容易加工处理的数据资源,也是当前在国内比较常见的应用资源。

在国内还有一类是政府部门掌握的数据资源,普遍认为质量好、价值高,但开放程度低。《大数据纲要》把公共数据互联开放共享作为努力方向,认为大数据技术可以实现这个目标。实际上,长期以来政府部门间信息数据相互封闭割裂,是治理问题而不是技术问题。面向社会的公共数据开放愿望十分美好,恐怕一段时间内可望不可及。在数据资源方面,国内“小数据”“中数据”应用并不充分,试图一步跨入大数据时代,借机一并解决前期信息化过程中没能解决的问题,前景并不乐观。

数据从哪里来是我们评价大数据应用的第一个关注点。一是要看这个应用是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患。二是要看这个应用的数据资源质量如何,是“富矿”还是“贫矿”,能否保障这个应用的实效。对于来自自身业务的数据资源,具有较好的可控性,数据质量一般也有保证,但数据覆盖范围可能有限,需要借助其他资源渠道。对于从互联网抓取的数据,技术能力是关键,既要有能力获得足够大的量,又要有能力筛选出有用的内容。对于从第三方获取的数据,需要特别关注数据交易的稳定性。数据从哪里来是分析大数据应用的起点,如果一个应用没有可靠的数据来源,再好、再高超的数据分析技术都是无本之木。

(二)数据怎么用

数据怎么用是我们评价大数据应用的第二个关注点。大数据只是一种手段,并不能无所不包、无所不用。我们关注大数据能做什么、不能做什么,现在看来,大数据主要有以下几种较为常用的功能。

追踪。互联网和物联网无时无刻都在记录,大数据可以追踪、追溯任何一个记录,形成真实的历史轨迹。追踪是许多大数据应用的起点,包括消费者购买行为、购买偏好、支付手段、搜索和浏览历史、位置信息,等等。

识别。在对各种因素全面追踪的基础上,通过定位、比对、筛选,可以实现精准识别,尤其是对语音、图像、视频进行识别,使可分析内容大大丰富,得到的结果更为精准。

画像。通过对同一主体不同数据源的追踪、识别、匹配,形成更立体的刻画和更全面的认识。对消费者画像,可以精准推送广告和产品;对企业画像,可以准确判断信用及风险。

预测。在历史轨迹、识别和画像基础上,对未来趋势及重复出现的可能性进行预测,当某些指标出现预期变化或超预期变化时给予提示、预警。以前也有基于统计的预测,大数据大大丰富了预测手段,对建立风险控制模型有深刻意义。

匹配。在海量信息中精准追踪和识别,利用相关性、接近性等进行筛选比对,更有效率地实现产品搭售和供需匹配。大数据匹配功能是互联网约车、租房、金融等共享经济新商业模式的基础。

优化。按距离最短、成本最低等给定的原则,通过各种算法对路径、资源等进行优化配置。对企业而言,提高服务水平、提升内部效率;对公共部门而言,节约公共资源、提升公共服务能力。

当前许多貌似复杂的应用,大都可以细分成以上几种类型。例如,贵州推行的“大数据精准扶贫项目”,从大数据应用角度,通过识别、画像,可以对贫困户实现精准筛选和界定,找准扶贫对象;通过追踪、预测,可以对扶贫资金、扶贫行为和扶贫效果进行监控和评估;通过配对、优化,可以更好地发挥扶贫资源的作用。这些功能也并不都是大数据所特有的,只是大数据远远超出以前的技术,可以做得更强大、更精准、更快、更好。

(三)成果谁买单

成果谁买单是我们评价大数据应用的第三个也是最后一个关注点。道理很简单,不创造价值的应用不是好应用。我们关注大数据的应用是否实实在在地提升了能力、改善了绩效。如果大数据用于自身的产品设计、营销推广、资源配置,那就看企业竞争力是不是提升了,看企业最终是不是比以前更赚钱了。如果大数据用于为第三方提供服务,那就看是不是有人愿意付费、愿意持续付费。但如果是用于公共领域,还要看政府或公共部门的付费值不值,不仅仅是从出资方的视角看值不值,还要从老百姓的视角看值不值。

大数据应用与政务数据整合共享提出的目标是改善政府对公众的服务,目标要更多面向基层面向公众,但是做起来往往会变成面向领导,面向考核机制,这样会大大降低数据服务的效果。因此从更高层次上反思数据系统建设的过程,回到初始的目标,不忘初心非常重要。政府为推动数据建设会制定绩效考核的办法,考核办法应当向最终目标靠近,不要让部门为绩效而绩效,忘记最终目标。

数据服务系统设计以公众的获得感作为评价标准很必要,这是从服务的最终效果提出的效益要求,超出工程层次的测量标准,其展示的是服务效益。获得感是用户的感觉,是设计者不可控的,与信息系统的工程标准不同,政府自认为设计很好的系统公众若不喜欢就不能说是成功的,公众获得感是不确定性的标准,以公众获得感评价政府工作能够推动政府全面改进工作,并能够提高社会监督效率。

当我们面对一项大数据应用时,只要简单问一问上面三个问题——数据从哪里来、数据怎么用、成果谁买单,就能揭开许多“伪装”。当然,如果经得起上述“大数据三问”,也并非一定算得上优秀,却也离优秀的大数据应用不远了。

二、让大数据应用回归冷静

(一)数据应用过热会带来问题

1. 过热会产生盲目性

大数据宣传已经过热,一种理念宣传过热一定会出问题,冷静思考能力被屏蔽了,不敢怀疑了,不敢说不同的意见了,没有怀疑何来智慧?数据的作用被捧上天,直接后果是对数据系统的盲目投资,投资在在数据作用无限放大的假设之上,无争论无批评的投资是浪费之源。

2. 看不到效益

总是说数据共享能带来巨大效益,大数据应用能带来科学决策,但是很难看到实例更找不到统计数据,所谓效益只是一种推理,假定能拥有全部的数据就能做出最科学完美的决策,早期的计划经济也是这种逻辑,社会充满着不确定性,数据完备是不可能的,找一个大数据决策实现大效益的例子难上加难,而大数据浪费的例子却比比皆是。

3. 数据应用需要回归冷静

大数据应用前景是辉煌的,辉煌的前景要靠一步一步如履薄冰地精心积累起来的,不是靠“人有多大胆地有多大产”的逻辑实现的。数据服务目的是推动政府管理的精细化,数据精细化是管理精细化的基石,不能用粗放的习惯去管理以精细化为目标的数据应用,数据应用必须回归冷静。

(二)基层业务数据整合应作为重点

1.提取信息与数据处理使用数据模式不同

政府使用数据的业务有两类,一类是要从数据中挖掘信息以便用于决策,这种使用数据的模式称为数据挖掘。数据挖掘只使用数据并不改变原始数据。

另一类使用数据的目的是完成具体的服务操作,这种应用称为数据处理,政府为公众具体的服务离不开对用户数据的处理。业务处理使用数据是工作流程,数据处理结果会生成新的记录,使用老数据按规则生成新数据。 

2. 数据挖掘与数据处理对数据质量要求不同

数据挖掘关注的是数据集中所包含的信息,数据只是提取信息的原材料,由于统计分析工具能够过滤异常数据,对于具体数据的精准度并不关注。

数据处理是对用户关联的实体数据的直接操作,数据的精准度非常关键,数据的精准度直接影响服务质量,不准确的数据往往会引起业务处理纠纷,在数据处理流程中只关注具体数据的准确性,没有信息概念。

3. 决策与操作使用数据的不同层次

政府决策并不直接使用数据,数据被用来提取信息,决策依赖的是对数据整体的理解,理解数据是高于数据层次的概念,计算机并没有理解数据的能力也没有信息的概念,信息是人脑才有的概念,是数据层次之上的概念。

政府服务业务处理是直接使用数据,依据具体数据操作,数据处理的方法由系统规定,操作人员没有自由量裁权,系统以形式逻辑的方式处理数据,是对数据的低层次的使用,没有信息概念,基层服务大都是这种模式。

4. 数据服务要向基层倾斜

政府高层从事决策与政策研究是信息层次上的工作,不是IT技术能够承担的,决策与政策研究是人脑才擅长的领域,IT技术除了帮助进行数据挖掘,对决策思维帮助不大,这也是决策支持系统难以推广的原因之一。

政府基层工作主要是业务处理,对数据是直接使用,没有高层次的分析,数据处理方法是形式逻辑可描述的,不需要人脑信息抽象,适合信息技术发挥作用,数据服务向基层倾斜能够获得更大的成果。

5. 大数据应用的局限性

大数据应用给我们带来了发现事物规律的新方式、新工具和观察问题的新视角,其贡献是巨大的,特别是大数据与人工智能的连接更是如虎添翼,人们设想大数据能够全面提升政府的管理水平,实现真正的科学决策、科学管理,甚至实现现代新计划经济。但是这种想法容易高估大数据的能力。大数据可以提升预测能力,但是对于不确定性问题预测依旧是不可能的。大数据能支持决策的范围有限,因为并非所有信息都可数字化,便于大规模收集的数据需要标准化,其范围会比较窄,也即数据规模必须以视野狭窄为代价,大数据适合于局部领域细节决策的优化,并不适合整体目标的大决策,不能盲目夸大大数据应用。

三、财政大数据应用的思考  

(一)加强顶层设计与“摸着石头过河”相结合

顶层设计和标准规范是在相对充分的探索实践基础上逐步总结而成。

“标准先行”是一个悖论和伪命题,典型的唯心主义,违背了人认识世界的规律。

比如各行业信息化基本都是先分散建设,再一体化整合,可否一开始就提出完整的解决方案避免弯路,“非不欲也,是不能也”。

(二)需求导向,重点突破

领导重视、各方关注、需求明确的先行开展,避免四面出击,分散力量。

 

 

附件下载:

相关文章:

发布日期:  2020年01月14日