Data Science, Data Art

昨天,周杰伦发布了新歌,MV很艺术。当然,音乐、美术是典型意义上的艺术,因为带有艺术家非常个性化的创造。在我从事的工作领域,”数据“往往是被冠名为科学。但久而久之,就像建筑一样,其实数据领域,自觉既是科学,其实也不乏艺术。这不是加工艺术,而是一种面对同一组数据,不同的人的理解艺术,千人千面,也就会有完全不同的故事和决策。

一直以来,对于“数据分析”、“数据分析师”的定义和属性都不是特别的理解,社会上对于这类工作往往归类为很高大上、前沿、需要很强的大脑,等等;但接触到过实际的数据分析工作,却不乏很初级单调、“劳动密集”的现代化纺织工式的数据处理。可能同一个岗位名称,不同环境下的差异也是相当巨大的。

但无论数据分析是高深、是需要强大的数据科学还是仅仅人肉计算,我总觉得在当下一切商业智能、数据驱动等等潮流之下,除了分析,更重要的是解读的能力。平日里接触形形色色的客户,有新兴的量化基金、区块链公司、大数据平台;也有传统的制造业、银行贸易融资、运输物流;当然也不乏国有大型企业、甚至政府机构的研究部门。尽管形式不同,但很频繁遇到的典型反馈就是”你们的数据很多、很强大,但我们不知道从何下手“,也有直接希望我们帮他们做数据分析和建议的,更多的是希望让我们做出一些可以直接使用的数据指标,例如告诉他们风险结果,一票业务否决还是通过,投资应该往哪儿投,诸如此类。更分裂的是,你给他们直接的指标,他们想要自己分析,得到想要的结论;你给他们原始数据,他们又觉得无从下手。有时觉得,仿佛很多人还在遵照中小学课堂学习数理化的那种方式,跟着老师教的方法,做一百道雷同的习题,并且会有老师给他们报答案。但走上工作岗位和社会商业环境,面临的问题往往没有唯一的正确答案,更不可能有人告诉你答案和解题方法,用户指南会提供一些操作方法,但面对的日常情景问题,是无法穷举、只能自己琢磨规律和特例的。

其实并不意外,每天财经频道的广告都有类似情况,场景如同有人看不来股票,于是广告宣传的就是”一条指标法“,红色代表买入,绿色代表卖出信号,等等。如果真的按那个无脑操作,不知胜率如何。反正我是不太相信单一指标能够反复博弈成功,所以一直很”良心“,始终告诉客户,我们是数据科学公司,可以提供可靠来源和尽可能高时效的数据、形成能够易于阅读的指标维度和全面的信息、建模纳入合理的指标,但很大程度上,究竟如何指导业务决策,是要结合他们自身的现实环境的。例如,风险数据只是客观呈现、按照最严格的方式去呈现风险,但是否承担风险,取决于这家风控业务的偏好、以及他们自身掌握的其他信息和背景认知;又如评价供应链和贸易的市场,贸易数据受限于各个国家的数据保护规定,它本身不可能如同黄页一样,直接把生产XX商品的有哪些企业、地方在哪里、规模如何这些信息直接体现,更多的是反映一个流向和趋势,但也已有够多的细节,例如出运的港口、集中出口的区域,如果真的是产业里的玩家,必然是需要积累一定对自身行业的认知的,例如了解生产电子元件的地区,出产矿的主要地区,这些都不是国际贸易数据本身的范畴,但是是影响国际贸易的基本面信息或者说是常识。又如做反洗钱,发票价格是否虚高或是虚低,虽然大数据可以给到一个范围,但不代表任何超出阈值的业务就一定是非法的,不仅和单票业务交易方的特定情况有关,更取决于这类商品是否本身就存在市场价格波动剧烈、产品品牌溢价、季节性因素,等等。真的要做大数据模型,可能是在一种方法论上要建立无数个”分类讨论“。

或许所谓的数据驱动,更多的像是法语语法,一条规则,更多例外。与其说,能够让数据真正活起来、驱动业务的,不一定是会编程的数据分析师,可能更是数据解读家,能够调动自己的逻辑思维、数据敏感性和积累的行业乃至跨行业知识技能,从数据中读出有用的信息、剔除非重要的信息和干扰,并转化成智能,这可能更像是艺术了。

~ 由 maybachyingzhi 于 2022年07月7日.

留下评论