从0到1

今天开始,曾经的dream school 伦敦城市大学卡斯商学院正式更名为“贝叶斯商学院”,自从知道要改成这个名称就感叹,果真是来到了“大数据时代”,商学院都以理工科学生的老朋友、概率论大神命名了。这位于伦敦金融城里的“奇葩”学校自然是没有机会去念了,但数据还是每天打交道。平日多以怎么使用数据为主,但从中也体会到一些和卖产品无关的感悟。

一是数据的搜集,技术发展可以让数据处理更高效、好看、便于使用,但没有办法把没有的数据创造出来。所以这个从零到一的过程,并不能够弯道超车,而是时间沉淀和持续、连贯、一致的记录,这也是最大的价值。以航运业来说,仔细回想,能把船舶数据库维护200多年,从纸面手写、到3.5寸盘、光盘、USB、FTP到现在云端储存,介质不断在变化、收集和存储能力和效率在提高,但终究,如果没有一开始的“数据”记录,这一切都没有根基,也就没有意义,除非去盗版、去爬虫,不然投入必然是巨大的。我想,这也是身处所谓“大数据”时代,始终不能忘记的一点,就是数据的本质,在于真实和持久的记录,方能生成后续千变万化的用途。

二是数据的处理,最首要的就是清洗(包括结构化、去除垃圾数据)和关联。这个层面相对比较技术性,看似是数据清理,但其实也需要领域常识。例如数据生成的先后顺序、来源的一致性、在“字段名称”看似相同时是否真正代表同一个数据点,数据与数据之间的替代性、互斥性、共存性,等等。听上去好像很直接,不就是一个“映射”嘛,但事实上,当真的着手去做,会发生许多问题,在一开始漏掉某个关联,就可能造成处理过程中额外的巨大工作量。

三是数据的呈现,这里有两方面,可视化和“perspective”。如今“可视化”非常时髦,甚至发展成了一门科学艺术,把数据做得动态、好看,交互性强,也是数据产品的很大亮点了。这个自然无可厚非,但从数据本身角度来说,应该指出,这是一把双刃剑,在通过可视化实现’actionable data’(即所谓可直接用于决策的指标)的时候,其实也带来了“引导性”,即尽管数据本身是客观的,但对于面向读者的数据表现,但在可视化图表中,数据聚合形成的指标其实是经过了开发者的选择,即所谓“我想给你看的是哪一个指标”,这些数据并不是错的,也不是假的,而是带着“角度”的。就像小时候看报纸时说过的笑话,女星陈慧琳是“唱歌不及王菲、长相不及林青霞”,那对于一个不认识陈慧琳的吃瓜群众,可能印象分平平;但如果把维度反过来,可能给无知第三方留下的印象,则好得多。

四是数据的解读,如今大家已经基本了解,数据本身没有意义,而是需要有相关领域知识的人也就是专家去解读才能有意义;更全面地说,还需要结合当下时空的常识。多年前,当人们提及”万吨轮“,便已经觉得那是一艘巨大的船。那么是否到了现在这仍然成立呢?对于行业人士来说,”万吨轮“首先就需要明确这万吨指的是载重吨、总吨还是其他指标;又或者这是哪一种类的船?集装箱”大船“和油轮”大船“的规模还是不尽相同的;又我们要考虑,十年前的瞩目”大船“到现在,或许已经不足为奇了。这仅仅是一个例子,其实各行各业都有门道,纯数字没有意义,有领域知识、常识、并结合当下时间和空间,才能给出一些有意义的解读,或是发现明显的数据错漏。

最后,就是愈发觉得,数据越多,人的智慧愈发重要。如今都说Data Driven Insight (数据驱动),一时间坊间担忧人类智慧即将被取代。当然技术发展日新月异,也不敢说未来不可能。但就现阶段,数据为人带来的依然是一种”辅助“功用,而非取代;因此人类的活动也不可全部依赖数据和机器给出的结论。比如屡屡爆出事故的自动驾驶。而若非如此极端出错例子,从现实情况来看,自疫情以来,航运疯狂火热,各个业界专家即使在如今数据发达的情况下,却未有敢对未来航运市场下定论的预测,可能喧嚣唯有让时间去平复,在大浪淘沙后自然回归到新的常态。这也好笑,仿佛应证了阿西莫夫在他的科幻小说《最后的问题》中,高能机器人Multvac那句经典台词”there’s yet sufficient data to give a meanful answer.” (数据不足,无法作答)。人类社会的复杂度,人心的叵测、面对利益的各自小九九,碳基生命的混乱也许尚不是0和1模型和硅基机器能够解答的。

~ 由 maybachyingzhi 于 2021年09月6日.

留下评论