第三章 数据都在我这里(上)

换源:

  这些数据都在我这,我比你还了解你!

肖战是一名潜伏者,是来笛得公司探秘的。

他来到笛得做兼职的大数据顾问,了解笛得的情况,特别是笛得所拥有的数据。肖战其实是惦记着笛得里面的用户出行轨迹数据,因为这是安迪尔公司大计划的一部分。

安迪尔公司,是潜伏者肖战的老东家,是大数据行业的一匹黑马。安迪尔背景很神秘,人们说不清它是什么时候冒出来的;它不差钱,疯狂招兵买马,近年来频频发布杀手锏的大数据应用。而肖战是安迪尔技术团队的灵魂人物。

肖战是名副其实的技术高手。他常常自认为小时候是一名小镇做题家,这是一个自嘲的称呼。有很多人常说“高分低能”,其实不然,说那些话的人很多都是低分在自我安慰。在学生时代,能短时间内同时把那么多学科学好,并能应付刁钻古怪的难题,这是难得的能力。这样的学生,既能够应付需要积累和运用综合知识的语言类学科,又能搞定需要深刻理解和做题技巧的数理化。高分远远不是万能,但至少是一种高能,是一种学习和动手能力。

这样的学霸,长大后就能优秀吗、就能成功吗?当然不是确定的!那得看他去做什么工作,只有去做适合的工作、去解决难题,才能发挥才能,例如人工智能!

对于人工智能这种,需要持续性学习新知识、创新和探索的领域,肖战这种学霸就是适合的。

上大学时,专业课的学习,他如鱼得水;博士期间,跟着院士导师参与了一个巨大的科研项目,暂露头角,霸气外泄,通透了做大项目的技术路径。从学校毕业后,翅膀硬了,觉得不需要别人扶植了。自己摸爬滚打几年,才发现自己人脉和资源上太有限,再也遇不到好的项目了,做的事情越来越小,总是感觉使不上劲。

就在若干年前,一次人工智能的峰会上,肖战认识了安奈。所谓的峰会,其实没有什么技术的价值,但是很有沟通价值,这常常非常有用,特别是对这个时候的肖战。

安奈纯是一个商人,略懂技术的概念,在外行和领导面前可以口若悬河,可是见到真专家了,就十分的谦逊有涵养。他对肖战就有涵养有风度,这也吸引了肖战。

安奈刚刚从美国拿来风险投资,正准备在中国建一个人工智能的算力中心,要组建技术团队。安奈告诉肖战,这个世界的核心资源,经历了黄金和石油之后,就是这数据和算力了。人工智能会越来越普及,但是就像汽车需要汽油和电,用这些智能算法也是有成本的、也是要耗费能源的,这个能源就是算力。算力就是人工智能的发动机,和石油是一样的。这些算力靠什么?要靠芯片!芯片可不是想买就能买得到的,但是安奈都能拿得到!

安奈就是在这个峰会上,邀请肖战来一起做这么一个大家伙,画了大饼:算力中心要处理的数据规模相当于互联网巨头公司的数据之和,用人工智能的算法,把数据中蕴藏的关联关系挖掘出来,为社会上各个行业赋能。

这不就是大数据梦想吗!正踌躇满志的肖战,自然被这样一幅远景图打动了。肖战关闭了自己的小公司,跟着安奈来到安迪尔。

安奈说的大家伙就是:天湖。

天湖是安迪尔要推出的人工智能旗舰产品。肖战是技术总负责,全身心投入,带着团队连续三年996的加班,自己更是经常通宵达旦。

天湖到底是个什么东西?它是分析人们在互联网上行为的大脑。这个大数据时代,人的一举一动,都被互联网存储起来了。人们在网上聊天、购物、打游戏、工作,而电脑、手机和穿戴设备帮着我们记下了自己的一举一动。就连行走在大街小巷,遍布的摄像头都帮着我们留念。这就是一份人生数字档案!

档案里面记录的人生的痕迹,再也无法被抹掉!人已经失去了“被遗忘的权力”,一旦在互联网上产生了记录,这个数据会被互联网公司存储和备份,甚至被卖掉。谁也说不清楚这些数据有多少备份,想彻底删除已经不可能了。

这些数据是记录着活生生的当代史,是未来的历史学者要研究的生动素材。这是最真实的历史,把几乎所有人的爱恨情仇都记录在数据库里:人是怎么生活的、吃什么、穿什么、听什么音乐,和别人怎么交往、喜欢或讨厌什么样的人,所有这些,数据都忠实的记录着,这些档案远比我们还了解自己。

每个普通人一天的数据,会远超过古代皇上一生的事件记录。这些数据必定是多如大海,是真正的大数据。不仅人是看不完的,就连通常的计算机也看不过来。于是,人工智能像一个幽灵,在消沉了几十年后,又重新站在了舞台的中央。唯有它,才能看的明白,才能找到里面的宝藏。

肖战就处在这样的风口浪尖上,作为人工智能专家,作为一个技术主义者,怎能错过这么好的机会,他要大干一场!

这些留下来的数据,就成了香饽饽,多少人都虎视眈眈,包括安迪尔的天湖!

现在,天湖的研发,就快完工了。肖战被派到笛得公司做潜伏,就是为了天湖的上市,为了天湖能够获取数据。

这一天午饭后,安迪尔的总裁,安奈,过来找肖战。

“这几天测试怎么样?”

“没有什么问题了,天湖整装待发呢!”

“辛苦了,肖战。天湖可是我们的一个现象级的产品,也将是最主流的应用。现在很多公司和机构都想在互联网上研究人的行为,抽取人的‘画像’、人与人之间的关系。”

“技术上,我们已经是最领先的了。我们的技术都是原创的,在最快的图数据库上分析人物关系网络,构建图谱。世界上任何两个人,在我们的图谱上,30秒就能找到两个人之间的关系链路。”

安奈很开心:“非常棒。但是我们还是得找有真实数据的地方去用,天湖才能发挥作用。现在的测试数据已经捉襟见肘了。”

“对。那是必须的啊,安奈总!这是我们马上要解决的问题。要深刻的研究一个人,需要了解他的很多事情,都蕴含在他最常用的应用场景:社交、购物、行动轨迹、游戏、资讯娱乐等等。我们必须把这些数据都集中在一起,才能进行关联分析。”肖战知道,获取数据是难事:没有数据一切都是空的。这些数据,哪里是那么容易就能拿到的。

“现在很多互联网公司,自己确实掌握了大量的数据,但是类型比较单一。例如像笛得这样的公司,包含了大量个人的行动轨迹,虽然可以分析用户的行踪,但并不知道用户到了一个地方后具体干了什么。知道了他去了商场,不知道在商城里面买了什么;去了饭店,并不知道点了什么菜。这些数据都在团购的APP或者支付的APP上,所以笛得分析用户行为就比较难。而这些团购APP只能了解用户消费情况,这些数据在用户的生活中就比较离散,只是冷冰冰的账单,它所能分析的用户特征,就是喜欢水煮鱼的和喜欢吃烧烤而已,但不一定能知道和谁在一起、聊了什么!所以,大数据即使很大,每个场景还是一个孤岛,大数据的价值还远远没有被挖掘出来。这些场景的数据放在一起,我们就什么都知道了。这是要掌握一个人的第一个范式,是知道他做什么、想什么:

他聊天说的话,就是他的语言,是思维的外在,而且这些聊天是他不想公开的。

买什么东西,看似仅仅是生活所需,其实暴露的是他的品味、消费阶层,体现他的需求和欲望。

而通过地图定位软件知道人去哪里,暴露的秘密更多。毕竟身体是诚实的,说的再多也不如看他去哪了。

而游戏,是看他的决策。普通人在真实生活里大部分都是底层,其实能做决策的机会太少了。大部分人都容易变得平庸,生活工作逐渐变成流水线。而在游戏里面,是精华的人生场景,反而决策的场景会更多。

而资讯,是研究他的浏览记录,不管是看新闻还是视频。不仅仅记录了人们看什么,还要知道对每个内容的关注情况,例如每个新闻看了多少时间、有什么反馈。这是研究人们价值观最直接的手段。”安奈一下子来了一个长篇大论。

“安总,原来你早就做过深入的思考,有宏伟的蓝图,感觉是要了解人们的所有行为。另外,你刚才说的第一范式,就是知道人在做什么、想什么。那还有第二范式和第三范式吗,是什么呢?”肖战没想到安奈能想出这么学术的词儿。

“第二范式,就是他自己都不知道,或者说,自己都不确定的事情。”

“潜意识?”

“是可以理解成为潜意识。人都是会做计划的,不管是大事还是小事。但是计划总是在变。人的决定一般认为是通过意识来思考,但很多时候一些事情是通过潜意识当即做的决定。这种决定往往有很多的不确定性,但偶然都来自于必然,这些貌似无缘由的决定都有心理基础:这些都体现在他历史的数据中。这就是人工智能要做的事情,甚至会比自己更准确的预测出下一步会做什么!注意,是‘会’做什么,而不一定是‘要’做什么。”安奈说出了一个惊人的现象,人自己决定的时候会夹杂着一些潜意识的,或者说有一点感性。但是这种感性是有历史积累的,计算机的理性,反而更容易识别并分析它们。

肖战思考了一下,理解了。“人的所谓的计划,只是一种表象。他要做的事情是显性的意识,而会做的事情,往往都有潜伏的动机。这似乎像弗洛伊德的动机理论。但是弗洛伊德那个年代,尽管心理学家做的实验使用了不少的样本,但在数量上和现在的大数据比起来相差的太多了。而且,那些是志愿者来做的试验,可现在的数据都是活生生的生活现实。”

“所以,了解人的决策,是第二范式。那第三范式,就是直接干涉人的决策。”

“那就是认知战了,对人有了足够的了解之后,用特定的信息去影响他,让他买什么东西、喜欢什么明星、吃什么东西。想让他爱谁就爱谁,想让他恨谁就真的去恨。

人们在做这些决策的时候会有一个幻觉,觉得这些都是自己选择的自由。其实不是,这些都是被蓄意灌输价值观之后的结果。其实世界上所有的广告商做的也是类似的事情,通过广告来影响消费者的生活方式观念来支配购物决策。广告公司分析了很多数据,但相对于互联网的大数据,广告公司分析数据的能力还不够,他们更需要人工智能和算力。”

安奈也跟着有点兴奋。“对。加上人工智能的算法和庞大的计算机算力。。。肖战,这些东西在我脑子里转了几年了。天湖要上线了,离成功不远了。”

读书三件事:阅读,收藏,加打赏!