加入收藏 | 设为首页 | 会员中心 | 我要投稿 广州站长网 (https://www.020zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据基础课03 阿里美团这些大厂都在用什么大数据架构?

发布时间:2022-10-26 16:00:43 所属栏目:大数据 来源:网络
导读: 首先,我想讲一个叫庖丁解牛的故事,想必你应该听过。庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛。也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的

首先,我想讲一个叫庖丁解牛的故事,想必你应该听过。庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛。也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构,砍入牛体筋骨相接的缝隙,顺着骨节间的空处进刀。依照牛体本来的构造,筋脉经络相连的地方和筋骨结合的地方,都不曾被刀碰到过,更何况大骨呢!这样,能够顺利地把牛解开,还不会对刀造成损害。所以,他明白了最核心的思维,即顺应天然结构,这种思维成就了他的大厨身份。反之,如果对于一个没有这种思维的人,即便是拿着最锋利的刀,面对一头完整的牛也会手足无措。

每个行业都有每个行业的思维方式,这些思维暗示着行业运转背后的规律。当我最初了解到这些思维方法,我还是一个行业新人,对其中所讲的内容一知半解,不置可否,而今天,当我再次回顾这些方法的时候,感到醍醐灌顶,无比认同。这些思维方式往往经过很多对这个行业的深入研究,并且能够通过现象看到本质的大师结合自己的经验总结而成的。

那么接下来,就让我们看一下,在大数据时代,有哪些思维方式可以帮助我们快速进入工作状态。

全量思维

在介绍全量思维之前,我们先来思考一个问题:如果要统计阳澄湖中大闸蟹的数目,你想采取怎样的方法?

显而易见,最直接的方法就是把阳澄湖的水抽干,把里面的大闸蟹都捞上来,然后一个一个地数一数共有多少只大闸蟹。

但是想到这个方案的瞬间你可能就会打消这个念头,因为这个方案实现成本太大,几乎是不可能完成的。

退而求其次,我们可以在阳澄湖的几个不同的区域撒一些网,看看每个区域能够捞到多少只大闸蟹,然后推断一下与之面积类似的区域的大闸蟹数量。这种方法比起前一种方法更加可行,但是获得的结果肯定不如前一种精确。

第二种方法就是“抽样”。抽样思维在很长的一段时间里,甚至在现在很多的行业和实验中,都扮演者十分重要的角色。在数据获取困难、处理难度大的情况下,抽样思维是一种非常优秀的权宜之计。

而与这种抽样思维相反的,就像我们的第一种方法——全量思维,即把所有大闸蟹都捞出来数一数。

你肯定会说,第一种方法实现成本不是巨大吗?然而在大数据场景下,数据的采集已经变得极其方便,数据的存储也不再昂贵,各种硬件的性能不断提高,数据的计算速度也越来越快。尤其是还有很多优秀的研发机构推出了强大的大数据架构方案,比如 Hadoop、Spark、Flink 等,进一步降低了全量处理的成本。

如果要做一个服装行业消费情况的分析,我们仅仅是从数据中随机地抽取一些用户消费记录来分析他们的消费情况,可能永远也没办法知道在人均消费 200 元的市场上,会有人一掷千金花费 200 万元来购置衣服。所以,在全量思维的情况下,任何没有经过全体数据验证的事情,都可能是存在问题的。

所以,在现在工作中,涉及获取数据的环节,我们通常是事先规划好所有能够获取的全部数据情况,拿用户阅读内容为例,用户阅读的内容不用说,用户点击的时间、用户阅读的比例、用户阅读的时长、用户阅读时点击的区域等行为信息都要一一记录下来,全部存储到用户行为日志中,在后续的处理过程中再进行选择,而不是在一开始就对数据进行取舍,导致在后面需要用时捉襟见肘。

容错思维

在全量思维的基础之上,第二个重要的思维是容错。

我们所处的世界是纷繁复杂的,不确定性使得我们的世界充满了各种异常、偏差、错误,所以我们收集的全量数据自然也存在着这些问题,数据的残缺、误差、采集设备的不足、对非结构化数据的不同认知等都会引起这些问题。过去,对数据的处理我们往往追求精益求精,希望借助严格的数据筛选策略和足够复杂的计算逻辑来获得完美的效果,然而,这是不符合实际情况的,极端复杂也导致了泛化性能不好,在测试阶段的优秀效果,到了实际的生产环境中往往水土不服。

比如说我们要做一个给新闻进行分类的项目,在项目之初我们往往会进入对新闻进行精确分类的死胡同,期望能够给每一条新闻分出一个明确的类别。然而,世界上的新闻是多种多样的,事实上,一条新闻可能属于一个类别,也可能属于多个类别,甚至在不同的读者看来,它属于不同的分类。在自然中的东西很少是泾渭分明的,我们的新闻自然也是如此,我们追求模型的准确率,从 75% 到 85%,再到 95%,然而我们永远不可能做到 100%,因为这种完美分类本身就是不存在的。

当然,我们不能在准确率不足的时候,以其本身的不确定性为借口。相反,我们应该:

在大数据的体系下,我们应该更加关注效率的提升,在这样一个前提下,要容忍那些本身就存在的误差甚至是错误。

相关思维

由于大数据数量众多,而数据中又存在着各种各样的误差,甚至是错误,数据之间的关系错综复杂。通过这些数据,我们会发现其中蕴含着各种各样奇怪的知识,而这些知识都属于“事实”,而非“因果”。比如说,当某个地区在百度上搜索“感冒”的人数超出了往常,你可能会从数据中推测出这里有很多人得了感冒,从而做出一些商业决策,比如说销售感冒药,但是你很难从这个数据中得出他们是为什么得了感冒。因为得感冒的原因很多:

在大数据背景下,我们不再追求难以捉摸的确定的因果关系,而是转向对相关关系的探索。通过对相关关系的分析,我们可以知道:

如此种种不胜枚举。通过数据掌握相关关系,可以让我们在商业决策中做出正确的决定,有时候甚至是出奇制胜的妙招。

这种相关思维甚至有点中国传统的中庸之道的味道,即知道是什么就够了,不需要知道为什么。相关关系不存在绝对性,而是存在着概率性的变化。在大数据之下发现的相关关系可能有着特定的环境和背景,比如随着中国的崛起,低端印刷产业转移到了东南亚;而我们义乌的旗子产量可能与美国大选的结果就不存在这种关系了。所以,我们要正确地认识相关思维,千万不要把因果关系与之画等号,在这个千变万化的世界中,相关关系也会随着内外部条件发生转移,唯一不变的就是变化。

高可复用

正是由于前面三个大数据思维,在我们的日常工作中,一定要保持一种数据复用的思维。当你逐渐明白了,全量的数据才能表示全量;当你能面对各种问题数据心平气和;当你能够从数据中找到各种各样的相关关系,那你一定能明白数据复用的重要性。

一个公司的数据看似由不同的部门产生,并用在不同的业务上,然而这些部门往往存在着千丝万缕的联系,这些业务也存在着不同程度的交叉。所以,一份数据如何能够进行不同程度的复用,将是你获得突破的核心思考。

比如说滴滴旗下有打车业务,有顺风车业务,有代价业务,有地图业务,有共享单车业务,还有社区团购业务。打车业务的大量打车信息,每一辆行驶中的汽车及其中的乘客,都是一个个丰富的数据收集器:

这些还都仅仅是在公司内部的复用,这里给你留一个小小的思考美团大数据,打车数据是否还可以用来做一些 ToB 的业务,从而为公司获得更加丰厚的利润呢?

所以,在这样的数据背景下,你所熟知的数据可能不被其他部门或者其他业务的人所熟知,跳出你的业务惯性,积极地思考数据所能够带来的价值,能够在什么地方发挥作用,是一个重要的思维方法。也正是因为这样,你的一个不经意的思考,可能带来意想不到的效果。

总结

讲到这里,关于大数据思维的几个要点就介绍完了,这可能不完全,也可能不准确,因为我们的大数据体系也在飞速地变化和发展。但是这一讲中提到的几个思维方式的变化,是我在整个工作中感悟比较深刻的几点。当然了,这些思维方式也不是我提出来的,而是在前人的基础上,加入了一些我自己的解读,希望能够给你带来一点自己的思考。

另外我在上文中留的小作业,希望你能思考下。并且有任何问题和心得,都可以在留言区留言。

下一讲,我们开始讲解大数据框架的模块,到时见!

(编辑:广州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!