加入收藏 | 设为首页 | 会员中心 | 我要投稿 广州站长网 (https://www.020zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数量比准确更重要

发布时间:2022-11-01 19:00:36 所属栏目:大数据 来源:互联网
导读: 你可能想不到,在大数据时代,数据的数量要比它的精度更重要。在过去的时代,技术的发展限制了我们获得更多的数据。在这个时候,追求数据的精确性是没错的。因为当数据总量过小时,单个样本

你可能想不到,在大数据时代,数据的数量要比它的精度更重要。在过去的时代,技术的发展限制了我们获得更多的数据。在这个时候,追求数据的精确性是没错的。因为当数据总量过小时,单个样本的不准确性可能会被放大很多倍。

然而,大数据时代却是不同的,数据数量的极大提升对精确性的要求下降了。这首先是因为在数据量巨大的情况下,追求精确性就是不现实的。世界的本质不是可以精确测量的,物理学已经证明这一点了。而且在网络空间中,不但数据内容的准确性无法保证,就连数据的时间属性也无法保证大数据数量级,这就让数据的混乱性更高了。如果把重点放在数据的精确性上,相比我们得到的,我们可能失去的更多。现在,最好的翻译系统是谷歌翻译。但是谷歌翻译系统所依赖的语言库准确度很高吗?并不是,谷歌语言库的来源是互联网上巨大的语言资源。这些数据本身就不是准确的,有着大量的语法、拼写错误。但是,人们却惊奇的发现,当数据量上升到一个量级,比起对翻译算法的优化,数量数目对好的翻译结果的促进更加明显。

大数据 大数据_大数据之路阿里巴巴大数据实践_大数据数量级

在数据量巨大的情况下,尽管有小部分数据是不准确的,但是巨大的数量反而弥补了这些不足,使结果的准确性反而上升了。

在传统的数据统计中,人们一般会把数据统计为经典的关系型数据库。但是,大数据的时代,关系型数据库根本无法满足对数据存储的要求。首先,大数据时代产生的数据可能就不是关系型的。许许多多的数据之间并没有特别清晰的关联。如果过分的追求结构化,就失去了获得大量数据的可能性。其次,传统数据要求的一致性,在大数据时代也不能保证。当数据的数量巨大时,数据往往不会只存储在一台计算机上,它会分部在多台计算机上。这样,当一台计算机的数据发生了更新,整个数据部分可能来不及同时更新。这就使得非关系型的数量结构在大数据时代获得了更好的效果。

(编辑:广州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!