米乐6|米乐电竞|米乐官网
米乐6
米乐6
电话:0851-85824918
传真:0851-85824918转8018
E-mail: gyjlykj888@163.com
地址:贵阳市花果园中央商务区2号楼1单元44层
  您当前位置:首页 > 新闻中心
大数据已死!从业10年老哥爆文抨击:这套唬不住客户了

来源:米乐6    发布时间:2023-09-29 17:12:28

  说这话的,正是来自Google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。

  大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起(唬住)客户为相关服务买单的欲望,否则就将被数字时代抛弃。作者自己也曾是其中之一。

  但现在,Jordan Tigani不仅认为这种观点行不通,还称“数据大小根本不是问题所在。”

  那么问题在哪?他认为,我们已无需担心数据大小,而应专注于怎么样去使用数据来做出更好的决策。

  值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调重要的是曲线形状趋势,而非确切数值。

  这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。

  亮出曲线后,销售们会顺势鼓吹产品,告诉客户大数据时代来了!你需要我手里的产品服务!

  但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。

  一个佐证是近些年传统架构的数据管理系统复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。

  一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。

  鼓吹大数据时代就在眼前的另一个说法是每一个人都会被产生的数据淹没。

  但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大规模的公司,其数据量级也soso。

  根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。

  只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。

  不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。

  拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,此公司得做几千年生意。

  另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销跟踪数据及服务日志加起来,也只有几GB。

  由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即数据存储上涨的速度,远大于计算资源需求增速。

  具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。

  作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。

  作者认为,大量计算服务不被需要,也就从另一方面代表着前沿架构不太有必要,甚至分布式处理也Duck不必。

  多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。

  在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。

  正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。

  一个侧面佐证是业内符合原本“大数据”定义的产品也在变少。

  在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。

  但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。

  具体来说,作者觉得,大数据的另一重内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们应该判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。

  这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。

  此外,基于相关监管规定,很多类型数据(比如涉及个人隐私的手机号)也需要定期清除。

  再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)

  对于Jordan Tigani上述观点及论证,有网上的朋友表示支持,还联想到之前类似的工作经历。

  当红炸子鸡ChatGPT背后老板Sam Altman,此前在旧金山一次技术活动中,也谈过对大数据的看法,Sam认为

  AI研究领域取得令人印象非常深刻的进步,不仅依靠海量数据,同时更需要海量的计算。

  上述观点不仅强调了海量数据重要性,对比Jordan Tigani所认为的“重存储轻计算”看法,正好相反。

  另一个不同声音来自一位名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是围绕“大数据是否消亡”

  所给出理由是:一方面依据是全球生成的数据总量仍在加速增长,且细致划分领域中,处理“大数据”正成为常态。

  基于此,Lewis Gavin认为所谓“大数据死亡”,只是营销说法的消亡,但Big Data处理技术和应用仍存在,且它会成为习以为常的现象。

  IDC于1月24日发布的一篇预测证明了大数据市场仍在增长,内容指出

  未来几年,全球大数据和分析软件市场将实现强劲增长,且具体到该板块各细分领域,未来几年增长率均为双位数。

  他表示:数据之所以没发挥价值,其实是商界精英们往往忽略数据内蕴藏的结论。

  自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)

上一篇:试达测评马云不建设大数据十年后会后悔
下一篇:大学10大“失宠”专业排名一录取就后悔毕业后就业迷茫
米乐6
米乐电竞
新闻中心
公司新闻
产品中心
软件产品
米乐官网
解决方案
网站地图

微信二维码扫描
联系电话:0851-85824918  手机:0851-85824918转8018  邮箱:gyjlykj888@163.com
Copyright 2020   米乐6|米乐电竞|米乐官网  版权所有.  地址:贵阳市花果园中央商务区2号楼1单元44层   
免责声明:本网站部分资料来自互联网,如果涉及到版权问题,请及时通知本站,我们尽快删除或更改。    米乐6