环球要闻:大数据已死!从业10年老哥爆文抨击:这套唬不住客户了

2023-02-15 10:17:35   来源:商业新知网

詹士 发自 凹非寺 量子位 | 公众号 QbitAI

“大数据已死。”

说这话的,正是来自Google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。

在最新发布的一篇博文中,他表示——


(资料图)

大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起 (唬住) 客户为相关服务买单的欲望,否则就将被数字时代抛弃。作者自己也曾是其中之一。

但现在,Jordan Tigani不仅认为这种说法行不通,还称——“数据大小根本不是问题所在。”

那么问题在哪?他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。

如此言论之下,也吸引了不少业内人士的围观和热议。

他的上述观点有何依据?

不妨从证明过程看起。

值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——重要的是曲线形状趋势,而非确切数值。

“恐吓”客户的话术出问题了

Jordan Tigani先从一张PPT聊开去。

这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。

亮出曲线后,销售们会顺势鼓吹产品,告诉客户——大数据时代来了!你需要我手里的产品服务!

但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。

一个佐证是近些年传统架构的数据管理系统复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。

一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。

Jordan Tigani认为——如果大数据真是未来,那情况应该不一样。

鼓吹大数据时代就在眼前的另一个说法是——每个人都会被产生的数据淹没。

但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大型企业,其数据量级也soso。

根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。

这样一来,客户数据大小与数量服从幂律分布。

只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。

不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。

拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。

另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销跟踪数据及服务日志加起来,也只有几GB。

就这,能叫大数据?

还不算完,即便看“已有”部分,也有问题。

由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即——数据存储增长速度,远大于计算资源需求增速。

具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。

Jordan Tigani的一个客户就是这样。

作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。

作者认为,大量计算服务不被需要,也就意味着前沿架构不太有必要,甚至分布式处理也Duck不必。

与之类似,分析数据的工作负载也远小于数据体量。

多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。

在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。

这种需求,也不要求性能优先,且仅是企业一周几十万个查询中的极少数。

正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。

一个侧面佐证是——业内符合原本“大数据”定义的产品也在变少。

在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。

但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。

既然大数据时代结束了,那是不是说,相关从业者要下岗了?

作者也提出了自己的看法——

结束了,但没完全结束。

具体来说,作者认为,大数据的另一重内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们需要判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。

这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。

此外,基于相关监管规定,很多类型数据 (比如涉及个人隐私的电话号码) 也需要定期清除。

再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)

ChatGPT老板有不同看法

对于Jordan Tigani上述观点及论证,有网友表示支持,还联想到之前类似的工作经历。

也有网友表示:

当XX已死,说明它真实被认可的地方会被保留下来。

值得一提的是,并非所有人都赞同作者的观点。

尤其鉴于“XX已死”将话说得太满,有网友认为:

在近期AI大火之际,判决AI所依赖的大数据已死,也是挺敢说。

当红炸子鸡ChatGPT背后老板Sam Altman,此前在旧金山一次技术活动中,也谈过对大数据的看法,Sam认为——

AI研究领域取得令人印象深刻的进步,不仅依靠海量数据,同时更需要海量的计算。

上述观点不仅强调了海量数据重要性,对比Jordan Tigani所认为的“重存储轻计算”看法,正好相反。

另一个不同声音来自一位名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是围绕“大数据是否消亡”

他认为:

大数据不会死,只会变得更重要。

所给出理由是:一方面依据是全球生成的数据总量仍在加速增长,且细分领域中,处理“大数据”正成为常态。

基于此,Lewis Gavin认为——所谓“大数据死亡”,只是营销说法的消亡,但Big Data处理技术和应用仍存在,且它会成为习以为常的现象。

IDC于1月24日发布的一篇预测证明了大数据市场仍在增长,内容指出——

未来几年,全球大数据和分析软件市场将实现强劲增长,且具体到该板块各细分领域,未来几年增长率均为双位数。

有意思的是,有网友提出“大数据的死亡”并不是个技术话题。

他表示:数据之所以没发挥价值,其实是商界精英们往往忽略数据内蕴藏的结论。

另一位网友也表示赞同,还称:

自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)

关键词: 数据大小 工作负载

上一篇:
下一篇:
精彩阅读

环球要闻:大数据已死!从业10年老哥爆文抨击:这套唬不住客户了

热点

他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。

给ChatGPT搞双眼睛,《流浪地球2》MOSS有影儿了

热点

OpenAI的AI聊天机器人ChatGPT火爆全球,成为现象级消费类AI应用,并由此引发新一轮的AI竞赛。

当前关注:ChatGPT爆火,需要思考的问题很多

热点

新型人工智能聊天机器人模型ChatGPT横空出世,引发轰动。

【热闻】IDC:2026 年供需联动将推动中国物联网连接规模超百亿

热点

预计中国物联网连接规模2022年达56亿个,到2026年将增至约102 5亿个,复合增长率约18%。

动态焦点:集度官宣融合文心一言,类ChatGPT人工智能技术全球首发上车

热点

集度首款汽车机器人ROBO-01及其探月限定版将于2023年内开启产品交付。

教育行业争相入局ChatGPT,智能学习的春天来了?

热点

作为数字经济的重要组成部分,人工智能的发展前景毋庸置疑。

每日关注!谷歌和百度几乎同时成立,发展相差却那么大?

热点

Google和百度在时间上差不多同时成立,但它们的发展路径却有很大不同。

月报 | ChatGPT引爆全网,1月人工智能资本市场情况如何?

热点

最近几天,聊天机器人ChatGPT引爆全网。

新动态:现在最火的AIGC到底是什么?

热点

与AIGC合作需要关注技术、业务和人力资源,以确保项目的成功。

每日动态!超级平台的春天来了,告别内卷,不再微创新

热点

2023年以来,支持平台经济健康发展成为各地政府“重头戏”。

财富

用qq戳一戳对方会有什么提醒?qq如何设置戳一戳内容?

资讯

1、进入手机QQ主界面,选择想要进行戳一戳的好友。2、进入和好友的聊天界面,选择下方【手指符号】。3、在弹框中,即可看到戳一戳和其他选

怎么关闭打开的所有网页?手机网页安全警告如何关闭?

资讯

1、首先打开浏览器,然后点击任务栏中的工具。2、之后点击下拉菜单中的Internet选项。3、再点击选项窗口中的安全。4、接着去点击下面的自定

百度已缓存视频怎么保存本地?百度下载的文件怎么保存到手机?

资讯

1、打开百度文库,点击下载进入我的下载2、点击文件夹图标,即可进入下载文件的文件夹一般默认的百度文库下载的文档都会保存在我的文档里,

qq头像不显示什么原因?qq显示更换头像失败是为什么?

资讯

1、重新尝试上传可以挑选一张更高清合理的大图进行上传,最好从本地相册中挑选一张比较好看的图片,选择合适的截屏角度,不要上传尺寸或体

手机看视频总卡屏怎么办?浏览器看视频为什么特别卡?

资讯

1 下载与看视频同步:这是看视频卡的主要原因,很多人会一边下载东西一边看视频,两不耽误吗,但是使用的是2M宽带,你说它能不卡吗。解决办

抖音私密账号怎么查看作品?抖音开启私密账号谁可以查看作品?

资讯

1、打开手机上的抖音app;2、在【我】的界面点击右上角的【三】按钮;3、然后在展开的菜单中选择【设置】;4、进入抖音设置之后,上下滑动选择

微信气泡怎么设置?如何提高微信账户安全等级?

资讯

1 打开微信,在我的界面中点击【状态】;2 在状态界面中选择一个状态;3 在状态的编辑界面中输入相关的微信的等级文字;4 完成内容设置后即可

携程旅行怎么订旅馆?携程预订旅店如何入住?

资讯

1、在手机上打开携程旅行App,输入您的账号和密码进行登录。2、进入携程旅行App主页面,点击进入特价酒店页面。3、选择您要入住酒店的时间

如何查看谷歌地图街景?高德怎么进入街景?

资讯

我们在ourplay中搜索谷歌地图并下载打开。打开软件并找到您的目的地。点击左下角的街景,打开等待加载就可以看到目的地的街景啦~点击谷歌地

picsart如何导入图片?picsart怎么在图片上添加图片?

资讯

1、首先打开picasa软件,然后双击我们想要添加水印的图片打开编辑模式;2、在编辑模式中找到文本并打开它,这个就是给图片添加水印的功能了;

给ChatGPT搞双眼睛,《流浪地球2》MOSS有影儿了

OpenAI的AI聊天机器人ChatGPT火爆全球,成为现象级消费类AI应用,并由此引发新一轮的AI竞赛。

当前关注:ChatGPT爆火,需要思考的问题很多

新型人工智能聊天机器人模型ChatGPT横空出世,引发轰动。

【热闻】IDC:2026 年供需联动将推动中国物联网连接规模超百亿

预计中国物联网连接规模2022年达56亿个,到2026年将增至约102 5亿个,复合增长率约18%。

动态焦点:集度官宣融合文心一言,类ChatGPT人工智能技术全球首发上车

集度首款汽车机器人ROBO-01及其探月限定版将于2023年内开启产品交付。

教育行业争相入局ChatGPT,智能学习的春天来了?

作为数字经济的重要组成部分,人工智能的发展前景毋庸置疑。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个