人工智能,“抛弃”真实数据集?

2022-04-01 16:25:26   来源:商业新知网

来源:学术头条

当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。 但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。 比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。 而且,使用已有数据生成数据集,也会花费数百万美元。 另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。 那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢? 近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。 相关研究论文以“ Generative models as a data source for multiview representation learning ”为题,以会议论文的形式发表在 ICLR 2022 上。

不输于真实数据

这种特殊的机器学习模型被称为生成模型(generative model),相比于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和使用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。 据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。 简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。 (来源:Pixabay) 研究人员表示,一旦生成模型在真实数据上进行训练,就可以生成几乎与真实数据无法区分的合成数据。 另外,生成模型还可以基于训练数据做进一步拓展。 如果生成模型是基于汽车图像进行训练的,它就可以“想象”出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。 生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。 基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。 而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。 但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋?

有效数据的稀缺性,以及采样偏差,已经成为机器学习发展的关键瓶颈。 近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。 去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是“最引人注目和最强大的人工智能技术之一”。 据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。 图|Gartner 2022 年重要战略技术趋势(来源:Gartner 官网) 2020 年,生成式 AI 作为一个新增技术热点,在 Gartner 发布的“Hype Cycle for Artificial Intelligence,2020”中首次被提出。 在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。 (来源:Gartner Hype Cycle for Artificial Intelligence, 2021) 生成式 AI 的突破在于,它可以从现有数据(图像、文本等)中学习,并生成全新、相似的原始数据。也就是说,它不仅可以做出判断,还能够进行创造,可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。 但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。 那么问题来了,如果我们有足够 好的生成模型,还需要真实的数据集吗?

声明

来源:学术头条 , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

关键词: 机器学习 研究人员

上一篇:
下一篇:
精彩阅读

人工智能,“抛弃”真实数据集?

热点

当前,人工智能技术已经应用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。

商业遥感的瓶颈仅仅是分析处理吗?理念转型才是核心问题

热点

商业遥感的市场之所以还没有打开,仅仅是因为服务的质量、数量还不够充足,价格还不够低,没有达到卫星导航定位服务的程度。

狗尾巴的故事—数智时代的第一性原理|科创人·数智未来私董会

热点

科创人·数智未来私董会第3期于2022年3月26日圆满举办。

安全牛《中国网络安全行业全景图》发布 指掌易安全能力覆盖多个安全领域

热点

2022年3月31日,安全牛第九版中国网络安全行业全景图(基于2021年度数据申报收录)正式发布。

科创人·知乎CTO李大海:技术服务内容、商业化依赖内容,曾被「呵呵」难到挠头

热点

2006年,即将毕业的北大数学系硕士李大海,陷入了一场决定人生方向的长考。

TikTok遭扎克伯格“黑公关”:全美撒黑稿,持续大半年,现在不得不承认了

热点

“Meta雇佣公关公司抹黑TikTok”这个话题,在外网爆了。

Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

热点

本文为你介绍一种叫做分层JEPA(联合嵌入预测架构)的架构。

微信:扫码点餐强制关注公众号整改已经完成95%

热点

去餐厅吃饭点餐还要扫码关注公众号的情况你遇到过吗?目前,许多餐厅已不再提供人工点餐,甚至不提供现场菜单,消费者只能关注公众号或通过

领英千个 AI 人脸揭开真实世界严峻考验,关于 Deepfake 你需要知道这些

热点

根据新法,这类高风险AI应用将受到欧盟严格监管,违法企业最高面临全球年营收6%的罚款。

微盟2021财报:SaaS业务逆势增长90.9%

热点

截至2021年12月31日,微盟集团的现金及现金等价物为38 09亿元,现金流充裕,财务结构健康可持续。

财富

苹果公司发布第16份报告:将提供5000万美元的员工发展基金

资讯

苹果公司今天发布了其第16份年度《我们供应链中的人与环境》报告。这份文件以前被称为"供应商责任报告",详细介绍了苹果公司及其供应商如何

英特尔推出首个支持AV1视频编码的GPU硬件供应商

资讯

AV1 是一个非常高效、开源、免版权费的视频编解码器,和 HEVC(H 265)和 AVC(H 264)等竞争。在流媒体和视频平台加速整合 AV1 的同时,

彩虹股份G8.5二期液晶基板玻璃生产线投产

资讯

3月30日,彩虹股份G8 5二期液晶基板玻璃生产线在彩虹(合肥)液晶玻璃有限公司点火投产。据了解,2020年,国产首条完全自主知识产权的溢流法G8

*ST艾格迎最后一个交易日 A股拉夏等3股恐将终止上市

资讯

A股正在加速出清垃圾股。3月30日晚间,*ST中新(603996)、*ST拉夏(603157)、*ST东电(000585)三家公司均宣告了退市风险,可能将被终止上市,

裁员不是不可,只是解聘NN

资讯

近段时间,但凡是知名的大厂,没有谁能躲得过裁员的传闻。无论是媒体的深挖,还是社交平台上的分享,都让那些真真假假、虚虚实实的传言变得

“双碳”指引下,中国废旧家电回收行业迎来新一轮投资热潮

资讯

家住广州的晓晨,最近换了台消毒柜,旧机修不好又太重,直接让维修师傅拉走,后以废铁形式被转卖给废品回收人员。今后,废旧家电的回收也许

如何让廉江小家电“走出去”

资讯

3月25日,主题为携手廉江智造 共享发展机遇的洽谈会在广东湛江举行,政府、海内外商业协会、行业资深人士云聚会,探讨如何让廉江小家电走

海信视像连续两次增持乾照光电跻身第一大股东

资讯

日前,厦门乾照光电股份有限公司(以下简称乾照光电)发布公告称,海信视像科技股份有限公司(以下简称海信视像)近日增持了公司部分股权,本次

罚款500万欧元!苹果又被罚款了!

资讯

上周,苹果已经在荷兰连收了第9张罚单,罚款500万欧元,苹果公司未能全面遵守一项命令,向荷兰的约会应用开放与之竞争的其它App Store支付

摩根士丹利首席分析师:苹果硬件订阅将允许用户每月付款

资讯

据一位分析师称,如果硬件订阅的传言属实,那么苹果可能即将进行广泛的业务转变--从iPhone出货量转向安装基础货币化。摩根士丹利首席分析师

商业遥感的瓶颈仅仅是分析处理吗?理念转型才是核心问题

商业遥感的市场之所以还没有打开,仅仅是因为服务的质量、数量还不够充足,价格还不够低,没有达到卫星导航定位服务的程度。

狗尾巴的故事—数智时代的第一性原理|科创人·数智未来私董会

科创人·数智未来私董会第3期于2022年3月26日圆满举办。

安全牛《中国网络安全行业全景图》发布 指掌易安全能力覆盖多个安全领域

2022年3月31日,安全牛第九版中国网络安全行业全景图(基于2021年度数据申报收录)正式发布。

科创人·知乎CTO李大海:技术服务内容、商业化依赖内容,曾被「呵呵」难到挠头

2006年,即将毕业的北大数学系硕士李大海,陷入了一场决定人生方向的长考。

TikTok遭扎克伯格“黑公关”:全美撒黑稿,持续大半年,现在不得不承认了

“Meta雇佣公关公司抹黑TikTok”这个话题,在外网爆了。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马