强化学习,关于强化学习的所有信息

可解释机器学习最新综述:应用于实时场景中的机遇与挑战

深度模型(神经网络)的推理过程是黑盒化的、不可解释的。

2023-02-28

全球视讯!【AI】想训练ChatGPT?得先弄明白Reward Model怎么训

随着最近ChatGPT的大火,越来越多人开始关注其中用到的RLHF这一核心思想。

2023-02-21

ChatGPT如何影响银行

ChatGPT迅速走红的背后,可以说是GPT类的自回归类语言模型的一次翻身仗。

2023-02-15

反向用随机梯度下降来优化人生

当然,也可能人生就是随机挑战。

2023-02-03

热文:Amazon DeepRacer 自动驾驶总决赛收官,店匠科技斩获全国四强

近日,由亚马逊云科技举办的首届AmazonDeepRacer自动驾驶赛车互联网行业全国总决赛圆满结束。

2023-01-19

给ChatGPT喂黑话学得贼快,网友:你把AI教恶心了我们还怎么玩?

ChatGPT彻底让网友们陷入疯狂,也带?了一众理论研究。

2022-12-19

AI好奇心,不只害死猫!MIT强化学习新算法,智能体这回「难易通吃」

MIT强化学习新算法,根据监督稀疏程度自动调整AI智能体「好奇心」,高低难度任务通吃。

2022-11-30

全球观察:训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQ

谷歌的研究者提出了一种称为「ActorQ」的新范式,使用量化将强化学习训练速度提高1 5-5 4倍。

2022-10-18

天天百事通!强化学习发现矩阵乘法算法,DeepMind再登Nature封面!

DeepMind的Alpha系列AI智能体家族又多了一个成员——AlphaTensor,这次是用来发现算法。

2022-10-09

李飞飞团队提出零样本泛化的技术,性能超越SOTA!

强化学习中的泛化,是指通过不断跟环境交互,产生出一种网络的记忆性。

2022-05-21

论文 | 基于深度强化学习的区块链工业物联网节能资源分配

区块链越来越火,被广泛应用到工业物联网中,但依然存在计算量大、共识效率低,能耗高等问题。

2022-04-18

这个赛车AI不再只图一时爽,学会了考虑长远策略

玩赛车游戏的AI们现在已经不仅仅是图快图爽了。

2022-03-23

在新的数学证明中,人工智能取胜

一个以AlphaGo等人工智能系统为原型的新计算机程序解决了组合学和图论中的几个未解决问题。

2022-03-14

世界即时:阿里巴巴2022年全年裁员1.9万人

目前,阿里巴巴仍有239740名员工。

观天下!蚂蚁集团第二次分红派息319亿元,两次累计超438亿元

阿里最新财报披露了蚂蚁集团第二次分红的具体情况。

当前头条:腾讯要代理Meta Quest,是妙招,但修Bug得趁早

这种变化其实并不完全意味着元宇宙概念已经彻底失败,或是VR硬件再一次开始退潮。

全球热门:河南广电与大象融媒签署战略合作协议,推动河南省5G发展新格局

2月24日,中国广电河南网络有限公司与河南大象融媒体集团有限公司在大象融媒一楼新闻发布厅举办战略合作签约仪式。

环球速读:【阿里四位大总裁“期末交卷”:谁才是“全村的希望”?】

与业务重新划分相对应的,是组织结构的调整。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个