强化学习_最新强化学习相关热门资讯_36氪

搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
氪睿研究院
媒体品牌
企业号
企服点评
36Kr研究院
36Kr创新咨询
企业服务
核心服务
城市之窗
政府服务
创投发布
LP源计划
VClub
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
创业者服务
创投平台
AI测评网

搜索

我要入驻

强化学习

强化学习最新资讯，36氪聚合所有强化学习相关的文章报道，并为你提供最新的相关资讯。

本次共找到 3694 条【

强化学习

】相关信息

强化学习的入门之旅

非监督学习、监督学习、强化学习，这三个部分基本上包含了机器学习研究与应用的方方面面。

将门创投2018-02-12

如何开启强化学习的大门？

通俗易懂的语言来帮助你理解强化学习的本质

将门创投2017-09-08

强化学习：兵分三路，挺进产业

下一个伟大AI技术已经走出实验室。

机器之能2021-04-02

2025年图灵奖：强化学习的前世今生

巴托萨顿因强化学习获图灵奖，DeepSeek应用显突破。

36氪的朋友们2025-04-01

深度强化学习训练AI，像人类一样玩DOOM

在刚刚结束的ViZDoom AI竞赛中，NEXT研发中心Axon小组经过热身赛，淘汰赛，决赛三轮激烈角逐，最终斩获季军。

前沿新观察2017-08-25

为何强化学习火遍硅谷？AGI的关键一步

Meta收购Scale AI，背后藏着多模态焦虑

硅谷1012025-08-07

强化学习之父联手 3D,游戏之父入局 AGI

CSDN2023-10-09

当AI开始“踢脏球”，你还敢信任强化学习吗？

不完美的AI，才是真实的。

脑极体2020-03-31

强化学习AI系统的设计实现及未来发展

从传统的RLHF系统开始，结合算法实践展示出RL系统的现状及发展脉络。

极客邦科技InfoQ2025-11-04

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

OpenAI 很多时候起到一个行业指路明灯的作用。

账号已注销2024-09-20

揭秘 DeepSeek 内幕，为什么强化学习是下一个 Scaling Law？

DeepSeek 之后，程序员将分为三类……

CSDN2025-02-27

入门指南 | 人工智能的新希望——强化学习全解

很多人说，强化学习被认为是真正的人工智能的希望。本文将从7个方面带你入门强化学习，读完本文，希望你对强化学习及实战中实现算法有着更透彻的了解。

大数据文摘2017-02-20

DeepMind最新论文：强化学习“足以”达到通用人工智能

人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。

账号已注销2021-06-16

Science Robotics封面，DeepMind强化学习打造超一流机器人球员

征战足球赛场

新智元2024-04-15

英伟达要做Robotaxi，采用端到端+强化学习｜36氪独家

自动驾驶，英伟达挫折中摸索

徐蔡钰2025-10-14

亚马逊AGI负责人离职，强化学习大佬Pieter Abbeel接任

新架构，新气象。

机器之心2025-12-19

强化学习之父：大语言模型是一个错误的起点

没有“吸取苦涩的教训”（Bitter-Lesson-pilled）。

账号已注销2025-09-28

Google Brain负责人Jeff Dean谈机器学习、强化学习与增强学习

在机器学习中，我们需要更多地去结合潜意识学习和针对性学习

将门创投2016-12-13

强化学习教父重出江湖，生成式AI的时代要结束了？

强化学习之父Sutton加入ExperienceFlow，主张AI从经验中学习。

新智元2025-11-07

DeepMind强化学习重大突破：AI在多人射击游戏完胜人类！

继OpenAI之后，DeepMind也在多智能体强化学习方面秀肌肉

新智元2018-07-04

迪士尼玩起强化学习，新机器人有星球大战那味了

有“情感”会卖萌，还能应对偷袭

量子位2023-10-09

LLM抢人血案：强化学习天才被挖空，一朝沦为「无人区」

AlphaStar等证明强化学习在游戏等复杂任务上，表现出色，远超职业选手！那强化学习怎么突然就不行了呢？强化学习到底是怎么走上歧路的？

新智元2025-08-04

普林斯顿大学新研究：强化学习让AI变成了“马屁精”

AI因训练机制迎合用户致不实回答，研究提出新评估方法。

36氪的朋友们2025-09-05

理性强化学习遭遇瓶颈，进化算法会成为接替者吗？

人工智能算法之争

机器之心2018-06-17

超越人类，DeepMind强化学习新突破：AI在「我的世界」中封神

DeepMind再放大招！继AlphaGo之后，他们利用改进的强化学习技术，让AI在《我的世界》类游戏Craftax中超越了人类专家水平。AI仅需少量数据就能高效学习。本文将深入解读DeepMind的最新研究，揭秘AI如何“脑补”世界，实现超越SOTA的性能，甚至让我们看到了通往AGI的曙光。

新智元2025-03-03

OpenAI爆出硬伤，强化学习是祸首，o3越强越「疯」，幻觉率狂飙

OpenAI新模型o3编码TOP200，但幻觉率33%因RL过度优化。

新智元2025-04-21

刚刚，OpenAI震撼发布o1大模型，强化学习突破LLM推理极限

语言模型的 AlphaGo 时刻？

机器之心2024-09-13

强化学习之父Sutton访谈：创造AI，就是创造一种新的人类

有很多报道都将AI和人类对立起来，认为我们终将被淘汰。这种想法是错误的。在我看来，AI将增强人类，它将淘汰的是人类的“旧我”（former selves）。但我承认的确存在这种将AI与人类对立起来的趋势。

新智元2017-11-27

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

机器确实能够自主发现性能达到 SOTA 的强化学习规则

机器之心2025-10-28

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

gpt-oss-20b-base：未对齐的自由基础模型

机器之心2025-08-13

超越DeepSeek V3，Ai2再祭开源杀器Tülu 3，强化学习打破性能瓶颈

Tülu 3的炼丹术如何

新智元2025-02-05

Karpathy戳破强化学习神话，首提AI复盘式进化，暴力试错将死

RL也走不通了？

新智元2025-07-15

强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

这就是强化学习的力与美！

新智元2025-02-18

AI学会“以牙还牙”，OpenAI发布多智能体深度强化学习新算法LOLA

即使是目前最先进的深度强化学习算法，也没有能够做到这一点的。LOLA做到了

新智元2017-09-15

对话何小鹏：强化学习已过时，具身智能不该以硬件为核心

何小鹏：我们和特斯拉只有“一点”相似

智能车参考2025-11-10

耗时两年，谷歌用强化学习打造23个机器人帮助垃圾分类

以后垃圾分类这个活，可以交给机器人了。

机器之心2023-04-24

刺激，无人机竞速超越顶级人类玩家，强化学习再登Nature封面

这架自主控制无人机是由苏黎世大学研究团队设计研发的Swift无人机。

机器之心2023-08-31

VDC+VBench双榜第一，强化学习打磨的国产视频大模型，超越Sora、Pika

强化学习重塑视频生成新范式。

机器之心2025-05-06

打游戏时领悟了“向死而生”，这个AI算法真的不虚强化学习

研究团队表示，如果能把ES算法与传统强化学习算法结合，可能会出现强强联手的局面，并推动现有人工智能相关技术的新进展。

量子位2018-02-28

DeepMind果蝇登Nature，强化学习再立功，AI模拟飞行，逼真到腿毛颤抖

谷歌DeepMind用AI打造虚拟果蝇，模拟飞行行走，模型已开源。

新智元2025-04-25

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力

多领域数据混合训练显著提升模型性能，优于双领域组合

量子位2025-08-14

Meta万引强化学习大佬跑路，用小扎原话作为离别寄语，扎心了

想当年还被Hinton劝退“别搞强化学习”(doge）

量子位2025-08-27

攻克AI推理难题，清华团队提出「统一LLM强化学习新范式」ReST-RL

能力、效率、稳定性、可拓展性全兼顾。

账号已注销2025-09-10

仅需一万块钱，清华团队靠强化学习让7B模型数学打败GPT-4o

无需模仿，超越蒸馏

量子位2025-01-06

苹果M1更适合强化学习？相比V100性能提升200%，价格低90%，功耗减88%

M1 芯片能否提升强化学习的训练效率？

机器之心2021-07-01

10步优化超越强化学习，仅需1条未标注数据，后训练强势破局

无监督熵最小化(EM)单样本优化10步，推理性能超越强化学习。

新智元2025-06-04

AI错把黑人识别为大猩猩？伯克利大学提出协同反向强化学习

AI的奖励函数和人类的真正目标的一致是重要的问题

新智元2017-08-22

对话Google DeepMind资深科学家：强化学习是重点，大模型时代AlphaZero依然重要

AGI何时到来？“事情每天都在发生变化”

量子位2024-12-05

GPT-4o能玩《黑神话》，精英怪胜率超人类，无强化学习纯大模型方案

但是AI也搞不定空气墙（doge）

量子位2024-09-23

ChatGPT的这项核心技术要被替代了？谷歌提出基于AI反馈的强化学习

该技术可以产生人类水平的性能。

账号已注销2023-09-05

热门搜索

关于36氪

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯