强化学习的入门之旅
如何开启强化学习的大门?
强化学习:兵分三路,挺进产业
2025年图灵奖:强化学习的前世今生
深度强化学习训练AI,像人类一样玩DOOM
为何强化学习火遍硅谷?AGI的关键一步
强化学习之父联手 3D,游戏之父入局 AGI
当AI开始“踢脏球”,你还敢信任强化学习吗?
张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
揭秘 DeepSeek 内幕,为什么强化学习是下一个 Scaling Law?
入门指南 | 人工智能的新希望——强化学习全解
DeepMind最新论文:强化学习“足以”达到通用人工智能
Science Robotics封面,DeepMind强化学习打造超一流机器人球员
Google Brain负责人Jeff Dean谈机器学习、强化学习与增强学习
DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!
迪士尼玩起强化学习,新机器人有星球大战那味了
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
普林斯顿大学新研究:强化学习让AI变成了“马屁精”
理性强化学习遭遇瓶颈,进化算法会成为接替者吗?
超越人类,DeepMind强化学习新突破:AI在「我的世界」中封神
OpenAI爆出硬伤,强化学习是祸首,o3越强越「疯」,幻觉率狂飙
刚刚,OpenAI震撼发布o1大模型,强化学习突破LLM推理极限
强化学习之父Sutton访谈:创造AI,就是创造一种新的人类
OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
超越DeepSeek V3,Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
Karpathy戳破强化学习神话,首提AI复盘式进化,暴力试错将死
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
AI学会“以牙还牙”,OpenAI发布多智能体深度强化学习新算法LOLA
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
刺激,无人机竞速超越顶级人类玩家,强化学习再登Nature封面
VDC+VBench双榜第一,强化学习打磨的国产视频大模型,超越Sora、Pika
打游戏时领悟了“向死而生”,这个AI算法真的不虚强化学习
DeepMind果蝇登Nature,强化学习再立功,AI模拟飞行,逼真到腿毛颤抖
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力
Meta万引强化学习大佬跑路,用小扎原话作为离别寄语,扎心了
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
仅需一万块钱,清华团队靠强化学习让7B模型数学打败GPT-4o
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
10步优化超越强化学习,仅需1条未标注数据,后训练强势破局
AI错把黑人识别为大猩猩?伯克利大学提出协同反向强化学习
对话Google DeepMind资深科学家:强化学习是重点,大模型时代AlphaZero依然重要
GPT-4o能玩《黑神话》,精英怪胜率超人类,无强化学习纯大模型方案
ChatGPT的这项核心技术要被替代了?谷歌提出基于AI反馈的强化学习
重磅:强化学习大牛Pieter Abbeel的“机器人大脑”,把大模型带入了现实世界
切换JAX,强化学习速度提升4000倍,牛津大学开源框架PureJaxRL,训练只需GPU
多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键
NeurIPS多智能体强化学习竞赛夺冠的背后,是决策智能公司「启元世界」
强化学习训练一两个小时,100%自主完成任务:机器人ChatGPT时刻真来了?
汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实
7B的DeepSeek蒸馏Qwen数学超o1,在测试时间强化学习,MIT积分题大赛考93分
推送和解读前沿、有料的科技创投资讯
一级市场金融信息和系统服务提供商
聚焦全球优秀创业者,项目融资率接近97%,领跑行业