浙江大学 ReLER 实验室研究员杨宗鑫:哆啦A梦的百宝袋 | Agent Insights
Sora 以视频的方式展示了“世界模拟器”和智能机器对人类时空物理世界的理解,最近又要被集成在 Adobe 视频剪辑软件中,在生成式 AI 的应用层面无疑取得了令人惊叹的进展。但在能够模拟出符合人类感知视频内容的同时,它依然缺乏对物理定律的深入理解。浙江大学 ReLER 实验室研究员杨宗鑫基于大小模型协同思想设计了 Agent—— DoraemonGPT,该 DoraemonGPT 显著提升了 Agent 理解动态视频的能力,相信大小模型协同互补可以缓解大模型逻辑顺序杂乱的问题。Enjoy俄亥俄州立大学苏煜教授:See! Then Act | Agent Insights
OpenAI 和 Figure 合作发布的 Figure01,由 Figure 机载摄像头输入大型视觉语言模型 VLM 中,神经网络通过机器人的摄像头获取图像后,以每秒 200 次的频率输出 24 个自由度动作……Yann Lecun 在最新的播客中也表示:“一个年仅四岁孩子就拥有 16,000 小时的视觉信息输入,语言在信息传递上的‘带宽’和表现力有限,而视觉感知的数据带宽大约是书面语言(或口语)数据带宽的 1600 万倍。”视觉的高效表达方式,令以多模态大模型为基础的 Agent 乃至机器人发展更富想象空间。Enjoy