俄亥俄州立大学苏煜教授:See! Then Act | Agent Insights
OpenAI 和 Figure 合作发布的 Figure01,由 Figure 机载摄像头输入大型视觉语言模型 VLM 中,神经网络通过机器人的摄像头获取图像后,以每秒 200 次的频率输出 24 个自由度动作……Yann Lecun 在最新的播客中也表示:“一个年仅四岁孩子就拥有 16,000 小时的视觉信息输入,语言在信息传递上的‘带宽’和表现力有限,而视觉感知的数据带宽大约是书面语言(或口语)数据带宽的 1600 万倍。”视觉的高效表达方式,令以多模态大模型为基础的 Agent 乃至机器人发展更富想象空间。Enjoy