编者按:自从两年前给黑人照片贴上“大猩猩”的标签后,谷歌照片对“大猩猩”等相关词语的处理上一直都非常谨慎,他们给出的做法是,将大猩猩和其他灵长类动物的标签从该服务的词库中删除。但是在谷歌其他的应用中,比如云计算服务和谷歌Assistant中,都能直接识别。文章发表在《连线》杂志,由36氪编译。
2015年,一名黑人软件开发人员在Twitter上说,谷歌的照片服务(Google Photos)把他和一个黑人朋友的照片打上了“大猩猩”的标签,这让谷歌感到非常尴尬。谷歌宣称自己“感到震惊和由衷的歉意”。一名相关的工程师表示,谷歌正在“研究更长期的解决方案”。
两年多之后,谷歌给出的其中一项修复措施就是将大猩猩和其他灵长类动物的标签从该服务的词库中删除。这一尴尬的变通方案表明,谷歌和其他科技公司在推进图像识别技术方面仍旧面临着诸多困难,尽管这些公司希望能够在自动驾驶汽车、个人助理和其他产品上使用这些技术。
《连线》杂志用4万张图片对谷歌照片服务进行了测试,这些照片中有很多动物。谷歌照片在寻找包括熊猫和贵宾犬在内的许多动物上表现得非常棒。但当使用“大猩猩”、“黑猩猩”和“猴子”等词进行搜索时,谷歌照片反馈称“没有结果”。
在谷歌照片服务中, 谷歌对"大猩猩"、"黑猩猩"和"猴子"等词的搜索进行了审查。
作为一款移动应用和网站,谷歌照片为5亿用户提供了管理和备份个人照片的地方。它使用机器学习技术,自动将照片进行分组,比如湖泊或拿铁。同样,用户也可以利用该技术对他们的照片进行搜索。
在《连线》杂志的测试中,谷歌照片确实识别出了一些灵长类动物。 使用"狒狒"、"长臂猿"、"狨猴"和"猩猩"等词进行搜索,结果都还不错。只要搜索时使用术语而不是使用M开头的词语, 就可以找到卷尾猴和疣猴。
在另一项测试中,《连线》上传了20张黑猩猩和大猩猩的照片,这些黑猩猩和大猩猩来自非营利组织“黑猩猩天堂”和“黛安 · 福西研究所”(Diane Fossey Institute)。有些猩猩可以用使用“森林”、“丛林”或“动物园”等关键词来搜索到,但事实证明,其余的都很难被发现。
结论是:在谷歌照片中,狒狒是狒狒,但猴子不是猴子。大猩猩和黑猩猩是不可见的。
智能手机上的谷歌Lens应用,也无法识别出来大猩猩。
在第三次测试中,《连线》杂志上传了一组1万多张用于面部识别研究的图片。用“非洲裔美国人”这个词进行搜索,最后只出现了一幅羚羊的画面。输入“黑人男性”、“黑人女性”或“黑人”,谷歌的系统会返回黑白图像,按照性别正确排序,但不被种族过滤。对于肤色较深的人来说,可以使用“非洲式”(afro)和“非洲人”(African)等词进行搜索,尽管结果好坏参半,并不那么准确。
谷歌的一位发言人证实,在2015年的事件发生后,"大猩猩"就从搜索和图片标签中删除了,直到今天"猩猩"、"黑猩猩"和"猴子"等标签仍在屏蔽中。该发言人在电子邮件中写道:“图像标签技术还处于早期阶段,但不幸的是,它还远远不够完美。”他强调了谷歌照片的一个功能,即允许用户报告错误。
谷歌对大猩猩图片的谨慎处理,说明了现有的机器学习技术上的一个不足之处。有了足够的数据和计算能力,软件就可以被训练,可以用来对图像进行分类,或者在较高的精确度下对语音进行转录。但它无法轻易超越这种从训练中得出的经验。即使是最优秀的算法,也缺乏像人类那样运用常识或抽象概念的能力,来完善它们对世界的诠释。
因此,机器学习工程师在现实世界中部署他们的成果时,必须对他们的训练数据中没有发现的“边缘案例”保持警惕。维吉尼亚大学教授维恩特·奥达尼斯·罗梅恩(Vicente ord ez rom n)说:“你的系统一旦开始上线运行,你就很难再对它进行建模。”去年,他参与了一项研究,该研究表明,应用于图像的机器学习算法可以识别并放大人们对不同性别之间的偏见。
谷歌照片用户上传的照片是在各种不完美的条件下拍摄的。考虑到数据库中的图片数量,将一种类型的“类人猿”误认成另一种类型的可能性极小。
谷歌母公司Alphabet和更广泛的科技行业面临着更大的风险,比如应用在自动驾驶汽车上。罗曼(Román)和他的同事、软件可靠性专家拜沙希·雷(Baishakhi Ray)一起,正在探索如何限制视觉系统在自动驾驶汽车等场景中可能的误判行为。雷说,这方面已经取得了一些进展,但目前还不清楚如何能够很好地控制这些系统的局限性。“我们仍然不能非常具体地知道这些机器学习模型正在学习什么,”她说。
谷歌的一些机器学习系统被允许在公开场合使用大猩猩照片进行检测。该公司的云计算部门为企业提供了一项名为云视觉(Cloud Vision) API的服务来构建他们自己的项目。当《连线》杂志用大猩猩和黑猩猩的照片对在线演示进行测试时,它同时识别出了这两张照片。
例如,一只成年大猩猩抱着双胞胎宝宝的照片被谷歌的云视觉服务贴上了“西部大猩猩”的标签,其信心指数为94%。系统会在相关的标签上返回一个最佳猜测列表。“哺乳动物”和“灵长类动物”的得分也达到了90%甚至更多。
谷歌向企业提供的云计算图像识别服务可以自由地称大猩猩为大猩猩。
谷歌的Assistant也可以自由地将大猩猩称为“大猩猩”。在安卓手机上,谷歌Assistant可以被召唤去尝试解释手机屏幕上的内容。当被要求识别“一只成年大猩猩抱着双胞胎宝宝”的照片时,谷歌Assistant给出的建议是“山地大猩猩”。
但是,“谷歌Lnes”,被标榜为展示该公司“计算机视觉上的进步”的应用,在去年10月添加到了谷歌照片上。当被要求识别同一幅图像时,它回应道:“嗯……还没看清楚。”
原文链接:https://www.wired.com/story/when-it-comes-to-gorillas-google-photos-remains-blind/
编译组出品。编辑:郝鹏程