就像任何技术一样,当人工智能在世界上被释放的时候,会发生很多恶作剧。人工智能出错的例子不胜枚举,最近记忆中最生动的例子就是亚马逊的面部识别技术Rekognition的糟糕表现,该技术倾向于错误地将某些民族的成员与犯罪分子的面部照片进行不相称的匹配。
鉴于风险,社会如何知道一项技术已经被充分改进到可以安全部署的水平?
“这是一个非常好的问题,我们正在积极研究,”谢尔盖·莱文,加州大学伯克利分校电子工程和计算机科学系助理教授本周通过电子邮件告诉ZDNet研究一种机器学习的方法,在这种方法中,软件程序的决策会受到同一程序中的另一种算法的批评,而这种算法又是一种对抗性的。这种方法被称为“保守Q-学习,“这在一篇论文中有描述上个月发布在arXiv打印前服务器上
ZDNet本周他联系到了莱文href=“https://medium.com//sergey.levine/decisions-from-data-how-offline-reinforcement-learning-will-change-how-we-use-ml-24d98cb069b0“target=”noopener noreferrer nofollow“data component=”externalLink“>在Medium上发表了一篇文章,描述了如何安全地训练人工智能系统以做出现实世界决策的问题
莱文在伯克利的机器人人工智能和学习实验室工作了多年https://blogs.nvidia.com/blog/2018/12/10/berkeley-sergey-levine-how-robots-learn/“target=”nu blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>开发人工智能软件,指导机械臂如何小心地在内部移动设计的实验-精心设计,因为你不希望当机械臂可能造成实际的物理损伤时,某些东西失去控制。
机器人技术通常依赖于一种称为强化学习的机器学习形式。强化学习算法是通过测试决策的效果和根据行动对事态的影响程度不断修改行动方针来训练的。
但是有一个危险:你想让一辆自动驾驶汽车在道路上,在真实的交通中学习吗?
在他的Medium帖子中,Levine建议开发RL的“离线”版本。在离线世界,RL可以像任何传统的有监督学习的人工智能系统一样,使用大量的数据进行训练,在这个系统被送到世界上去做决定之前,要对它进行完善。
另外:伯克利的人工智能方法组合保证了持续学习
“一辆自动驾驶汽车可以通过数百万个描述真实驾驶的视频进行训练,”他写道HVAC控制器可以使用安装HVAC系统的每个建筑的记录数据进行训练。“