soword科技言
永久公益免费API接口
提供永久免费的API接口,查看更多API接口,如果您有其他免费API资源,请联系我们,造福人类。
提供商务开发:小程序,系统,APP
定制开发,免费评估,免费咨询,价格便宜,售后保障,前往开发服务中心联系开发客服中心
我们怎么知道人工智能已经可以在野外生存了?也许需要一个评论家

就像任何技术一样,当人工智能在世界上被释放的时候,会发生很多恶作剧。人工智能出错的例子不胜枚举,最近记忆中最生动的例子就是亚马逊的面部识别技术Rekognition的糟糕表现,该技术倾向于错误地将某些民族的成员与犯罪分子的面部照片进行不相称的匹配。

鉴于风险,社会如何知道一项技术已经被充分改进到可以安全部署的水平?

“这是一个非常好的问题,我们正在积极研究,”谢尔盖·莱文加州大学伯克利分校电子工程和计算机科学系助理教授本周通过电子邮件告诉ZDNet研究一种机器学习的方法,在这种方法中,软件程序的决策会受到同一程序中的另一种算法的批评,而这种算法又是一种对抗性的。这种方法被称为“保守Q-学习,“这在一篇论文中有描述上个月发布在arXiv打印前服务器上

ZDNet本周他联系到了莱文href=“https://medium.com//sergey.levine/decisions-from-data-how-offline-reinforcement-learning-will-change-how-we-use-ml-24d98cb069b0“target=”noopener noreferrer nofollow“data component=”externalLink“>在Medium上发表了一篇文章,描述了如何安全地训练人工智能系统以做出现实世界决策的问题

莱文在伯克利的机器人人工智能和学习实验室工作了多年https://blogs.nvidia.com/blog/2018/12/10/berkeley-sergey-levine-how-robots-learn/“target=”nu blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>开发人工智能软件,指导机械臂如何小心地在内部移动设计的实验-精心设计,因为你不希望当机械臂可能造成实际的物理损伤时,某些东西失去控制。

机器人技术通常依赖于一种称为强化学习的机器学习形式。强化学习算法是通过测试决策的效果和根据行动对事态的影响程度不断修改行动方针来训练的。

但是有一个危险:你想让一辆自动驾驶汽车在道路上,在真实的交通中学习吗?

在他的Medium帖子中,Levine建议开发RL的“离线”版本。在离线世界,RL可以像任何传统的有监督学习的人工智能系统一样,使用大量的数据进行训练,在这个系统被送到世界上去做决定之前,要对它进行完善。

另外:伯克利的人工智能方法组合保证了持续学习

“一辆自动驾驶汽车可以通过数百万个描述真实驾驶的视频进行训练,”他写道HVAC控制器可以使用安装HVAC系统的每个建筑的记录数据进行训练。“

为了提升强化学习的价值,levine建议从严格的“在线”场景,如右图所示,是一个“离线”的训练阶段,在训练过程中,算法输入大量标记数据,更像传统的有监督机器学习。

Levine使用童年发展的类比。孩子们从环境中接收到的信号不仅仅是行动的直接结果。

“在你生命的最初几年里,你的大脑处理了大量的视觉、声音、气味和运动指令,它们的大小和多样性足以与机器学习中使用的最大数据集相媲美,Levine写道。

这又回到了最初的问题上,也就是说,在所有的离线开发之后,如何知道一个RL程序何时已经足够完善,可以“在线”在现实世界中使用?

这就是保守Q学习的用武之地。保守Q-学习建立在广泛研究的Q-学习的基础上,Q-学习本身就是强化学习的一种形式。莱文向ZDNet解释说,这个想法是为了“为通过离线RL学习的策略的性能提供理论保证”。这些保证将阻止RL系统执行错误决策。

想象一下,你有一段很长很长的历史,一直保存在你的记忆中,哪些行为是可以防止混乱的好行为。想象一下,你的人工智能算法必须开发出不破坏长时间集体记忆的决策。

“这似乎是我们在离线RL中实现安全性和可靠性保证的方法的一条有希望的道路,”加州大学伯克利分校助理教授谢尔盖·莱文说,在一个典型的RL系统中,一个值函数是基于某个行为选择对达到目标的贡献程度来计算的。在保守的版本中,value函数会将更高的值放在持久内存中的过去数据上,说明应该怎么做。从技术上讲,一个政策想做的每件事都会打折扣,因此要证明政策已经达到了最佳状态,就有了额外的举证责任。

一场斗争接踵而至,莱文对ZDNet说,这是一个类似于生成性对抗性网络(GANs)的例子,一种机器学习。

“值函数(critic)”与策略(actor)进行“斗争”,试图为actor分配较低的值,但为数据分配较高的值。“这两个函数的相互作用使批评家越来越善于否决错误的选择。”莱文说:“演员试图最大限度地发挥批评家的作用。

通过斗争,在节目中形成了共识。”结果是演员只做那些评论家“无法否认”的事情(因为有太多的数据支持这些行为的优点)。“

还有:麻省理工学院终于来了莱文告诉ZDNet说,所有人工智能恐惧的总和都有一个名称。他指出,目前的程序有一些超参数必须手工设计,而不是从数据中得出。

“但到目前为止,这似乎是我们在离线RL中实现安全性和可靠性保证的方法的一条有希望的道路,”Levine说。

事实上,保守的Q-learning建议有一些方法可以从一开始就将实际考虑纳入人工智能的设计中,而不是等到这样的系统建立和部署之后。

另外:抓住一个假:机器学习嗅出自己的机器书写的宣传

正是Levine进行了这项研究,这一事实应该给保守Q-学习方法增加了意义。莱文和他的团队在机器人技术的实际应用方面有着坚实的基础,因此能够在直接实验中验证“演员-批评家”。

事实上,由伯克利大学的阿维拉尔·库马尔(Aviral Kumar)牵头,并与谷歌大脑(Google Brain)合作完成的保守Q-Learning论文包含了许多机器人学的例子在测试中,该方法比其他类型的离线RL有改进。

还有如果你想了解更多关于这项工作的信息,可以写一篇由谷歌撰写的博客文章。

当然,任何依赖离线积累数据进行开发的系统将依赖于数据的完整性。对莱文设想的那种成功的批判必然涉及到更广泛的问题,即这些数据来自哪里,它的哪些部分代表了好的决定。

好与坏的某些方面可能是社会不得不进行的无法自动化的讨论。

在大流行病中销售软件的诀窍:必不可少,添加一些机器学习,并专注、专注、专注

DocuSign首席执行官看到了新的数字生活方式,可以在大流行期间存活下来。

Human meets AI:Intel实验室团队通过深度学习突破人机交互的边界

通过注册,您同意 2023-03-22 10:04:20