该数据集包含45186个视频,其中3000多名参与者进行了无脚本的聊天,并且在不同性别、年龄组和皮肤类型上分布均匀。
Facebook创建了一个新的开源视频数据集,并为其贴上了标签,这家社交媒体巨头希望在测试人工智能系统性能时能更好地消除偏见。
这个数据集被称为“随意对话”,包含45186段视频,其中3000多名参与者进行了无脚本的聊天,并且在不同性别、年龄组和肤色上分布均匀。
Facebook要求付费演员提交视频,并自己提供年龄和性别标签,以尽可能消除数据集注释方式中的外部错误。Facebook自己的团队随后根据Fitzpatrick量表确定了不同的肤色,该量表包括六种不同的皮肤类型。
注释者还标记了每个视频中的照明水平,以帮助测量人工智能模型在弱光环境条件下如何对待不同肤色的人。
现在,研究人员可以使用“随意对话”来测试计算机视觉和音频人工智能系统——尽管不是开发他们的算法,而是评估一个受过训练的系统在不同类别的人身上的表现。
测试是人工智能系统设计的一个组成部分,研究人员通常在算法经过训练以检查预测的准确性之后,根据标记的数据集来测量他们的模型。
这种方法的一个问题是,当数据集不是由足够多样的数据组成时,模型的准确性将只针对特定的子组进行验证,这可能意味着当面对不同类型的数据时,算法将不能很好地工作。
这些潜在的缺点在数据集的情况下尤其突出预测人的算法。例如,最近的研究表明,用于面部分析模型的两个常用数据集IJB-A和Adience,绝大多数由皮肤较浅的受试者组成(分别为79.6%和86.2%)。
这就是过去几年充斥着算法对某些人群做出有偏见的决策的部分原因。例如,麻省理工学院的一项研究对IBM、Microsoft和Face++提供的性别分类产品进行了研究,发现所有的分类工具https://www.media.mit.edu/projects/gender-shades/overview/“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>在男性脸上的表现优于女性脸,研究人员发现,一些分类器在识别较浅肤色的男性面孔时几乎没有出错,而较深肤色的女性面孔的错误率则上升到了近35%。
因此,验证算法不仅准确,但它也同样适用于不同类型的人。”在这种背景下,随意的对话可以帮助研究人员评估他们的人工智能系统,包括年龄、性别、肤色和光照条件,为了确定他们的模型在哪些群体中表现更好。
“除了对数据集中所代表的社区进行准确度测试外,我们新的休闲会话数据集还应作为衡量计算机视觉和音频模型公平性的补充工具,Facebook的人工智能团队说。除了在四个子组之间均匀分布数据集外,该团队还确保了类别内的交集是一致的。这意味着,即使人工智能系统在所有年龄段的表现都一样好,也有可能发现,例如,在低光环境下,该模型对于皮肤较黑的老年女性是否表现不佳。
“在未来一年左右,我们将探索途径来扩展这个数据集,使其更具包容性,用更广泛的性别身份、年龄、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、性别、,地理位置、活动和其他特征,”该公司说。
Facebook本身就有不太完美的算法,比如它的广告投放算法导致女性显示较少的旨在实现性别中立的活动,例如STEM职业广告。
该公司表示,现在所有内部团队都可以进行非正式对话,并“鼓励”员工使用数据集进行评估,而AI团队则致力于扩展该工具,以代表更多不同的人群。
email overload?这些新的“断开连接的权利”规则可能是答案
坏的宽带,没问题:谷歌的开源语音编解码器甚至可以在低质量的网络上工作