今日亚马逊宣布它扩展了数据清理程序,称为Glue,它提供了一个可视化的用户界面,可以自动执行一些必要的准备步骤数据,以简化非编码人员的任务。
调用DataBrew,该程序允许数据分析员和数据科学家执行提取、转换和加载或ETL的步骤,这些步骤发生在任何数据可以在数据仓库或另一个存储库中进行分析。
而Glue在2016年推出,是一种可视化工具,可供工程师进行ETL,并涉及一些编码,DataBrew旨在让分析员和数据科学家通过简单地单击按钮并在可视化用户界面中勾选径向框来执行相同的数据清理操作。
正如AWS所描述的,该服务由“250个预构建的转换组成,以自动执行数据准备任务(例如过滤异常,标准化格式,以及纠正无效值),否则将需要几天或几周的时间编写手动编码的转换。“
因此,例如,包含“subscriber”或“customer”条目的“user type”列可以映射到值“1”和“2”,方法是单击用户界面中的“mapping”按钮,然后单击径向按钮,它生成一个新的列,其中1和2的值对应于所有字符项。
分析函数提供有关数据集的统计信息,例如数据集中丢失的条目数。
Amazon计划可能会为专门从事数据清理的公司提供新的竞争对手,比如Talend。
亚马逊表示,已经有一些客户在使用该软件,包括日本电信巨头NTT DoCoMo和能源巨头英国石油公司,还有一个胶水数据库关于产品的博客条目。