soword科技言
永久公益免费API接口
提供永久免费的API接口,查看更多API接口,如果您有其他免费API资源,请联系我们,造福人类。
提供商务开发:小程序,系统,APP
定制开发,免费评估,免费咨询,价格便宜,售后保障,前往开发服务中心联系开发客服中心
DotData拥有针对Databricks的自动化特征工程

上周,专注于自动特征工程(AutoFE)和自动机器学习(AutoML)的公司dotData宣布将其AutoFE技术与Databricks平台集成。特征工程是构建机器学习模型最困难的部分之一,因为它需要技术和领域知识来确定源数据中与模型预测最相关的列。DotData的新集成使Databricks用户,包括那些没有高级数据科学专业知识的用户,能够设计更丰富的ML模型功能,处理更具挑战性的AI用例,并提高模型精度。

另读:数据驱动的2021年:对数据繁忙年份的预测,分析和人工智能

什么是自动化特征工程?

ZDNet采访了dotData首席执行官兼创始人藤崎良平博士,他解释说,该公司的AutoFE技术通过发现源数据中的模式来发现可提高模型准确性的统计重要特征,为了增强数据科学家可能直观发现的领域相关特征。具体来说,dotData的Python库dotdatapy现在与Databricks兼容,可以通过pip在Databricks平台上安装。这取代了繁琐的传统特征工程工作,这些工作必须在针对Spark、Pandas或Dask数据帧的代码中手动执行。

DotData的技术使用能够发现数据中多模态模式的算法,以找到对预测有影响的列(即特征)。此外,AutoFE可以将一组规范化的关系表转换为单个“特征表”,作为训练最佳机器学习模型的数据集。还支持时间、地理位置和文本数据,以及与对象存储和文件系统(如Amazon S3、Azure data Lake storage(ADLS)和Hadoop分布式文件系统(HDFS))以及传统数据仓库的集成。

新的协作

可解释性功能,例如自动生成的特征解释和特征蓝图,可用于帮助公民数据科学家和数据科学家,以便他们了解每个特征是什么以及它们之间的相关性。dotData/Databricks集成利用这两个平台的强大功能,通过更快地找到最佳特性,快速创建用例原型并提高模型精度。例如,用户可以通过使用Databricks的新特性存储库(特性的集中存储库)来管理dotData的AI特性,并且可以通过使用Databricks的MLFlow实现来管理ML实验。在较低的水平上,DOTDATA的AutoFe技术使用DATICRKS文件系统(DBFS)和DATICRKS运行时(Apache SCALE的优化版本)来加速执行。

< P>也读到:

用新的AutoLoad引擎和AutoStureAI进行的UPS AI ANDE变得严格:Databricks宣布MLFLASE 1.0DATABICKS将MLFROW移动到Linux基金会,介绍Delta Engine

这些特定的集成主要针对使用Python、笔记本和各种机器学习库(如PyTorch、XGBoost、TensorFlow和Scikit learn)的经验丰富的数据科学家。DotData的AutoFE支持数据科学家探索不同类型的特征假设。它关注传统的业务数据用例,而不是深入学习用例(即dotData不挖掘图像、视频或非结构化数据)。它让用户从高级计算中受益,而不是从上下文中受益。

将领域知识集成到模型构建过程中一直是一个挑战。AutoFE通过使用更多统计特性来增强领域特性来应对这一挑战。与手动特征工程相比,AutoFE在更短的时间内分析更多的数据,以便找到最相关的特征。DotData是这一领域的先驱,通过与Databricks的新集成,这两个平台的用户现在可以通过发现和生成相关功能以及优化模型精度而受益。很有可能,某种形式的AutoFE在未来会变得更加主流,找到进入众多AutoML平台的途径。

Esin Alpturk为本文的报道做出了贡献

Dremio推出“SQL Lakehouse”云服务

Informatica引入人工智能模型治理

微软宣布支持Arc的Azure SQL通用可用性

日立万塔拉收购数据治理播放器Io Tahoe

通过注册,您同意使用条款并承认隐私政策中概述的数据实践。

您还将免费订阅ZDNet的今日技术更新和ZDNet公告时事通讯。您可以随时取消订阅这些时事通讯。

您同意接收CBS公司系列的更新、提醒和促销活动,包括ZDNet的今日技术更新和ZDNet公告时事通讯。您可以随时取消订阅


2023-03-22 10:04:39

新人小程序+APP定制199元起


发放福利,助力中小企业发展,真正在互联网中受益

点击询问定制

广告服务展示