两个新的分析引擎初创公司——都在以色列——宣布发布,间隔一天。昨天,Varada发布了其数据平台,该平台经过了一段时间的beta期。今天早上,Firebolt宣布其云数据仓库作为一项服务,以及3700万美元的首轮融资,来自Zeev Ventures,TLV合作伙伴,Bessemer Venture Partners和目标并在上独占运行https://aws.amazon.com/“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>目前亚马逊网络服务。但他们的技术方法在重要方面有所不同。
Varada,由https://www.delltechnologies.com/en-us/storage/xtremio-all-flash.htm“target=”noopener noreferrer nofollow“data component=”externalLink“>XtremIO采用数据虚拟化方法,使用开源Presto用于数据源连接和基本查询服务的查询引擎。但是Varada使用缓存和基于机器学习的优化的组合来提高性能。它还使用多种类型的索引(包括evenLucene基于文本的数据的索引),以减少执行大量文件扫描的需要。Varada说,它的平台会根据数据内容和结构自动为每个“nano block”(Varada对柱状数据存储的子单元的名称)选择最有效的索引。
在ZDNet的演示中,Varada显示了它与亚马逊雅典娜,它也使用Presto。这两个平台在Amazon S3,有几个查询在Varada上执行速度快了两个数量级,甚至有一个例外的速度超过了30倍。虽然有人会期望一个由供应商控制的演示能从正面展示供应商的平台,但这仍然令人印象深刻。
但除了速度之外,Varada使用索引意味着它需要扫描的数据比雅典娜少得多。由于雅典娜是根据扫描的数据量计费的,这不仅仅是一个优雅的问题,而是一个真正节省成本的功能。Varada还表示,它提供了对工作负载性能和集群利用率的“玻璃盒”可见性,平台根据客户配置的优先级和预算优化工作负载。此外,瓦拉达说,通过机器学习,平台可以弹性地调整计算和存储集群。
Firebolt由Eldad Farkash谁服务过联合创始人兼首席技术官https://www.sissense.com/“target=”noopener noreferrer nofollow“data component=”externalLink“>Sisense于2004年至2018年(也在以色列成立)。Farkash的背景受到研究人员在荷兰Wiskunde&Informatica中心,以及他们的MonetDB项目。该数据库率先使用列式存储、向量处理和利用CPU缓存(除了RAM)来加速查询;Sisense的引擎也采用了类似的方法。Firebolt也利用了CPU缓存,但这并不是它的主要架构特性。
必须阅读:
Firebolt的理念是拼花板列式文件格式,现在大多数数据都依赖它lake技术虽然创新,但不足以支持闪电般的查询。它的列存储和分区存储的组合可以很好地用于某些双样式查询,这些查询碰巧是由文件分区所在的列(例如日期)聚合的。但是,当查询超出该范围(例如,在地理位置或产品上聚合)并且无法利用分区方案时,就需要进行大文件扫描,并且性能会受到严重影响。
Firebolt解决此问题的方法是使用自己的FFF文件格式。FFF根据使用的存储层次结构(amazons3、固态磁盘或CPU缓存)而改变其结构。它使用了新的压缩和编码选项,并针对Firebolt查询引擎进行了优化。每个数据文件都按主键排序并编制索引,使用加载到内存中的稀疏索引。当物理排序无法实现。除了这些优化,Firebolt还可以利用gpu进一步加速某些工作负载。
Varada和Firebolt都专注于将数据湖变成启动板,以便对大量数据进行快速分析,而不仅仅是存储数据的解决方案。Firebolt在湖上构建了一个专有的数据仓库,它有自己的嵌套数据优化SQL语法。Varada使用标准的data lake存储格式和流行的开放源代码查询引擎,但通过自己的索引技术和工作负载管理对其进行了扩展。
在更广泛的数据和分析市场中,无论术语是“lake”、“warehouse”还是“lakehouse”,“目标是相同的:在大数据量上提供快速查询并控制成本。数字化转型推动了这些需求,冠状病毒加速了数字化转型。大多数供应商现在意识到平衡价格、性能和易用性应该优先于开发原始特性。以Varada和Firebolt为例,市场上现在有两家初创公司就是基于这一理念成立的。
microsoft引入azure权限数据目录;宣布Synapse Analytics正式上市,“pageType”:“article”}>Ataccama宣布新的AI驱动的数据治理/管理平台发布