Airbyte的AWSS3连接器将开放源数据集成引入数据湖

VentureBeat · 市场分析 · 07月08日
内容显示:
  • 英文
  • 中文
  • 中英对照

你的企业在人工智能应用曲线上的位置是什么?拿我们的人工智能调查来找出。

让OSS企业通讯指导您的开源之旅!在这里注册。

开源数据集成平台AirByte宣布了它的第一个数据湖集成,允许用户将来自各种来源的数据复制到亚马逊的简单存储服务(S3)。这家总部位于旧金山的初创公司表示,它计划很快支持来自"其他云提供商"的数据湖,包括Databricks的开源Delta Lake 。

各种规模的企业都拥有丰富的数据,分布在CRM 、营销、客户支持和产品分析等工具上。虽然访问数据并不是问题,但从存储在不同位置和格式的数据中获得有意义的见解是-因此企业必须将其集中在一个集中位置,并将其转换为一种通用格式,使其更容易分析。

从ETL到ELT

实现这一点的一个典型过程是所谓的"提取、转换、加载"(ETL),它涉及在数据到达中央数据仓库之前对其进行转换。这对昂贵的现场存储更有意义,尽管转换过程可能非常缓慢,如果用户的需求发生变化,用户通常需要重新提取数据。现代的替代方案- "提取、加载、转换"(ELT)允许公司在原始数据已经进入仓库时按需进行转换。这是由基于云的现代存储和计算平台(如Databricks 、 Snowflake 、 Google的BigQuery和Amazon的RedShift)带来的低成本实现的。

AirByte主要关注ELT的" EL "部分,尽管它还通过与DBT等第三方工具的集成来支持转换阶段。该公司最近推出了连接器开发工具包(Connector Development Kit , CDK),以使企业能够创建自己的定制数据源连接器,但它也提供了数十个预制连接器。这使得公司更容易创建数据管道,并将数据从CRM(如Salesforce)、数据库(如MySQL 、 PoStrateQL)和分析(如幅度)等来源传输到目的地,包括数据库(如BigQuery)、数据仓库(如Snowflake)和-现在-数据湖。

数据湖和数据仓库服务于非常不同的目的-前者包含原始的、非结构化的数据,这些数据更灵活,但存储密集型,而后者则是关于结构化数据,这些数据已经被处理和过滤,并由公司决定用于特定的用例。 AirByte支持S3的决定是有道理的,因为它需要尽可能多地开放潜在的数据集成场景。

上图: AirByte :数据复制

营业时间开放

开源数据集成工具最近一直是一个大新闻。上周, GitLab宣布,它正在分拆其开源ELT(Extract , Load , Transform)平台Meltano ,作为一个独立的业务,该项目旨在实现与AirByte类似的目标。此外,作为一个独立的业务, Meltano成功吸引了一些大牌投资者,包括Alphabet的GV和WordPress创始人马特 Mullenweg 。在其他地方, DBT实验室(前Fishtown Analytics)上周以15亿美元的估值筹集了1.5亿美元,以构建其开源DBT数据转换工具, Meltano和AirByte在各自的产品中发挥杠杆作用。

AirByte在过去几个月里筹集了3100万美元的资金,首先是在3月份筹集520万美元的种子,然后是不到三个月后的2600万美元的A系列融资。开源数据ETL行业似乎正在升温。

目前, AirByte的核心产品是免费和MIT授权的社区版本,尽管它最终计划通过托管云的化身进行商业化,并在工作中提供额外的企业级产品。

VentureBeatVentureBeat的使命是成为一个数码城市广场,让技术决策者掌握转型技术和交易的知识。我们的网站提供有关数据技术和策略的重要信息,以指导您领导您的组织。我们邀请您成为我们社区的一员,以访问:

VentureBeat的使命是成为一个数字城市广场,让技术决策者了解转型技术和交易。

我们的网站提供有关数据技术和策略的重要资料,以指导你领导机构。我们邀请你成为我们社区的一员,以浏览:

      成为成员
    • 有关你感兴趣的主题的最新资料
    • 我们的通讯
    • 门禁思想领袖的内容和对我们珍贵事件的折扣访问,例如2021年转型:学习更多
    • 网络特性,等等

热门推荐
关注西梅公众号