建立数据湖屋,以避免数据沼泽

VentureBeat · 市场分析 · 07月16日
内容显示:
  • 英文
  • 中文
  • 中英对照

你错过了今天的直播吗?现在就看Edge & IoT Summit的人工智能。

在我之前的博客文章中,我谈到了一些数据库技术,并对我认为更好的数据系统能够做的事情提出了一些想法。在这篇文章中,我将讨论数据库的概念。

几年来, Data Lakehouse这个词一直在数据和分析领域走来走去。它描述了一个将数据仓库的数据结构和数据管理功能与数据仓库的低成本可伸缩存储相结合的环境。 Data Lakehouse已经推进了存储与计算的分离,但并没有解决数据管理的问题(存储什么数据,存储在哪里,等等)。这些挑战通常会将数据湖变成数据沼泽。 Data Lakehouse以不同的方式维护了在湖泊中存储数据的成本和灵活性优势,同时使数据子集的方案得以实施。

让我们深入了解一下Lakehouse的概念。我们把Lakehouse看作是数据仓库的一个演变。下面是它在顶部添加的功能:

数据突变-数据湖通常建立在Hadoop或AWS之上, HDFS和S3都是不可变的。这意味着数据无法更正。随之而来的还有模式进化的问题。这里有两种方法:在write上复制和在read上合并-我们可能会在下一篇博文中进一步探讨这一点。

事务(acid)/并发读写-关系数据库的主要特性之一,它帮助我们实现读写并发,从而实现数据完整性。

时间旅行-这种功可以通过交易能力来提供。 Lakehouse跟踪版本,因此允许在数据记录上回溯时间。

数据质量/模式执行-数据质量有多个方面,但主要是关于最初的模式执行。例如,被摄入的数据不能包含目标表模式中不存在的任何额外列,而且列的数据类型必须匹配。

当我们想要支持从拼花到Kudu到CSV或JSON的不同文件格式时,存储格式的独立性非常重要。

支撑力批处理和流(实时)-流数据有很多挑战。例如,无序数据的问题,通过水印通过数据库解决了这个问题。其他挑战是一些存储层固有的,比如拼花,它只在批处理中工作。在阅读它之前,您必须提交批处理。这也是Kudu可以进来帮助的地方,但在下一篇博客文章中更详细地介绍了这一点。

上图:数据库的演变。来源:数据库。

如果您对从业人员关于增加的数据负载如何创建挑战以及大型组织如何解决这些挑战的观点感兴趣,请阅读Uber最终开发Hudi的过程, Hudi是一个数据层,支持湖库的大多数上述功能。我们将在下一个版本中讨论Hudi 。

这个故事最初出现在Raffy . ch .版权所有2021年。

VentureBeatVentureBeat的使命是成为一个数码城市广场,让技术决策者掌握转型技术和交易的知识。我们的网站提供有关数据技术和策略的重要信息,以指导您领导您的组织。我们邀请您成为我们社区的一员,以访问:

VentureBeat的使命是成为一个数字城市广场,让技术决策者了解转型技术和交易。

我们的网站提供有关数据技术和策略的重要资料,以指导你领导机构。我们邀请你成为我们社区的一员,以浏览:

      成为成员
    • 有关你感兴趣的主题的最新资料
    • 我们的通讯
    • 门禁思想领袖的内容和对我们珍贵事件的折扣访问,例如2021年转型:学习更多
    • 网络特性,等等

热门推荐
关注西梅公众号