分享好友 站长动态首页 网站导航

横空出世的 Data Fabric,是下一个风口吗?

2022-07-08 08:00 · 头闻号数据库

Data Fabric,又名数据经纬,是近期横空出世的一个概念。之前对其了解甚少,近期做了个小调研,对这一概念内涵与外延、产品及定位、业务与前景、未来及趋势等做了简单整理总结,分享给大家。

1、什么是Data Fabric

前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 类别。从2019 年 Data Fabric 开始入选 Gartner 各年度的技术趋势。

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric作为数据基础能力被再次强调。

2022 年 Gartner 公布的顶级战略技术趋势中,Date Fabric 入选工程信任主题的关键技术趋势。

基本概念

我们如何理解“Data Fabric”?Fabric这个词的本意是“织物、布、构造“。可以想象,数据将在纵横交错的、像织物那样的云网络中自由流动,没有任何限制。不管是哪种计算模式,还是什么的网络,针对批数据、流数据都可以自由交换、共享和处理,那就是数据经纬-Data Fabric带来的新体验。目前对Data Fabric,还没有特别统一的认识,各家对其有着自己的解读。

 发展背景

一项新技术的出现,必然有其背景及规律,Data Fabric的出现也是为解决当前数据场景的问题。简单梳理下,可罗列为几个痛点(下列数据来自Gartner的调查报告):

随着企业数据量激增和数据需求日趋复杂,越来越多数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 被引入,企业数据在物理上支离破碎,尤其是采用混合云&多云架构后更是加剧了这一问题。只有 45% 的结构化数据应用于业务,只有不到 1% 的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍。

激增的企业数据、爆炸的业务需求、复杂的数据工程,让业务自助找数、用数变得日趋困难:分析师 80% 的时间用于发现和准备数据,知识型员工将 50% 的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花 60% 的时间清理和组织数据。

企业中 55% 的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失;为解决不同数据计算和存储需求,企业开始采用越来越多的数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) ,让实现“单一事实来源的数据”变得十分困难。

超过 70% 的用户可以访问他们不应该访问的数据。而随着网安法、数安法、个保法、GDPR、CCPA 等数据安全和隐私保护法律的出台和外部安全威胁越来越大,企业必须在合规和治理方面表现出更高的标准,更难的是,企业还需同时兼顾业务的用数效率。

Gartner称:“在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。

架构定位

Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:

Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。

数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。

传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。Gartner 将 Data Fabric 比喻成数据管理的'自动驾驶":驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。

Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。

关联对比

作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。

Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。

实际上,不同的公司基于自身的数据特点(数据量、数据速度、数据类型等)、安全策略、技术储备、性能要求、资金成本等, 对于Data Fabric或Data Mesh会有不同的具体落地方案。总之,Data Mesh更多地是关注于人和过程而不是技术架构,而Data Fabric是一种技术架构方法,它以一种智能的方式来应对数据和元数据的复杂性。

数据虚拟化与Data Fabric的关系上,数据虚拟化是Data Fabric架构中的关键技术之一,可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间。Data Fabric 的数据虚拟化层提供了跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,在数据处理引擎和数据消费者之间架起了桥梁。

Data Fabric不是数据湖或者数据仓库的替代方案,数据湖是其异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),Data Fabric将应用程序与数据湖(或者数据仓库)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。Data Fabric 可以为数据湖或数据仓库提供可信的数据,同时,基于数据湖(或者数据仓库)的Data Fabric 为业务提供更精准的洞察能力。

知识图谱是Data Fabric重要的组成部分。如果将Data Fabric翻译成数据经纬的话,那么知识图谱则是经纱和纬纱,其使得Data Fabric支持动态集成以及数据应用编排,而作为基石的数据目录也是基于知识图谱进行实现的。知识图谱使得Data Fabric在良性循环中进行持续运营和发展,如灵活性(可以表达任何数据和元数据)、可组合性(易于增量进化)、连接性(连接所有数据和元数据“孤岛”)、无缝数据治理、面向未来(基于标准)、表现力(最全面的“开箱即用” 模型)、可集成性(最完整、开放和灵活的 APIs)、智能(集成推理和机器学习)等。

数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。

2、Data Fabric 价值及能力

产品价值

Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:

能力要求

针对Data Fabric,需要具备什么能力,目前还没有行业统一标准。我们可以通过Forrester和Gartner对能力有个大致的了解。

Forrester 定义的能力要求

3、Data Fabric 厂商实践

Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。

IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。

 Aloudata NoETL

极数云舟-DTark

北京极数云舟科技有限公司( Cloud-ark )是一家致力于数据处理基础技术研发的高新技术企业,结合数据处理领域最前沿的Data Fabric理论,创造性地提出广义数据库系统,并自主实现内核层多引擎融合技术,打造核心产品:云舟数据经纬平台(DTark),助力用户打造简单、高效、便捷与可持续发展的企业数据基座。

DTark核心技术本质是实现了多引擎融合数据处理,同时也实现了数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦等能力,基于成熟开源组件,并兼容开源协议和技术生态体系,稳定可靠,简单易用,软件核心源代码及关键技术自主研发,产品安全可控。极数云舟基于DTark产品,服务能力覆盖复杂企业数据管理、数据平台建设、数据库系统及管理,助力客户数字化、智慧化等基于数据融合服务的数据基座建设,也为数据中台、大数据平台建设提供了新动力,在提高性能、降低成本、减少定制化、降低系统复杂度、提升系统可持续发展能力等方面独具优势:

作者介绍

韩锋,51CTO社区编辑,CCIA(中国计算机协会)常务理事,前Oracle ACE,腾讯TVP,阿里云MVP,dbaplus等多家社群创始人或专家团成员。有着丰富的一线数据库架构、软件研发、产品设计、团队管理经验。曾担任多家公司首席DBA、数据库架构师等职。在云、电商、金融、互联网等行业均有涉猎,精通多种关系型数据库,对NoSQL及大数据相关技术也有涉足,实践经验丰富。曾著有数据库相关著作《SQL优化最佳实践》、《数据库高效优化》。

免责声明:本平台仅供信息发布交流之途,请谨慎判断信息真伪。如遇虚假诈骗信息,请立即举报

举报
反对 0
打赏 0
更多相关文章

评论

0

收藏

点赞