分享好友 站长动态首页 网站导航

数据湖治理:优势、挑战和入门

2022-07-03 08:00 · 头闻号数据库

成功的数据治理计划会利用政策、标准和流程来创建高质量数据,并确保在整个组织中正确利用这些数据。数据治理最初侧重于关系数据库和传统数据仓库中的结构化数据,但后来情况发生变化。如果你的企业拥有数据湖环境,并希望从中获得准确的分析结果,那么你还需要部署适当的数据湖治理,作为整体治理计划的一部分。

但数据湖对企业数据管理的所有领域(包括数据治理)带来各种挑战。下面我们将探讨一些主要的治理挑战,以及有效治理数据湖的好处。不过,首先让我们定义什么是数据湖:这是指一个拥有大量原始数据的数据平台,通常包括各种结构化、非结构化和半结构化数据类型。它通常建立在Hadoop、Spark和其他大数据技术之上。

虽然大多数数据仓库将数据存储在关系表中,但数据湖使用扁平架构。每个数据元素都被分配一个唯一标识符,并用一组元数据标签进行标记。因此,数据湖不像数据仓库那么结构化。数据通常以其原始格式保留,并根据特定分析用途的需要进行分类、整理和过滤,而不是在将其加载到数据湖中时。

数据湖与数据沼泽

如果数据湖没有得到很好的管理和治理,它可能会变成沼泽而不是湖泊。数据在没有适当监督和记录的情况下被转储到平台中,使数据管理和治理团队难以跟踪数据湖中的内容。这可能会导致数据质量、一致性、可靠性和可访问性方面出现问题。

因此,数据科学家、数据工程师和其他最终用户可能无法为分析应用程序找到相关数据。更糟糕的是,数据沼泽可能会导致分析错误,并最终导致糟糕的业务决策。数据安全和隐私保护可能无法正确应用,从而使企业的数据资产及其商业声誉面临风险。为了避免这种沼泽地情况,企业必须管理数据湖环境。

数据湖治理的好处

有效的数据治理使企业能够提高数据质量,并最大限度地利用数据进行业务决策,这可以带来运营改进、更强大的业务战略和更好的财务绩效。这个道理同样适用于治理数据湖,就像它与其他类型的系统一样。数据湖治理提供的具体好处包括:

数据湖治理挑战

数据治理的配套数据管理学科包括数据质量、元数据管理和数据安全,所有这些因素都会影响数据湖治理及其挑战。以下是数据湖部署中遇到的五个常见数据治理挑战。

(1) 识别和维护正确的数据源。在很多数据湖实施中,源元数据没有被捕获或根本不可用,这使得数据湖内容的有效性值得怀疑。例如,记录系统或数据集的业务所有者没有被列出,或者明显冗余数据可能会给数据分析师带来问题。至少,应记录数据湖中所有数据的源元数据,并提供给用户以深入了解其来源。

(2) 元数据管理问题。元数据为数据集的内容提供背景信息,使数据在应用程序中易于理解和使用,元数据是重要组成部分。但是很多数据湖部署没有将正确的数据定义应用于收集的数据。此外,由于原始数据通常加载到数据湖中,很多企业没有部署步骤来验证数据或应用组织数据标准。由于缺乏适当的元数据管理,数据湖中的数据对分析没什么用处。

(3) 数据治理和数据质量缺乏协调。不协调数据湖治理和数据质量工作可能会导致低质量数据进入数据湖。当数据用于分析和推动业务决策时,这可能会导致结果不准确,从而导致对数据湖的信心丧失以及整个组织对数据的普遍不信任。有效的数据湖实施需要数据质量分析师和工程师与数据治理团队和业务数据管理员密切合作,以应用数据质量策略、分析数据并采取必要措施来提高其质量。

(4) 数据治理和数据安全缺乏协调。在这种情况下,未在治理过程中正确应用的数据安全标准和策略,可能会导致访问受隐私法规保护的个人数据和其他类型的敏感数据时出现问题。尽管数据湖旨在成为相当开放的数据源,但仍需要安全和访问控制措施,并且数据治理和数据安全团队应共同努力处理数据湖设计和加载过程以及持续的数据治理工作。

(5) 使用相同数据湖的业务部门之间的冲突。不同部门可能对相似数据有不同的业务规则,这可能导致无法协调数据差异以进行准确分析。拥有一个强大的数据治理计划,具有数据策略、标准、程序和定义的企业视图,包括企业业务术语表,可以减少多个业务部门使用一个数据湖时出现的问题。如果企业有多个数据湖,则每个数据湖都应包含在数据湖治理流程中,并为其分配业务数据管理员。

如何开始管理数据湖

与其他类型系统中的数据治理一样,数据湖治理的常见初始步骤包括:

另一个好的初始步骤是构建数据目录,以帮助最终用户定位和理解存储在数据湖中的数据。或者,如果你已经拥有其他数据资产的目录,则可以将其扩展为包括数据湖。数据目录捕获元数据并创建可用数据的清单,用户可以搜索以找到他们需要的数据。你还可以在目录中嵌入有关你组织的数据治理策略的信息,以及强制执行规则和限制的机制。

总之,通过在设计、加载和维护数据环境中涵盖强大的数据治理以及元数据管理、数据质量和数据安全流程,可以显着提高数据湖的价值。经验丰富的专业人员在所有这些领域的积极参与也至关重要。否则,你的数据湖可能确实会变成更多的数据沼泽。

免责声明:本平台仅供信息发布交流之途,请谨慎判断信息真伪。如遇虚假诈骗信息,请立即举报

举报
反对 0
打赏 0
更多相关文章

评论

0

收藏

点赞