首页 » General » 正文

平台架构和数据架构不同但相关

许多人(甚至是经验丰富的数据专家)都会混淆相关的体系结构,从而削弱数据驱动的解决方案设计及其业务用例。

作为捕获和利用新数据资产用于新业务和技术实践的策略,许多用户组织正在使其数据管理工具和存储平台的产品组合多样化。他们的假设是,没有一个数据存储平台可以针对当今我们面临的数据结构,延迟,操作目的和分析应用程序的极端多样性进行优化。相反,许多组织希望拥有多样化的产品组合,以便他们可以为给定类型的数据及其用例选择最合适的工具和平台组合。

这种用于数据管理的多平台策略将组织推向由众多数据平台组成的环境,在该平台中,数据物理分布在多个数据库服务器,文件系统和存储中。所涉及系统的数量极大地导致了复杂性,这些系统通常包含多个品牌的数据库管理系统,NoSQL平台(尤其是Hadoop)以及用于数据集成,分析,流和内存处理的工具。这些可能在内部,在云中或在两者的混合组合中。工具和平台可能源自软件供应商,开源社区,本地开发人员,顾问或以上所有者。

定义多平台数据架构

当数据平台和数据集以这种方式集成时,结果就是多平台数据架构(MDA)。MDA是旧数据和新数据的折衷组合,可以在传统和现代数据平台上(无论是在内部还是在云中)进行管理,并使用来自许多提供商的多种工具类型,并通过某种形式的分布式数据架构进行组合。MDA的特点是数据持久性平台数量众多,种类繁多,并且数据结构,类型和容器的范围广泛。但是,同样重要的是MDA的实质性数据管理基础架构,它通过跨MDA的许多平台以及其他平台集成,同步,清理,母版化和记录数据来统一MDA的体系结构。

MDA是需要补充数据架构的平台架构。

我们假设数据在MDA中大量分布。换句话说,数据实际上分散在MDA的许多数据库,云,文件系统和其他存储平台上。但是,我们还假定应该有某种形式的大规模跨平台体系结构,在逻辑级别上统一MDA及其数据。理想情况下,应该由数据架构师积极设计跨平台的数据体系结构,并以某种形式的治理为指导。如果没有这种指导和控制,则MDA可能会恶化为难以管理且不受控制的沼泽,从而在极高的违规风险下提供最小的业务价值。

数据架构涉及数据以及如何通过语义描述数据。

维基百科的定义是可以使用的起点:

数据体系结构由模型,策略,规则或标准组成,这些模型,策略,规则或标准控制收集哪些数据以及如何在数据系统和组织中存储,安排,集成和使用这些数据。数据通常是构成企业体系结构或解决方案体系结构的支柱(或层)的几个体系结构域之一。

冒着显而易见的风险,数据体系结构与数据有关。注意:使用MDA时,这个想法经常被忘记,因为当用户积极部署新平台并替换旧平台时,系统架构是当今许多“行动”的地方。使用MDA时,请不要忽视森林的树木。平台很棒,但是没有好的数据就毫无意义。

数据建模是本地的。数据架构是全球性的。

Wikipedia的定义始于“数据架构由模型组成”。但是,即使是经验丰富的用户也会混淆数据体系结构和数据模型。例如,当您在某人的名片上看到“数据架构师”时,请询问他们的工作。他们有一半的时间将描述数据建模,这主要涉及本地数据结构及其组成部分(行,列,表,键,数据类型),通常一次创建一个数据库或表。数据体系结构往往涉及多个数据集及其平台之间的关系。为了增强跨平台的数据之间的关系和可移植性,数据架构师可以设计数据传输模型并创建用于数据建模的标准方式的管理策略。他们的工作仍主要围绕着全局,这使得它们对于统一的MDA必不可少。

数据体系结构与平台的系统体系结构独立(但相关)。

Wikipedia定义还指出“数据通常是几个体系结构领域之一”。例如,我们谈论的是具有多层的技术堆栈。数据驱动技术堆栈将具有用于数据物理位置的层,用于管理物理数据的DBMS或等效平台,用于运行DBMS的服务器(或集群,机架,云)以及用于存储数据的其他服务器。还必须有一个语义层(技术元数据),用于描述物理数据,以用于查询,访问,事务和​​文档编制。可以在数据的自定义视图的主要语义之上构建其他语义层(业务元数据,业务词汇表和数据目录以及通常的数据虚拟化)。

这些层中的每一层都可以具有自己的设计模式和参数(即体系结构),但是它们都可以在更大的技术堆栈中协同工作。此外,所有这些都与MDA有关。例如,由于那里出现了创新和新产品,系统架构引起了媒体的关注。系统架构主要由软件服务器,硬件服务器和现代等效物(云,无服务器计算,虚拟化)组成。为了使它不只是一个组合(仅仅是清单),系统架构需要一个主动的设计来适应其他层的需求(尤其是对数据和语义的需求)并实现跨平台通信(对于大型架构) )。

除了堆栈和层,我们还讨论了技术支柱(如Wikipedia定义中所述)。这个隐喻也是MDA的有用描述,因为MDA的每个平台都像一个支柱,与其他支柱并排站立,尽管每个支柱(或平台)都可以拥有自己的分层技术堆栈。

每个堆栈,层,支柱,平台和数据集中都有架构。重叠是不可避免的-而且很好。

作为最后的隐喻,请注意架构和层可以重叠。例如,任何多平台环境的语义层都应提供跨各个平台并与各个平台重叠的用户定义的体系结构计划。另一个例子是,精明的数据管理团队将通过为每个数据仓库提供适当的架构来优化其数据仓库和数据集成解决方案。然而,这两种架构有太多的重叠之处,以至于很难说出哪一个停在哪里而另一个在哪里开始。

最后,这里还有一些值得思考的想法:

    • 没有体系结构,您将有很多孤岛。此外,拥有几种不能很好地集成和互操作的体系结构并没有太大的好处。您必须在多个级别上设计架构,通常是针对平台,数据和集成。
    • 体系结构不仅仅是本地数据建模。它还涉及多个分布式数据结构,数据集,数据库和数据平台之间的全局关系。
    • 数据架构师是必不可少的。他们在相互依赖的平台上拥有MDA的全景图。他们设计建筑结构,并控制建筑标准。
    • 设计并强加数据架构以获取好处。格式正确的平台和数据架构使复杂的数据生态系统更易于理解,从而带来更好的设计,更高效的性能优化以及更少的税收管理。数据架构可创建统一性,有利于治理,数据标准以及单个架构和整个企业之间的数据共享。最重要的是,格式良好的平台和数据体系结构使数据更易于访问,以实现业务杠杆和创新。