分类目录:Database

以下是分类 Database 下的所有文章

不良数据的识别和清洗

不良数据是一切数字化转型的痛点,每一位数据专业人员都需要对其一查到底。不良数据会影响对数据的正确解读,并最终导致决策失误。因此,识别企业中的不良数据至关重要,但不难预见,此举并非易事。 识别不良数据 不良数据可能来自企业的各个领域,包括销售、市场营销或工程等业务部门,并呈现出不同形式。让我们来看一……

DMBOOK Context Diagram

Data Handling Ethics: Data Governance and Stewardship: Data Architecture: Data Modeling and Design: Data Storage and Operations: Data Security: Data Integration and Interoperability: Document and Content Management: Reference and Master Data: Data Warehousing and Business Intelligence: Me……

Data Lake vs Data Warehouse vs Data Mart

The term “Data Lake”, “Data Warehouse” and “Data Mart” are often times used interchangbly. But what are exactly the differences between these things? This post attempts to help explain the similarity, the difference and when to use each. A high-level comparis……

What is Data Mart?

A data mart is focused on a single functional area of an organization and contains a subset of data stored in a Data Warehouse. A data mart is a condensed version of Data Warehouse and is designed for use by a specific department, unit or set of users in an organization. E.g., Marketing, Sales, HR……

数据库表字段命名规范

摘要:当前研发工作中经常出现因数据库表、数据库表字段格式不规则而影响开发进度的问题,在后续开发使用原来数据库表时,也会因为数据库表的可读性不够高,表字段规则不统一,造成数据查询,数据使用效率低的问题,所以有必要整理出一套合适的数据库表字段命名规范来解决优化这些问题。 本文是一篇包含了数据库命名、数……

Codd’s Twelve Rules

Codd’s 12 Rules (for a relational database product) are (still) frequently informally cited, but their original text turns out to be annoyingly difficult to find. They are reprinted here under the principles of fair use and/or fair dealing and have been extracted, verbatim, from ‘Is your DBMS real……

5 Rules of Data Normalization

There are several levels of normalization. A brief description is provided in below: Eliminate Repeating Groups – Make a separate table for each set of related attributes, and give each table a primary key. Eliminate Redundant Data – If an attribute depends on only part of a multi-val……

使用 PolyBase 将数据加载到 Azure SQL 数据仓库

使用 PolyBase 是将大量数据加载到高吞吐量 Azure SQL 数据仓库的有效方法。 使用 PolyBase 而非默认 BULKINSERT 机制可以实现吞吐量的巨大增加。 如果源数据位于 Azure Data Lake Storage Gen2 中,且格式与 PolyBase 兼容,则可使用复制活动直接调用 PolyBase,让 Azure SQL 数据仓库从源拉取数据。 如果 PolyBase 最……

通过数据工厂将数据载入 Azure SQL 数据库的最佳做法

将数据复制到 Azure SQL 数据库时,可能需要不同的写入行为: 追加:我的源数据只包含新记录。 更新插入:我的源数据包含插入和更新内容。 覆盖:我需要每次都重新加载整个维度表。 使用自定义逻辑进行写入:在将数据最终插入目标表之前,我需要额外的处理。 有关如何在 Azure 数据工厂中进行配置和最佳做法,请参阅相……