分类目录:Big Data and AI

以下是分类 Big Data and AI 下的所有文章

数据仓库Hive 基础知识(Hadoop)

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成……

企业数据库优化汇总

1、数据库设计优化 A. 对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 B. 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这……

关于数据的【加密】和【脱敏】

数据的”加密”和”脱敏”两个方案都可用于解决数据安全的问题,但场景不太一样,分别如下: 数据加密多用于数据传输和数据持久化,例如在数据库存储加密后的值,即使DBA有表访问权限,也不能获取到真实数据。加密的主要优点在于它的可逆性,但是解密密钥存储位置、如何存储以及确定谁具有访问权限等……

Top 10 Skills for Data Science in 2020

Now, not every technologist is passionate about every other skill, but she would be excited about skills from her area of work. So are some of the skills for a Data Scientist. As we gear up for new technology trends and more significant challenges to solve in the new year, it is essential that ……

不良数据的识别和清洗

不良数据是一切数字化转型的痛点,每一位数据专业人员都需要对其一查到底。不良数据会影响对数据的正确解读,并最终导致决策失误。因此,识别企业中的不良数据至关重要,但不难预见,此举并非易事。 识别不良数据 不良数据可能来自企业的各个领域,包括销售、市场营销或工程等业务部门,并呈现出不同形式。让我们来看一……

DMBOOK Context Diagram

Data Handling Ethics: Data Governance and Stewardship: Data Architecture: Data Modeling and Design: Data Storage and Operations: Data Security: Data Integration and Interoperability: Document and Content Management: Reference and Master Data: Data Warehousing and Business Intelligence: Me……

Data Lake vs Data Warehouse vs Data Mart

The term “Data Lake”, “Data Warehouse” and “Data Mart” are often times used interchangbly. But what are exactly the differences between these things? This post attempts to help explain the similarity, the difference and when to use each. A high-level comparis……

What is Data Mart?

A data mart is focused on a single functional area of an organization and contains a subset of data stored in a Data Warehouse. A data mart is a condensed version of Data Warehouse and is designed for use by a specific department, unit or set of users in an organization. E.g., Marketing, Sales, HR……

数据库表字段命名规范

摘要:当前研发工作中经常出现因数据库表、数据库表字段格式不规则而影响开发进度的问题,在后续开发使用原来数据库表时,也会因为数据库表的可读性不够高,表字段规则不统一,造成数据查询,数据使用效率低的问题,所以有必要整理出一套合适的数据库表字段命名规范来解决优化这些问题。 本文是一篇包含了数据库命名、数……