分类目录:Big Data and AI

以下是分类 Big Data and AI 下的所有文章

企业数字化之数据平台建设

一、大数据之应用 大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。通过采集数据资源,并对数据加以整合、分析、提取,得到有价值的信息,企业……

数据治理角色

数据治理定义了组织如何充分利用数据,同时以合理的成本和资源水平保持数据的安全和管理。做得好,数据治理可以使组织中每个人都对数据负有责任感,并对数据对其工作的价值有所了解。 当然,并不是每个人都应对所有事情负责。一个人会有不同的技能和兴趣。因此,数据治理将需要完成的工作分解为任务,并将相关任务分组为……

打破数据孤岛:如何整合,清理和永久使用数据

要点:销毁数据孤岛是从数据中获得宝贵见解的第一步 盘点任何一家大中型企业的库存,您会发现大量数据:财务,营销详细信息,员工指标,销售数据,产品信息,客户支持电话,业务流程输出等等。无论这些数据是用于业务KPI,内部度量还是(完全可能)不使用,它们都位于单独的专有数据库中,并且每天都在增长。 (要了解有……

基于微软Azure云服务的大数据应用服务

大数据项目的解决方案选择过程非常复杂,有很多因素。本文将介绍基本基于微软Azure云服务的大数据应用解决方案及分析。此外,请仔细检查官方文档中相关Service的详细信息。 基本数据研究的特点,大数据分为“三个V”:速度,数量和种类。我们如何选择正确的解决方案取决于我们首先要解决的问题之一: 容量:需要存储和查询……

数据仓库Hive 基础知识(Hadoop)

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成……

企业数据库优化汇总

1、数据库设计优化 A. 对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 B. 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这……

关于数据的【加密】和【脱敏】

数据的”加密”和”脱敏”两个方案都可用于解决数据安全的问题,但场景不太一样,分别如下: 数据加密多用于数据传输和数据持久化,例如在数据库存储加密后的值,即使DBA有表访问权限,也不能获取到真实数据。加密的主要优点在于它的可逆性,但是解密密钥存储位置、如何存储以及确定谁具有访问权限等……