分类目录:Big Data and AI

以下是分类 Big Data and AI 下的所有文章

数据治理角色

数据治理定义了组织如何充分利用数据,同时以合理的成本和资源水平保持数据的安全和管理。做得好,数据治理可以使组织中每个人都对数据负有责任感,并对数据对其工作的价值有所了解。 当然,并不是每个人都应对所有事情负责。一个人会有不同的技能和兴趣。因此,数据治理将需要完成的工作分解为任务,并将相关任务分组为……

打破数据孤岛:如何整合,清理和永久使用数据

要点:销毁数据孤岛是从数据中获得宝贵见解的第一步 盘点任何一家大中型企业的库存,您会发现大量数据:财务,营销详细信息,员工指标,销售数据,产品信息,客户支持电话,业务流程输出等等。无论这些数据是用于业务KPI,内部度量还是(完全可能)不使用,它们都位于单独的专有数据库中,并且每天都在增长。 (要了解有……

基于微软Azure云服务的大数据应用服务

大数据项目的解决方案选择过程非常复杂,有很多因素。本文将介绍基本基于微软Azure云服务的大数据应用解决方案及分析。此外,请仔细检查官方文档中相关Service的详细信息。 基本数据研究的特点,大数据分为“三个V”:速度,数量和种类。我们如何选择正确的解决方案取决于我们首先要解决的问题之一: 容量:需要存储和查询……

数据仓库Hive 基础知识(Hadoop)

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成……

企业数据库优化汇总

1、数据库设计优化 A. 对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 B. 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这……

关于数据的【加密】和【脱敏】

数据的”加密”和”脱敏”两个方案都可用于解决数据安全的问题,但场景不太一样,分别如下: 数据加密多用于数据传输和数据持久化,例如在数据库存储加密后的值,即使DBA有表访问权限,也不能获取到真实数据。加密的主要优点在于它的可逆性,但是解密密钥存储位置、如何存储以及确定谁具有访问权限等……

Top 10 Skills for Data Science in 2020

Now, not every technologist is passionate about every other skill, but she would be excited about skills from her area of work. So are some of the skills for a Data Scientist. As we gear up for new technology trends and more significant challenges to solve in the new year, it is essential that ……