分类目录:Data Analytics

以下是分类 Data Analytics 下的所有文章

Hive优化

1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎; ……

4 data tagging best practices

The more data you can apply to a business problem, the better its potential solutions. While there’s no shortage of data available to your enterprise today, it’s often difficult to know what data you have and how it can be used. This is why you should never overlook the important role metadata pla……

Qlik最佳实践:Qlik Sense中的分层解决方案结构

在实施Qlik Sense架构时,我们强烈建议您实施语义层( Semantic Layer),在Qlik中称为QVD层。 QVD层充当集中式数据库,其中包含从一个或多个数据源提取产生的一组受控数据快照。 Qlik数据库中的数据应当为“业务就绪”的,这意味着它应该是干净的,及时的,可访问的,格式化且易于关联的,使这些数据非常适合真正的自助服……

药物研发中的人工智能

当前,由于增加的研发成本和降低的效率,制药业在维持其药物开发计划方面面临挑战。计算能力的显着提高与AI技术的进步相结合,可以用来彻底改变药物开发过程。 人工智能在药物开发中的应用 寻找成功的新药的任务是艰巨的,并且主要是药物开发中最困难的部分。这是由所谓的化学空间的巨大大小引起的,据估计约为10 60个……

Google Cloud 2021 领导者观点:驱动业务发展的五大数据趋势

2020 年无疑是独特且复杂的一年。但无论世界如何变化,数据质量、处理速度与数据洞见仍然坚定地步入企业发展的最前沿。未来如何?我们将一同展望。 如果说 2021 年有什么与 2020 年保持一致,那就是难以捉摸的不确定性。我们不愿看到又一个 2020 年,但也得随时为各种意外做好准备。 2020 年可以说是意外频发、远超想象……

数据仓库Hive 基础知识(Hadoop)

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成……

5 Rules of Data Normalization

There are several levels of normalization. A brief description is provided in below: Eliminate Repeating Groups – Make a separate table for each set of related attributes, and give each table a primary key. Eliminate Redundant Data – If an attribute depends on only part of a multi-val……