分类目录:Data Analytics

以下是分类 Data Analytics 下的所有文章

数据仓库Hive 基础知识(Hadoop)

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成……

5 Rules of Data Normalization

There are several levels of normalization. A brief description is provided in below: Eliminate Repeating Groups – Make a separate table for each set of related attributes, and give each table a primary key. Eliminate Redundant Data – If an attribute depends on only part of a multi-val……

[转]50 个最实用的免费机器学习数据集

用于机器学习的开放数据集有哪些呢?Lionbridge 团队为高质量的数据集创建了一份最终备忘单。这些高质量的数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时要记住几点。Dataquest 是这么说的:      数据集不应脏乱,这样就无需花太多时间来清洗……

The 3 Most-Requested Dashboard Capabilities

The process of creating an application with embedded dashboards, reporting, and analytics capabilities is complex. It doesn’t just stop with taking information and making it available to end users in dashboards and reports. Application users are demanding advanced features that allow them to exami……