分类目录:Data Analytics

以下是分类 Data Analytics 下的所有文章

Google Cloud 2021 领导者观点:驱动业务发展的五大数据趋势

2020 年无疑是独特且复杂的一年。但无论世界如何变化,数据质量、处理速度与数据洞见仍然坚定地步入企业发展的最前沿。未来如何?我们将一同展望。 如果说 2021 年有什么与 2020 年保持一致,那就是难以捉摸的不确定性。我们不愿看到又一个 2020 年,但也得随时为各种意外做好准备。 2020 年可以说是意外频发、远超想象……

数据仓库Hive 基础知识(Hadoop)

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成……

5 Rules of Data Normalization

There are several levels of normalization. A brief description is provided in below: Eliminate Repeating Groups – Make a separate table for each set of related attributes, and give each table a primary key. Eliminate Redundant Data – If an attribute depends on only part of a multi-val……

[转]50 个最实用的免费机器学习数据集

用于机器学习的开放数据集有哪些呢?Lionbridge 团队为高质量的数据集创建了一份最终备忘单。这些高质量的数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时要记住几点。Dataquest 是这么说的:      数据集不应脏乱,这样就无需花太多时间来清洗……