分类目录:Big Data and AI

以下是分类 Big Data and AI 下的所有文章

Hive优化

1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎; ……

Apache Flink 是什么?

Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界 数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。 接下来,我们来介绍一下 Flink 架构中的重要方面。 处理无界和有界数据 任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站……

4 data tagging best practices

The more data you can apply to a business problem, the better its potential solutions. While there’s no shortage of data available to your enterprise today, it’s often difficult to know what data you have and how it can be used. This is why you should never overlook the important role metadata pla……

医疗健康行业的数字化及应用

医疗健康的未来发展令人兴奋,而这全都在于协作,教育和利用正确的数字生态系统,使患者的健康成为护理的核心。COVID-19扰乱了医疗健康行业,并迫使医疗健康专业人员适应新的“非接触式”数字实践环境。未来,这种趋势将继续发展和扩大,远程医疗,物联网,数据分析,人工智能,AR/VR,机器人及助理等技术将发挥越来越……

Qlik最佳实践:Qlik Sense中的分层解决方案结构

在实施Qlik Sense架构时,我们强烈建议您实施语义层( Semantic Layer),在Qlik中称为QVD层。 QVD层充当集中式数据库,其中包含从一个或多个数据源提取产生的一组受控数据快照。 Qlik数据库中的数据应当为“业务就绪”的,这意味着它应该是干净的,及时的,可访问的,格式化且易于关联的,使这些数据非常适合真正的自助服……

药物研发中的人工智能

当前,由于增加的研发成本和降低的效率,制药业在维持其药物开发计划方面面临挑战。计算能力的显着提高与AI技术的进步相结合,可以用来彻底改变药物开发过程。 人工智能在药物开发中的应用 寻找成功的新药的任务是艰巨的,并且主要是药物开发中最困难的部分。这是由所谓的化学空间的巨大大小引起的,据估计约为10 60个……

数仓建模—Inmon 范式建模与 Kimball 维度建模

在数据仓库领域,有两位大师,一位是“数据仓库”之父 Bill Inmon,一位是数据仓库权威专家 Ralph Kimball,两位大师每人都有一本经典著作,Inmon 大师著作《数据仓库》及 Kimball 大师的《数仓工具箱》,两本书也代表了两种不同的数仓建设模式,这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。今天我们就来聊……

Gartner: Data Hub,Data Lake和Data Warehouse:它们有何不同以及为什么它们在一起会更好

许多数据和分析领导者将Data Hub,数据湖和数据仓库视为可互换的替代方案。实际上,这些架构模式中的每一个都有不同的主要目的。当它们组合在一起时,它们可以支持日益复杂,多样化和分布式的工作负载。 概述 关键挑战 数据和分析领导者通常不清楚数据湖,数据仓库和Data Hub之间的区别。将它们定位为竞争性方法……

数据仓库建设灵魂10问

01 传统数仓和大数据数仓的异同?有哪些大的变化? 区别主要是数仓数据存储的地方不同,传统数仓数据存储在Mysql/Oracle等关系型数据库上,大数据数仓存储在Hadoop平台的Hive中(实际上是HDFS中),当然也有其他的数仓产品比如TD、Greenplum等。 我接触过的传统数仓技术架构是使用Kettle做ETL工具,数据保存在Mys……