首页 » Big Data and AI » Data Analytics » 正文

史上最全!最好用的大数据工具及使用方法

大数据的工具数以千计,它们无一不承诺省时省钱并且还能帮你挖掘从未被发现的商业价值。它们的承诺也许都是真的,但是真正实际使用的过程中可能会由于选项太多而不知所措。

哪个才是你真正所需要的呢?

哪个才是最适合你的项目?

为了帮你节省时间并且让你第一次使用就能挑选出正确的工具,我们搜集和整理了数据提取、数据存储、数据清洗、数据挖掘、数据可视化、数据分析和数据集成方面的我们最爱用的工具。

数据存储和管理

如果你打算从事大数据行业,那么你就应该考虑如何储存数据。大数据之所以称为大数据是因为数据规模巨大,大到难以使用传统的处理技术进行管理。好的数据存储提供者不仅应该能够存储和访问自己的数据,而且还应该提供一套可以运行你的所有其它分析工具的平台。

Hadoop

Hadoop现在几乎已经等同于大数据。它是存储在计算机集群中的超大数据集的一个开源的分布式的基础架构。你可以随意增大或减小你的数据量而不用担心硬件故障。Hadoop提供了对任何种类的海量数据的存储、强大的处理能力和几乎无限的并行工作能力。

Hadoop并不适合数据初学者。要想充分发挥Hadoop的能力,你需要了解Java。学习Java可能耗时,但是Hadoop绝对值得你付出,因为大量的公司和技术都依赖于它甚至和它融为了一体。

Cloudera

Cloudera是围绕Hadoop开发产品和提供服务的一家公司。它们能帮助你的公司建立一个企业数据中心来方便你的公司成员更好的使用所存储的数据。

虽然Cloudera有开源的部分,但是它主要是企业解决方案,可以帮助企业管理它们自己的Hadoop生态系统。Cloudera帮助企业做了许多Hadoop的管理工作。当你存储了一些敏感或者个人数据,它还能给你提供一定程度的数据安全,这点也相当重要。

MongoDB

MongoDB是一个现代、较新的数据库使用方法。把它们作为关系型数据库的替代方案。它擅长处理动态变化的数据或者非结构化数据、半结构化数据。

通常的使用情况包括有移动应用程序的数据的存储,产品目录,实时个性化,内容管理以及多应用程序跨平台显示同一视图。再次强调,MongoDB不适合初学者使用。对于任何数据库来说,你都需要知道如何使用编程语言来访问。

Talend

Talend是另外一家很好的提供众多数据产品的开源公司。这里我们主要关注的是该公司提供的主数据管理(MDM),它结合了实时数据,应用程序数据处理以及数据质量管理。

由于Talend的开源和免费的特点,使得它成为了一个不管你的公司处于哪个阶段都很不错的选择,并使你避免了建立自己的数据管理系统的庞大复杂且困难的工作。

数据清洗

在你进行数据挖掘之前,应该先对你的数据进行清洗。即便是一些情况下很难获得干净的数据,但是我们仍然要尽量建立一个干净的,结构良好的数据集。数据集的来源各式各样,一些是好的,一些很一般,尤其是从网上获取的时候。下面的公司将会帮你将数据改进或改造成可以使用的数据集。

OpenRefine

OpenRefine(之前的GoogleRefine)现在是一款用来专门清洗混乱数据的开源工具。从而使你能够轻松和快速的探索有一定程度非结构化的大数据集。

随着数据软件的不断发展,虽然OpenRefine的界面相当友好,但熟悉数据清洗规则的知识还是相当有帮助的。此外OpenRefine本身有着一个相当大的社区,其中有很多使用后分享的人,这也使得这个软件会变得更好。当你遇到难题是,你可以到社区中去提问,大家会很有耐心的对你进行帮助。你还可以在Github里找到OpenRefine的维基百科。

入门:在OpenRefine的主页上你可以看到相关教程和关于它的指导书。

DataCleaner

Datacleaner明白数据操作是一项耗时和费力的工作。数据可视化工具只能够识别规范的干净的格式化数据集。Datacleaner可以将杂乱的半结构化的数据转化为干净可读的数据集,经过清洗后的数据就可以被任何可视化公司的工具读取。

DataCleaner也提供了数据仓库和数据管理服务。该公司提供了30天的免费试用版,之后就要按月交付订阅费用。你可以在这查到更详细的计费方案。

入门:DataCleaner提供了十分详尽的使用文档和教程,同时也提供现场或者网络培训。

数据挖掘

与下文提到的数据提取不同的是,数据挖掘是从数据库中发现商业价值,而数据提取是从网页中提取数据到数据库中。数据挖掘的目的是基于现有的数据做出预测和决定。

RapidMiner

RapidMiner是一款相当出色的预测性分析工具,它的用户包括了PayPal、Deloitte、eBay和Cisco等商业巨擘。RapidMiner功能强大,易于操作,并且有一个相当大的开源社区。你也可以通过RapidMiner的API接口将自己的专业算法集成上去。

RapidMiner的图形交互界面(使人想起了Yahoo! Pipes)可以使你不需要知道如何编程也不需要拥有博士学位就能操作它们的四个分析产品。

入门:你可以使用帮助文档、论坛以及社区学习RapidMiner

IBM SPSS Modeler

IBM SPSS Modeler提供了一整套专门用于数据挖掘的解决方案,它包括了文本分析,实体分析,决策管理和最优化,它们的这五个产品包含了其先进的算法和技术。

SPSS Modeler是适用于大公司繁重任务的解决方案,它几乎可以在任何数据库上运行,并且可以集成到其它的诸如SPSS C&DS服务以及SPSS分析服务等IBM的产品中去。

入门:对于IBM来说,帮助文档是你的不二之选。

Oracle data mining

数据挖掘领域的另一巨头就是Oracle。作为Oracle先进的数据库分析的一部分,Oracle数据挖掘使它的用户能发现潜在价值、预测分析和利用Oracle数据。你可以建立模型发现消费者行为,最佳目标客户和发展概况。

数据分析师,商业分析师和数据科学家可以使用Oracle数据挖掘的图形用户界面,并且通过简单的拖放来使用数据库中的数据解决问题。它还可以为整个企业创建SQL和PL/SQL数据库脚本来实现自动化、调度和部署整个企业。

Teradata

Teradata明白虽然大数据很好,但是如果你不知道如何分析和利用,它就一文不值。当你有大量的数据却不知道该如何访问和使用时,你可以使用Teradata。Teradata提供了全面的数据仓库、大数据分析和市场整合营销服务。Teradata可以使你的企业成为一个数据驱动型的企业。

Teradata提供了一整套的包括实施,商业咨询以及培训和后期支持的服务。

FramedData

通过特定的数据挖掘后,有大量的创业公司专门使用数据来帮助企业解决棘手的问题。如果你担心的是用户流失,我们建议你使用FramedData,分析后会告诉你哪些用户将会不再使用你的产品。

这是一个完全托管的解决方案,这意味着你不需要做任何事情,只需要坐等预测洞见即可。

Kaggle

如果你困在一个数据挖掘的问题上,或者要解决世界上最难的问题,不妨使用Kaggle。Kaggle是世界上最大的数据科学社区。公司和研究者会在这里发布他们的数据,然后会有来自世界各地的统计学家和数据挖掘者对此提出最好的模型。

数据分析

数据挖掘是从你的数据中搜寻隐藏的原理和模式,而数据分析是划分数据后来使用先前的模式或原理进行分析或评定。数据分析是从数据中寻找特定问题的答案。你甚至也可以问将来会发生什么这样的问题。

Qubole

Qubole极大程度的简化、加快和缩减了处理存储在AWS、谷歌或者Azure云中的大数据分析的工作量。他们解决了基础设施冲突的问题,一旦互联网的政策到位,任何数量的数据分析都可以在Hive,spark、Presto等日益增多的数据处理引擎的协助下实现一键访问。

Qubole是一个企业级别的解决方案,它们在这个页面提供了注册的试用版。它的灵活性使得它脱颖而出,成为一款相当值得使用的软件平台。

入门:可以在Qubole的资源页学到更多的知识。

BigML

BIgML是尝试简化机器学习,它们提供了大量强劲的机器学习服务,并且该服务可以通过简单易用的界面导入数据,并且得到预测结果。你也可以使用它们的模型来今夕预测性分析。

如果你想从BigML中获得更多的信息,那么对建模的深刻理解不仅是有帮助的,更是必须的。BigML提供一个免费版和付费版,免费版允许用户创建一个16MB以下的任务,付费版使用虚拟私有云来满足企业级别的需求。

Statwing

Statwing将数据分析提高到了一个新台阶,它提供从漂亮的可视化到复杂的分析中的任何事情。NFL上的Statwing的博客相当酷。操作十分简单,你可以在5分钟之内学会。

虽然Statwing并不免费,但是它的价格方案还是很厚道的。基础版是50美金/每月,并且你可以在任何时候终止,并且允许你使用的单个数据集的大小上升到 50MB。另外企业级别的方案还允许你使用更大的数据集。

数据可视化

数据可视化公司可以使你的数据更加生动。对数据科学家来说的一个重大挑战是挖掘比其它公司更加独特的商业价值,而对你的大部分的同事来说,还会继续使用MySQL数据库和表单。可视化是一个表达复杂的数据洞见的清晰而又简单的方法。最重要的是它并不需要任何的编程能力。

Tableau

Tableau是一款主要考虑商业智能的数据可视化工具。你无需掌握编程就能够创建地图,柱状图,散点图以及更多其它图表。最近它们开放了一个网页接口允许你连接到一个数据库,或者通过API接口对实时数据进行可视化。

Tableau根据需要的支持和功能的程度提供了五款产品。如果你是数据可视化领域的新手,我们建议你使用Tableau公共版,该版本是免费的。通过对这个版本的工具的探索你可以明白你到底需要付钱购买哪一款。

Silk

Silk是一款相对Tableau 更加简单的数据可视化和分析工具。你可以通过简单的点击几下鼠标就建立一个交互式的图表来使你的数据更加生动。Silk也支持多人可视化协作。

像我们提到的许多可视化公司一样,使用Silk不需要你是一个专业程序员。如果你是一个数据可视化的新手,它们的最近特征产品自动化的完成数据可视化的功能就很实用。

CartoDB

CartoDB是一款专注于绘制地图的数据可视化工具,它使得任何人进行位置信息数据可视化的过程更加简便,并且不用任何的编程。CartoDB能够管理大量的数据文件和数据类型,它们还提供示例数据集,方便你还没上手时进行尝试。

如果你有位置数据,CartoDB绝对是值得尝试,它也许不是最简单的使用系统,但一旦上手,可以看出它的相当强劲,CartoDB提供的企业版支持项目协作和权限控制。

Chartio

Chartio使你通过浏览器来访问数据源并执行查询,在这里你可以很简单的创建图表。Chartio的访问语言使得任何人都可以在不了解SQL和其它复杂模型语言的情况下从任何地方抓取数据,你还可以将图表导出为PDF或者通过邮件将图表以PDF格式发送给任何人。

Chartio的另一个优点是它通常不需要数据仓库,所以你就可以快速启动和运行它,并且它的基础设备的费用也会很低和可预测。

Plot.ly

如果你想绘一幅图,是你应该看看Plot.ly。你能通过这个易上手的平台绘制出漂亮的2D和3D图表。重申一下,你真的不需要任何编程知识。

Plot.ly免费版可以创建一个私人图表和无限制的公共图表,企业版的可以绘制无限制的私人和公共图表,并且提供矢量导出和保存为自定义主题。

Datawrapper

我们最后要介绍的可视化工具是Datawrapper,它是开源的,分分钟可以让你创建一幅嵌入式图表。由于它开源的特点,大家都在不断对它进行改进,你可以在它们的图表展览馆的页面看到其它人使用Datawrapper绘制的图表。

和本部分介绍的许多其它的公司一样,它们也提供免费版和预设后定制的付费版。

数据集成

数据集成平台是各个项目之间的粘合剂。如果你想使用Import.io接入你从Twitter中提取出的信息,或者你想要分享你使用Tableau或者Silk生成的可视化图表,那么下面的这些工具你可以派上用场。

Blockspring

Blockspring的独特之处在于它融合了诸如相同平台下的IFTTT和Zapier,以及Excel和GoogleSheets等服务。你可以通过简单的编写几个谷歌表单公式来连接到大量的第三方应用程序中,举例来说你可以通过表单发布微博,看看你粉丝的粉丝是谁,你也可以连接到AWS,Import.io和Tableau等等

Blockspring可以免费试用,但是它们也提供企业版,企业版可以分享私有函数,添加便于搜索和查找的自定义标签并且为你的组织的员工设置API接口访问令牌。

Pentaho

Pentaho提供不需要任何编程的大数据集成服务。通过简单的拖曳界面,你就能够集成许多工具,它们也提供嵌入式分析和商业分析服务。

.Pentaho是一个企业级别的解决方案,你可以使用它的数据集成产品的免费版,其它版本则需要付费使用。

数据语言

在你的数据生涯中学会单一工具很难一招鲜吃遍天。现在的工具虽然使用起来越来越简便,功能也越来越强大,但是有的时候还是自己编程更好一些。即使你不是一个专业程序员,理解这些语言的基本工作原理对诸多的工具的运行和使用方法的理解也是大有裨益。

R

R语言是用来进行统计分析和绘图的一种语言。如果上述的数据挖掘和统计软件无法满足你的需求的话,那么R语言一定会有所帮助。实际上如果你要成为一个数据科学家,了解R语言是一项必备技能。

R语言可以在Linux、Windows和MacOs上运行,可以在该页面进行下载。R语言方兴未艾,它的社区也相当大,其中更是不乏统计学家。

入门:下载后,可以查看帮助文档

Python

数据领域里最近兴起的另一种语言当属Python。持续进入最受欢迎的编程语言排名前十的Python是20世纪80年代开发出来,它是以一个名为Monty Python的喜剧团体命名的。

人们喜欢Python,是因为它和英语很像,它使用一些诸如‘if’和‘in’这样的单词,这就使得Python具有很高的可读性。Python还为不同的使用情景提供了大量的库。

RegEx

RegEx 即为正则表达式,它是对数据进行操作或改变的单个字符串。正则表达式通常被用来进行模式匹配或者字符串匹配,在Import.io中你可以在数据提取的过程中使用正则表达式来删除或保留特定的字符串。

正则表达式是一种十分有用的工具,它可以在你提取数据的时候帮助你准确获得你想要的数据,而不需要依赖像上面提到的那些公司。

入门:RegEx 在线上可以找到很多不错的教程。

XPath

Xpath是一种用来在XML文档中查找特定节点的路径语言。正则表达式是对数据进行操作,而XPath则是为正则表达式提取原始数据。

XPath大部分情况是被用在数据提取中。在Imort.io中你每点一次数据的一部分,它就会为你自动创建XPath。简单来说,XPath就是一个到一个网页超文本语言特定位置的路径。

入门:最好的XPath教程尽在w3schools。

数据收集

在你进行数据存储、分析和可视化之前,你应该已经收集到了一些数据。数据提取用来获取一些像网页一样的非结构化数据,并且把它转化为结构化表格。一旦你将数据结构化了,你就可以使用我们提到的工具应用各种方法对它进行处理,并从中发现商业价值。

Import.io

Import.io是数据提取领域的领头羊,它的用户界面十分的简洁,我们可以轻松的将一个网页转化为一个便于你进行分析和可视化以及做出数据驱动决策的表单。

Import.io在免费的同时,还是数据供应商,它为每个客户量身定制数据集,并且这个数据能够定时更新来保证你的公司能够及时获取最新的数据。

可以访问Import.io的知识仓库来学习如何使用工具,或者联系我们的数据专家来为你的企业或公司定制数据。