首页 热点资讯 义务教育 高等教育 出国留学 考研考公

大数据、数据挖掘各自的特色是什么?

发布网友 发布时间:2022-04-23 08:12

我来回答

3个回答

热心网友 时间:2022-06-18 04:57

数据挖掘是一门技术,是学问,更狭义一点就是对一类算法研究的总称,这些算法的共同特点是从希望从真实世界的数据中识别出有用的pattern,进而获取新的知识,最终落实到decision making。大数据,这个概念非常的虚,被赋予了太多的含义,缺乏实质的内涵。但是“大”是他们的共性。我更倾向于将其理解为近年来兴起的一系列数据处理工具,其代表就是基于MapRece的Hadoop。他们大多基于分布式环境,以能够处理海量数据或者实时性为卖点。

大数据和云计算的关系:

1、从技术上来看,大数据和云计算的关系就像一枚硬币的正反面一样密不可分。

2、大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

3、云时代的来临,大数据的关注度也越来越高,分析师团队认为大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据。

4、大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。

5、大数据需要特殊的技术以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模的并行处理数据库、数据挖掘、分布式文件系统、分布式数据可、云计算平台、互联网和可扩展的存储系统。

热心网友 时间:2022-06-18 04:58

首先是大数据。 我认为大数据与其说是详细的技术细节实现,倒不如说它首先是一个方*,他的提出并不是开天辟地的大创造,而是对一种文体解法的总结,并把这类方法正式提出来作为解决现实问题的一种可行手段。 然而光有方法是没用的,它必须要落地,必须要切实地在实际工作中能有产出,能看得见摸得着。那么与之对应地就有一大批完整的技术体系发展了起来,尤其是在开源社区的推动下,这种发展愈加迅猛。 这一些技术包括什么呢?我稍微列举一下,排名不分前后:计算模型、计算引擎、运维、调度、虚拟化、存储等等。实际上这些东西没有一样是在这波浪潮中被新提出来的,在早先都已经有所成果,只是在特定的时间,他们的地位和角色得到了巨大的提升和整个社会的承认。 于是,我们有了maprece、有了hadoop/spark/storm/,有了ganglia等运维系统,有诸如Yarn/mesos这样的调度系统,有docker这样性能极其出色的虚拟化工具,有了hdfs/hbase这样优秀的分布式存储容器。当他们被有机地组合在一起的时候,此时,就已经具备对大数据进行高性能处理的基本条件了。

那么什么是云计算呢?我属于那种想要把分布式计算和云计算两个概念严格分开的那群人。我看到很多人提到云计算的时候想到的不是openstack、docker这些技术而是hadoop、spark这些,我觉得这两者还是应该区分一下的。

曝光率最高的hadoop和spark等计算引擎,通常作为上述我提到的大数据技术链中的核心环节之一,因为他们直接或间接(比如加个hive)地暴露给用户进行使用,很多时候用户看到得最多。而他们最主要的任务是在于提供一种简单的方法,使开发者或者用户能够快速开发或生成出能够并行执行的应用。这样带来一个最大的好处在于,原本那些专注业务的算法专家们,可能并不是非常精通并行计算的方方面面,这种框架就帮助他们不需要太关心并行计算相关的实现,只需要调用接口就可以了。 但是这就是云计算吗?来看看定义:我认为云计算最大的几个特点在于资源按需使用,弹性分配,虚拟化等能力。它最大的几个作用就是,对于一个组织或集体来说,当有各种复杂应用运行在上面时,能够做到资源利用最大化,不同应用之间能够做到隔离互相不干扰。它将整个集群N台服务器的资源抽象成资源池,然后进行跨节点之间的分割。

然后可以看到了,像hadoop/spark这样的系统,虽然后续通过一些附加插件或者组件也提供了类似的资源调度虚拟化这样的功能,但是他们本质,或者说是设计初衷,是为了计算,附加功能严格来说是在他们设计初衷的系统边界之外的。

热心网友 时间:2022-06-18 04:58

大数据分析与数据挖掘的关系,人们不时地会混淆大数据分析技术和数据挖掘的关系,把一些数据挖掘的成果直接当成大数据的成果。虽然大数据分析的成果确实和数据挖掘一样,都需要靠算法驱动。但是二者也有明显的不同。

从概念上可以认为,大数据分析是数据挖掘的一个子集。在通常的概念下,他们之间是有差

别的,但是严格意义下,大数据的所有成果都可以纳入数据挖掘的成果范畴。 有时候,人们把数据挖掘等同于大数据分析,而又把大数据的一些理想情况,如高效度、高速等移加到数据挖掘的实践中去,造成了一些认知上的错误涉及大数据的问题,目前更多的是工程方面的,

重点在于存储和计算力两个方面;而数据挖掘的问题,很多仍在探索阶段,不成熟,精度方面也不能保证。因此,用大数据的方法,并不能直接解决数据挖掘存在的困难。不是所有的学术问题,数据量大了都能解决大数据技术首要的是提供存储和计算能力,其次是洞察数据中隐含的意义。前者依赖于硬件设备的升级,后者依赖于数据挖掘算法的不断优化创新。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com