每日科技名词|数据挖掘

每日科技名词|数据挖掘
2023-01-17 11:00 学习强国 编辑:张振山

定义:从巨量数据中获取正确的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

学科:计算机科学技术_人工智能_机器学习

相关名词:数据集 算法 随机噪声

图片来源:视觉中国

【延伸阅读】

近年来,随着网络技术的普及,数据库技术也飞速发展。图形、图像、音频、视频、网页等各种复杂数据都可以在数据库中进行管理,逐渐累积的数据量也在不断增加。

数据库在向人们提供大量的信息的同时,也表现出了大量的信息特征。在这个信息大爆炸的年代,过量的信息也会对人类产生一定的消极作用,最显著的影响是有效的信息可能被淹没在海量数据中很难被提炼出来。太多的无用信息势必会增大信息的状态转移距离,这是一种能够反映出丢失的有用知识的多少的指标。这种情况下就会出现所谓的“信息丰富,知识匮乏”的困境。

因此,对大量的数据进行深入分析,从中找出隐藏的信息,以便更好地利用这些数据,成为人们的迫切需要。但是,仅仅依靠数据库系统的增删改查等功能还不能从数据中找出隐含的关系和规律,也不能从已有的数据中判断出今后的发展方向,更不可能从数据中发掘出隐藏的知识。数据挖掘技术就是在这种情况下应运而生。

广义上说,任何从数据中挖掘信息的过程都可以称为数据挖掘。从这一角度,数据挖掘可以看作是一种商业智能。但在技术方面,数据挖掘大致需要经过以下步骤:

首先,要对源数据进行清洗和转换,使之成为适合于挖掘的数据集。其次,要在这种具有固定形式的数据集上完成知识的提炼。最后,采用合适的知识模式进一步完成分析决策。

从狭义的观点看,数据挖掘往往针对特定的数据和问题,选择一种或者多种挖掘算法,找到数据背后隐藏的规律,并使用这些规律来进行预测、支持决策。

作为一项新兴的处理数据技术,数据挖掘技术有许多的新特征。首先,数据挖掘的对象是海量数据,这也是数据挖掘技术产生的原因。其次,数据可能是包含随机噪声的、高维的,同时具有复杂的数据结构。最后,数据挖掘综合运用了统计学、计算机、数学等学科的知识,多学科的交叉使其具有广阔的应用领域。

(延伸阅读作者:大连理工大学计算机学院教授 杨鑫)


相关阅读