论文无忧网提供:计算机毕业论文范文|计算机毕业设计|计算机毕业论文
栏目导航 教育技术学 小学教育 学前教育 代写论文
当前位置: > 教育论文 > 教育技术学 >

图书管理系统中借阅记录的数据挖掘

1.数据挖掘及概念

1.1.数据挖掘的产生 内容来自论文无忧网 www.paper51.com

 近年来,随着数据库技术的不断发展,存储在数据库中的信息量也在大量增加,怎样从一大堆随机的数据中挖掘出一些有价值的信息逐渐成为一个重要的课题,由此带动了数据挖掘技术的产生和飞速发展[1]。

内容来自www.paper51.com

自数据库这一概念出现以来,数据库技术的发展经历了几个重要的阶段。最初的数据是由一些原始的文件来存储;在20世纪60年代,功能强大也更加复杂的数据库系统取代了原始的文件处理,数据库技术正式进入了飞速发展的崭新阶段;自70年代以来,数据库系统的研究和开发已经从层次和网状数据库系统发展到开发关系数据库系统、数据建模工具、索引和数据库组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据;在80年代中期以后,各种纷繁复杂的数据库技术更是如雨后春笋般地出现:首先是各种类型的数据模型被广泛采用,如扩充关系模型、面向对象模型、对象一关系模型和演绎模型;其次是数据库存储的内容的应用的范围不断丰富,包括空间的、时间的、多媒体的、主动的和科学的数据库、知识库及办公信息库;同时,涉及分布性、多样性和数据共享问题被广泛研究[2]。 http://www.paper51.com

数据的丰富带来了对强有力的数据分析工具的需求。大量的数据被描述为“数据丰富,但信息贫乏”,因为存储在大型数据库中的数据可以用海量来形容,理解这些数据中隐含的知识已经超出了人力的范围,没有强有力的分析工具,这些数据就变成了“数据坟墓”---很难再访问的数据档案。于是,数据挖掘技术应运而生,利用数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了重大贡献。数据和信息之间的裂口呼唤系统地开发数据挖掘工具,将数据的“坟墓”转变成知识的“金块”[2]。 内容来自www.paper51.com

1.2.数据挖掘的概念

copyright paper51.com

数据挖掘,又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。数据挖掘功能包括发现概念/类描述、关联、分类、预测、聚类、趋势分析、偏差分析[3]。 copyright paper51.com

从广义上说,数据挖掘是从一些事实或观察数据的集合中寻找模式或规则的过程,它是一个发现过程,是运用一种数据处理引擎帮助我们理解有关数据的真正含义,并了解数据之间所存在的关系。数据挖掘是从大型数据库中提取出人们感兴趣的知识,这些知识是隐含的、先前未知的、对决策有潜在价值的,提取的知识表示为概念、规则等形式。这些规则蕴涵了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。

paper51.com

数据挖掘是一个年轻的跨学科领域,源于诸如数据库系统、数据仓库、数据显象、信息提取和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图象数据库、信号处理,其中也包括商务、经济和生物信息学等。 内容来自www.paper51.com

1.3.数据挖掘功能及挖掘的数据模式

paper51.com

数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分为两种:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断,以进行预测[2]。

内容来自论文无忧网 www.paper51.com

数据挖掘功能及它们可以发现的模式类型如下: http://www.paper51.com

1.3.1.类(或概念)描述:特征和区分

http://www.paper51.com

 数据可以与类(或概念)相关联。例如,在商店里,销售的商品类包括计算机和打印机,顾客的概念包括bigSpenders和budgetSpenders,用汇总的、简洁的、但精确的方式描述各个类和概念可能是有用的,这种类(或概念)的描述称为类(或概念)描述[2]。这种描述可以通过下述方法得到: 内容来自论文无忧网 www.paper51.com

(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,数据特征是目标类数据的一般特征或特性的汇总。 内容来自论文无忧网 www.paper51.com

(2)数据区分,通过比较目标类与一个或多个比较类(通常称为对比类),数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较,目标类和对比类自行指定,而对应的数据通过数据库查询提取。 内容来自论文无忧网 www.paper51.com

(3)数据特征化和比较。

copyright paper51.com

1.3.2.关联规则 内容来自www.paper51.com

关联规则挖掘可以发现存在于数据库中的项目或属性间的关系,这些关系是预先未知的或者被隐藏的。为了准确描述关联规则挖掘问题,需要给出关联规则挖掘问题的正式定义,下面用事务数据库来定义关联规则[4]。

内容来自www.paper51.com

交易(transaction) 是的集合,,这里交易是项的集合,可以表述为:并且中的元素称为项,对应每一个交易有唯一的标识,如交易号,记作。设是数据集中所有项的集合,是二进制文字的集合,中的任何子集称为项目集(itemset),若,则称集合项集。设分别为中的事务和项目集,如果,称事务包含项目集。项目集的支持率,若不小于用户指定的最小支持率(记作:),则称为频繁项目集,否则称为非频繁项目集。设是数据集中的项目集,若,则;若,如果是非频繁项目集,则也是非频繁项目集;若,如果是频繁项目集,则也是频繁项目集。

copyright paper51.com

一个关联规则是形如的蕴涵式,这里都是项目集,且,并且分别称为关联规则的前提和结论。

内容来自论文无忧网 www.paper51.com

一般使用支持度(support)和置信度(confidence)两个参数来描述关联规则的属性[1]。 http://www.paper51.com

(1)支持度

copyright paper51.com

规则在数据库中的支持度是交易集中同时包含的事务数与所有事务数之比,记为 ,支持度描述了这两个项集在所有事务中同时出现的概率。

paper51.com

(2)置信度 copyright paper51.com

规则在事务集中的置信度(confidence)是指同时包含的事务数与包含的事务数之比,它用来衡量关联规则的可信程度。记为[1]。 内容来自论文无忧网 www.paper51.com

一般情况下,只有关联规则的置信度大于期望可信度,才说明的出现对的出现有促进作用,也说明了它们之间的某种程度的相关性。给定一个事务集,挖掘关联规则的问题就是产生支持度和置信度分别大于用户事先给定的最小支持度和最小置信度的关联规则,关联规则挖掘的任务就是要挖掘出中所有的强规则,强规则对应的项目集必定是频繁项目集,频繁项目集导出的关联规则的置信度可由频繁项目集的支持度计算。因此,可以把关联规则挖掘划分为两个子问题:一个是找出所有的频繁项目集:即所有支持度不低于给定的最小支持度的项目集;另一个是由频繁项目集产生强关联规则:即从第一个子问题得到的频繁项目集中找出置信度不小于用户给定的最小置信度的规则,其中,第一个子问题是关联规则挖掘算法的核心问题,是衡量关联规则挖掘算法的标准[4]。

内容来自www.paper51.com

1.3.3.序列模式分析

paper51.com

序列模式(SequencePattern)分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A->B->C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样需要自行输入最小置信度c和最小支持度s。

内容来自论文无忧网 www.paper51.com

------分隔线----------------------------
联系方式