数据挖掘关联规则的关联规则中,为什么关联规则挖掘时前缀不同的不能合并?

【摘要】关联规则的数据挖掘关聯规则可以发现购物篮数据库中不同商品间潜在的关系。应用软件WEKA 可以非常便利、直观地进行数据挖掘关联规则工作对于商品的交叉銷售及货架的商品摆放具有一定的指导作用。

【关键词】关联规则分析;WEKA ;数据挖掘关联规则;Apriori算法

【作者简介】王彦增浙江理工大学經济管理学院硕士研究生,研究方向:电子商务、市场营销;曹正浙江理工大学经济管理学院教授,硕士生导师研究方向:战略管理與零售管理。

现今各行业数据激增如何在茫茫数据库中挖掘出有效利用的信息已成为一大难题。针对此情况如何利用一些经典的数据挖掘关联规则工具以及相应算法进行数据挖掘关联规则工作已成为热门课题。本文仅针对数据挖掘关联规则工作中关联规则的挖掘进行了┅定阐述总结了利用WEKA进行数据挖掘关联规则的一般步骤,并进行了应用举例

一、应用软件WEKA 简介

大学开发的一种用Java编写的开源的机器学習以及数据挖掘关联规则软件,可以运行于几乎所有的操作平台包括Linux、Windows、Macintosh 等,WEKA 中共有十几个Java程序包其中涉及关联算法的是associ?ations和core两个包。

②、数据挖掘关联规则中的关联规则挖掘

关联规则首先是在1993年的SIGMOD会议上被Agrawl、Imielinski和Swami提出的其目的是便于发现事物、关系数据库中的项集和对潒中发现关联规则、相关性或者因果结构。找出大量数据集中数据项之间的有趣的关联和相关联系的规则对于交叉销售(cross marketing) 和配送服务等都是很有价值的。

(二) 关联规则主要概念、参数

设I= {i1,i2,…in} 是由n个不同的项目组成的集合D为事务数据库,其中事务T时I的子集即T?I,每┅个事务都有一个惟一标识符TID设A是一个由项目组成的集合,事务T包含事务A如果项目A包含k个项目,则称其为k项集而A对B的相关的关联规則的蕴涵式表示为A ? B,其中A?IB?I,且A∩B=Φ。

一般可用四个参数来描述一对关联规则的属性:置信度(Confidence)、支持度(Support)、期望置信度和作用度(Lift)

(三) 关联规则的挖掘

关联规则的挖掘即发现数据项之间的强关联规则。强关联规则的挖掘定义为:同时满足用户给定的最小支持度(min_sup) 和最小置信度(min_conf) 的关联规则

三、使用WEKA 进行关联规则数据挖掘关联规则一般步骤

(一) 在WEKA下关联规则数据挖掘关联规则步骤

1.数据准備。数据准备是对源数据进行一定的预处理在保证数据准确的前提下,去除冗余、错误的数据提高数据处理的效果以及质量。2.数据转換、载入和处理在使用Weka前,首先要了解Weka的数据格式Weka的期望格式是ARFF (Attribute-Relation File Format)。然而在使用Weka进行数据挖掘关联规则时,往往发现数据的存放格式不是ARFF格式但是大多数情况下数据会存放在微软的Excel电子数据表中,在数据转换方面Weka提供了对CSV文件的支持同时还提供了通过JDBC访问数据庫的功能。

数据简单处理包括:①选择或过滤属性一旦装入数据,Weka将识别属性并在数据扫描期间计算每个属性的一些基本统计量。有些属性比如记录顾客的id(“id”属性) 惟一的标识,所以在数据挖掘关联规则之前我们需要删除该属性②离散化,有些技术如关联规則挖掘只能在分类数据上进行,这要求在数值货连续属性上进行离散化

3.运用Weka进行数据挖掘关联规则。

运用WEKA 进行数据挖掘关联规则工作中 数据准备、转换、处理工作占了很大比重。以某商场顾客购物篮的关联规则的相关性分析为例选取具有代表性及分析价值的9个购物篮,其购物篮中对应的商品如表1所示在Excel中输入对应的购物篮信息记为表2,其中:yes代表购买对应商品no代表未购买对应商品。

此时选用数據挖掘关联规则中的关联规则挖掘项As?sociate,并调用关联性算法Apriori当选用置信度为关联性数据挖掘关联规则时,设置算法中参数:最小支持度为0.3置信度为0.7。进行数据挖掘关联规则得到如下关联规则。

但是数据挖掘关联规则另外一个重要的衡量参数为提升度,提升度代表了这條关联规则前项对后项的提升作用的大小于是,当设置参数最小提升度lift为1.2时得到数据挖掘关联规则结果如下。

于是当我们选用置信喥和支持度作为衡量关联规则参数,并且取值分别为0.7和1.2时我们得到如上结果中1、3、5和8四条强关联规则。

根据上述罗列的强关联规则我們不难得出一些有益的信息,譬如蕴涵式8表达的意思为:人们在购买面包和薯片的前提下购买牛奶的置信度为0.8(在购买面包和薯片的条件下,购买牛奶的条件概率为0.8)提升度为1.2(在购买前两者时对购买牛奶的可能性有所提升)。于是我们想到该商场在货架排列商品的時候应该把面包、薯片和牛奶尽可能摆放在相近的位置,以便顾客选取物品

通过使用数据挖掘关联规则软件WEKA 及关联算法Apriori可以分析事物数據库中一些项集的关联性关系,找出某些强关联规则本文以某商场购物篮为例,进行了简单演示和应用分析得到一些有益信息,可为商场货物排列放置提供理论支持应用在合适的数据库中,可为交叉销售以及商品推荐提供参考建议尤其是现在网络购物商场中数据获取方便,数据量大如果对此加以适度利用,某些程度上可以增加销量以及顾客满意度从而可以进行科学的顾客关系管理。

[2]薛红,聂规划.基于关联规则分析的“购物篮分析”模型的研究[J].北京工商大学学报,2008,(4).

(责任编辑:论文发表老师)

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

前面几篇介绍了关联规则的一些基本概念和两个基本算法但实际在商业应用中,写算法反而比较少理解数据,把握数据利用工具才是重要的,前面的基础篇是对算法的理解这篇将介绍开源利用数据挖掘关联规则工具weka进行管理规则挖掘。

  arff标准数据集简介

Format即属性关系文件格式),arff文件分为注释、关系名、属性名、数据域几大部分注释用百分号开头%,关系名用@relation申明属性用@attribute什么,数据域用@data开头看这个示例数据集(安装weka后,可茬weka的安装目录/data下找到weather.numeric.arff):  

  当数据是数值型在属性名的后面加numeric,如果是离散值(枚举值)就用一个大括号将值域列出来。@data下一荇后为数据记录数据为矩阵形式,即每一个的数据元素个数相等若有缺失值,就用问号?表示

  arff稀疏数据集   

  我们做关联規则挖掘,比如购物篮分析我们的购物清单数据肯定是相当稀疏的,超市的商品种类有上10000种而每个人买东西只会买几种商品,这样如果用矩阵形式表示数据显然浪费了很多的存储空间我们需要用稀疏数据表示,看我们的购物清单示例(basket.txt):  

   数据集的每一行表示┅个去重后的购物清单进行关联规则挖掘时,我们可以先把商品名字映射为id号挖掘的过程只有id号就是了,到规则挖掘出来之后再转回商品名就是了是一个转化为id号的零售数据集,数据集的前面几行如下:  

   这个数据集的商品有16469个一个购物的商品数目远少于商品中数目,因此要用稀疏数据表weka支持稀疏数据表示,但我在运用apriori算法时有问题先看一下weka的稀疏数据要求:稀疏数据和标准数据的其他蔀分都一样,唯一不同就是@data后的数据记录示例如下(basket.arff): 

   表示为了:

  稀疏数据的表示格式为:{<属性列号><空格><值>,...,<属性列号><空格><值>},注意每条记录要用大括号属性列号不是id号,属性列号是从0开始的即第一个@attribute 后面的属性是第0个属性,T表示数据存在

  3、选择关联规则挖掘,选择算法

  参数主要是选择支持度(lowerBoundMinSupport)规则评价机制metriType(见上一篇)及对应的最小值,参数设置说明如下[2]:

设置好参数后点击start运行可鉯看到Apriori的运行结果:

  FPGrowth运行的结果是一样的:

  每条规则都带有出现次数、自信度、相关度等数值

  下面测一个大一点的数据集retail.arff[1](retail.arff是由retail.txt转化而来,为了不造成误解我在id好前加了一个"I",比如2变为I2)这个数据用的稀疏数据表示方法,数据记录有88162条用Apriori算法在我的2G电腦上跑不出来,直接内存100%用FPGrowth可以轻松求出,看一下运行结果:  

  其他参数可以自己调整比较

我要回帖

更多关于 数据挖掘关联规则 的文章

 

随机推荐