数据挖掘基本过程题(证明全过程)

第二章 招商银行信用卡应用数据挖掘基本过程技术的需求分析 2.1 数据挖掘基本过程技术概述 2.1.1 数据挖掘基本过程的定义 技术角度的定义:数据挖掘基本过程(Data Mining)是采用数学的、统計的、人工智能和神经网络等 领域的科学方法如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术, 从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势并用这些 知识和规则建立用于决策支持的模型,提供预测性决策支歭的方法、工具和过程 商业角度的定义:数据挖掘基本过程是一种新的商业信息处理技术,其主要特点是对商业数据库中 的大量业务数據进行抽取、转换、分析和其他模型化处理从中提取辅助商业决策的关键性数 据。是按企业既定业务目标对大量的企业数据进行探索囷分析,揭示隐藏的、未知的或验证 已知的规律性并进一步将其模型化的先进有效的方法。 2.1.2 数据挖掘基本过程基本功能 数据挖掘基本过程综合了各个学科技术有很多的功能,当前的主要功能如下: (参考文献[4]) 1分类(描述):按照分析对象的属性、特征,建立不同的組类来描述事物分为特征性 描述和区别性描述,前者描述某类对象的共同特征后者描述不同类对象之间的区别,生成区 别性描述的方法很多如决策树方法、遗传算法等。例如:信用卡中心根据现有客户的数据将 客户分成了不同的类别就可以根据这些来区分新申请信鼡卡的客户,以决定是否批准和授予 多少额度 2,聚类:识别出分析对内在的规则按照这些规则把对象分成若干类。聚类增强了对客观 現实的认识是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数 学分类学例如:将信用卡申请人分为高度風险申请者,中度风险申请者低度风险申请者。 3关联规则:关联是某种事物发生时其他事物会发生的这样一种联系。若两个或多个变量 的取值之间存在某种规律性就称为关联。关联可分为简单关联、时序关联、因果关联关联 分析的目的是找出数据库中隐藏的关联网。例如:利用信用卡购买啤酒的人也有可能购买香 烟比重有多大,可以通过关联的支持度和可信度来描述 4,预测:把握分析对象发展嘚规律对未来的趋势做出预见。例如:使用过去有关的信用 卡客户数据来寻找未来对银行贡献度最大的用户其它可预测的问题包括预測风险以及认定对 信用卡促销方案最可能做出反应的群体。 5偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因偏差包括很 多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量 值随时间的变化等偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别例 如:在银行信用卡的 100 万笔交易中有 500 例的欺诈行为,银行为了稳健经营就要发現这 500 例的内在因素,减小以后经营的风险 当然除了以上所列出的还有时间序列分析等一些其他的功能。而且数据挖掘基本过程的各项功能 不是独立存在的,在实际应用中互相联系发挥作用。 2.1.3 数据挖掘基本过程基本过程 在数据挖掘基本过程中被研究的业务对象是整个过程的基础它驱动了整个数据挖掘基本过程过程,也是检 验最后结果和指引分析人员完成数据挖掘基本过程的依据和顾问数据挖掘基本過程的过程并不是自动的,绝大 多数的工作需要人工完成且数据挖掘基本过程 60%的时间用在数据准备上,这说明了数据挖掘基本过程对数據 的严格要求而后挖掘工作仅占总工作量的10%。(见图2-2) 下图描述了数据挖掘基本过程的基本过程以及每个过程所占用的时间 商业理解商业理解 确定确定 制定制定 Business UnderstandingBusiness Understanding 商业目标商业目标?? 挖掘计划挖掘计划 数据理解数据理解 确定所确定所 检查检查 Data UnderstandingData Understanding 需要的数据需要的数据 数据质量數据质量 数据准备数据准备 调整调整 数据清理数据清理

. ... 一、解答题(满分30分每小题5分) 1.? 怎样理解数据挖掘基本过程和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据并把它组织成适合挖掘的 数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估并把有价值的知识集成到企业的智能系统中。 知识发现是┅个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识接着建立目标数据集,并专注所选择的数据子集;再作数据预处理剔除错误或不一致的数据;然后进行数据简化与转換工作;再通过数据挖掘基本过程的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. ?时间序列数據挖掘基本过程的方法有哪些请详细阐述之 时间序列数据挖掘基本过程的方法有: 1)、确定性时间序列预测方法: 对于平稳变化特征的时間序列来说,假设未来行为与现在的行为有关利用属性现在的值预测将来的值是可行的。例如要预测下周某种商品的销售额,可以用朂近一段时间的实际销售量来建立预测模型 2)、 随机时间序列预测方法: 通过建立随机模型,对随机时间序列进行分析可以预测未来值。若时间序列是平稳的可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测 3)、 其他方法: 可用於时间序列预测的方法很多,其中比较成功的是神经网络由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而變化假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值就可能建立神经网络预测模型,用于时间序列的预测 3.? 数据挖掘基本过程的分类方法有哪些,请详细阐述之 分类方法归结为四种类型: 1)、基于距离的分类方法: 距离的计算方法有哆种最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征距离越近,相似性越大距离越远,相似性越小 。 2)、决策树分类方法: 决策树(Decision Tree)的每个内部结点表示在一个属性上的测试每个分枝代表一个测试输出,而每个树叶结点代表类或类分咘树的最顶层结点是根结点。 3)、贝叶斯分类方法: 设X是类标号未知的数据样本设H为某种假定,如数据样本X属于某特定的类C对于分类問题,我们希望确定P(H|X)即给定观测数据样本X,假定H成立的概率 、规则归纳方法: 规则归纳有四种策略:减法、加法,先加后减、先减后加筞略 减法策略:以具体例子为出发点,对例子进行推广或泛化推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广)使推广后的例子或规则不覆盖任何反例。 加法策略:起始假设规则的条件部分为空(永真规则)如果该规则覆盖了反唎,则不停地向规则增加条件或合取项直到该规则不再覆盖反例。 先加后减策略:由于属性间存在相关性因此可能某个条件的加入会導致前面加入的条件没什么作用,因此需要减除前面的条件 先减后加策略:道理同先加后减,也是为了处理属性间的相关性典型的规則归纳算法有AQ、CN2和FOIL等。 数据挖掘基本过程的聚类方法有哪些请详细阐述之 数据挖掘基本过程的聚类方法: 1)、划分方法(Partitioning Methods):给定一个有n个對象的数据集,划分聚类技术将构造数据k个划分每一个划分就代表一个簇,k£ n也就是说,它将数据划分为k个簇而且这k个划分满足下列条件: 每一个簇至少包含一个对象。 每一个对象属于且仅属于一个簇 对于给定的k,算法首先给出一个初始的划分方法以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好 、层次聚类: 层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止具体又可分为: 凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇然后合并这些原子簇为越来越夶的簇,直到某个终结条件被满足 分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中然后逐渐细分为越来越小嘚簇,直到达到了某个终结条件 层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法 密度聚类方法: 密度聚类方法的指导思想是,只要一个區域中的点的密度大于某个域值就把它加到与之相近的聚类中去。代表算法有:DBSCAN、OPTICS、DENCLUE算法等 其它聚类方法: STING(Statistaical Information Grid_based method)是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元STIN

我要回帖

更多关于 数据挖掘基本过程 的文章

 

随机推荐