春满大地,富贵花开。微雨众卉新,一雷惊蛰始。敬请关注微信公众号:AiryData。

数据挖掘的方法(一)

数据挖掘 Airy 2393℃ 0评论

回归分析:

回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

本文使用数据挖掘中的回归分析方法深入分析质量成本数据库中的成本数据,建立质量成本分析控制模型,从而确定企业的质量成本水平,分析现阶段合理的质量成本目标和改进方向,以便制定相应的质量成本控制体系和质量改进措施。文中回归分析的数据对象是质量成本数据库中的所有数据,即质量成本静态数据和动态数据。

关联分析

关联分析的目的是找出质量成本数据库中隐藏的关联网,从经济的角度发现工序活动和质量故障信息之间的关系,从而找出质量改进的关键因素或对关键因素影响较大的特殊因素,支持质量改进方案决策。关联分析的数据对象来自于质量成本动态数据。文中的数据分析对象主要指质量成本数据中蕴含的产品信息、工序信息、质量故障信息和人员信息等。其中,内部损失成本信息涉及产品信息、工序信息、质量故障信息、人员信息四个维度;外部损失成本涉及产品信息、质量故障信息、客户信息三个维度。因此,把质量成本的关联分析进一步分成产品内部损失成本关联分析、产品外部损失成本关联分析、产品损失成本联合关联分析三部分。

根据挖掘到的关联规则中涉及的数据维,可以将其分为单维关联规则和多维关联规则。对于使用关联规则中的每个项或属性只涉及一个维的方法是单维关联规则,对于使用多个维度进行关联的分析方法是多维关联规则。在关联分析模型中的维数可以任意指定,但指定的维数愈多,其执行速度愈慢,而且置信度也愈小。根据挖掘经验及结果,在面向质量成本数据的关联规则挖掘过程中,当维数大于四维时,置信度已经变得非常小,所得关联模式所具有的实际意义也会严重弱化。因此,可以在实际的关联规则挖掘过程中,适当限定关联规则的维度,避免时间和资源的浪费。

关联规则挖掘算法:

运用Apriori算法得到各项质量成本的关联规则,分为两个阶段:①迭代识别所有频繁项集,要求频繁项集中项的支持度不低于用户设定的最小支持度;②从频繁项集中构造置信度不低于系统设定的最新置信度的规则。即首先产生1一频繁项集L。然后产生2一频繁项集L。,直到不能再扩展项集的元素数目时算法停止。在第志次循环中,先产生愚一候选项集的集合G,再通过扫描数据库生成支持度并测试产生忌一频繁项集k,然后对每一个频繁项集生成相应的关联规则。

K 均值算法

K 均值算法的聚类数据挖掘可视化系统模型,实现中间聚簇结果、聚类中心、收敛准则函数值三类要素的可视化。

K 均值算法数据挖掘可视化的具体流程如图2所示。流程中对各关键因子的处理如下:(1)算法初始值设置。借助平行坐标法,将待处理数据集转化成可视化图形,通过对视图的分析,工作人员可对数据集的内部结构有一个初步的理解。之后借助交互对话框,对聚类个数K 及初始聚类中心进行设置,从而在一定程度上减小初始值设置的随意性。(2) 借助平行坐标法,将K 均值算法每轮运算所得到的中间聚簇以可视化的形式进行实时显示,同时弹出询问窗口,工作人员对当前聚类结果进行分析后作出选择。(3)将K 均值算法每轮运算得到的聚类中心进行实时可视化显示。聚类中心的可视化,采用图形叠加方案,即后续绘制的图形不覆盖已有视图。算法的运行过程中,聚类中心的可视化动态地反映聚类中心的变化。此外,聚类中心作为各聚簇的均值,通过观察聚类中心的变化,同样可对运算过程中各聚簇的分布动态有一个直观了解。(4) 对于收敛准则函数值,其可视化放在算法运行结束之后。K 均值算法运行过程中,将每轮运算得到的收敛准则函数值保存在预定义的数组中。算法运算完毕,将数组中的数据取出,并将其转化为一幅可视化图形。通过该图形,工作人员可快速获知此次运算中算法的收敛速度、迭代次数、算法的收敛节点等信息。

 

平行坐标法

平行坐标法在聚类数据挖掘可视化中的应用可分为2 个层次。一是直观的聚类分析。这一层次平行坐标法的应用,原理简单,应用范围有限,主要集中在数据的可视化、数据挖掘结果的可视化,不涉及与具体算法的结合。具有代表性的平行坐标可视化工具有Parvis 平行坐标工具和Xmdvtool可视化工具 。二是面向过程的数据挖掘可视化。平行坐标法在这一层次的应用已超越了简单的数据分析,转而面向过程,重点在于平行坐标法与具体数据挖掘算法的融合,旨在实现数据挖掘过程的可视化。目前,这一层次的研究取得了一定成果,诸如King Vis,VDM等可视化数据挖掘工具及系统。从King Vis 可视化数据挖掘系统、VDM 可视化数据挖掘工具的实现效果来看,界面仅将数据挖掘过程中产生的中间聚簇以可视化图形的方式反馈给用户,而忽略了算法中其他关键因子的实时反馈。一方面,会导致关键信息的遗漏;另一方面,可视化效果不明显,形式过于单一。另外,面对不同的数据集、不同的使用者,挖掘算法与可视化技术的选择多种多样,导致挖掘算法与可视化技术的结合呈现多样化。

可视化增强的通用数据挖掘方法

组合方式:黑盒方式、白盒方式。

基于黑盒方式的可视化增强方法:

可视化设计者仅根据数据挖掘算法所面向的任务进行设计,并不考虑具体算法的内部机制,即把算法本身当作“黑盒”。该类方法的分析对象:(1)面向输入数据的可视化方法(2)面向算法结果的可视化方法(3)迭代式可视化方法

基于白盒方式的可视化增强方法:

着手对算法过程本身进行展示,使用户能够更好地理解计算结果与输入数据、参数之间的关系。

向应用场景的方法:

文本分析、图像分析、用户行为分析、时空数据分析。

取样方法

取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.通过对应用于数据挖掘领域的代表性取样方法的比较研究和分析总结,提出了一个取样算法分类框架.在指出了均匀取样局限性的基础上阐述了某些应用场景中选用偏倚取样方法的必要性。综述了取样技术在数据挖掘领域的应用研究与应用发展,最后对数据流挖掘取样方法面临的挑战和发展方向进行了展望。

数据挖掘取样方法:

在数据管理领域,取样通过抽取能捕捉数据基本特征的小部分数据子集来代表总数据集,并根据该样本集获得近似查询结果,或基于该样本集进行数据挖掘等工作。

取样方法的分类:

根据各数据项被选中的概率是否相同,取样方法可以分成均匀取样偏倚取样两种。顾名思义,在均匀取样中各数据项以相同的概率被选中,而在偏倚取样中,不同元素的入选概率可能不同。

均匀取样方法有两种经典的取样设计:伯努利取样(Bernoulli sampling)和水库取样(reservoir sampling),它们是所有其他取样方法的基础。

在Bernoulli取样设计过程中,用概率q∈(0,1]包含每个到达的数据元素,用概率1-q独立排除其他的数据元素。在这类Bernoulli设计中的相关取样概率为p(S;D)=q|S|(1-q)|D||S|,可见伯努利取样是均匀的,其主要优点是取样过程简单和时间成本低。

水库取样单遍扫描数据集,生成均匀取样集。令样本集大小为K,当第n个元素到达时(n>K),数据流中的元素都以K/n的概率被选取.如果样本集大小超出K,则从中随机去除一个样本,各元素的入选概率相同.Vitter推荐了一个技巧来提高算法效率.在原算法中,对于流中的每个元素都需要“扔骰子”,判断该元素是否以K/n概率被选中,改进的算法转而判断一次可略过多少个后续元素,减少了扔骰子次数,降低了时间复杂度。水库取样是重要的随机均匀取样方法,使传统的取样技术拓展到了数据库领域,其时间复杂度仅为O(n(1+log(N/n))),空间大小固定,尤其适合于数据流挖掘环境。

确保取样质量通常被认为是取样技术成功的关键(Levy).从提高取样质量的角度,传统的取样策略一般可分为3类:第1类是Progressive Sampling(渐进取样),办法是从一个小的取样开始,逐渐加大取样尺寸或取样率直到模型的正确性不再随之改善为止;第2类的取样策略是先从一个实验样本集(通常尺寸较小)中获取数据集的预评估或特征假定,然后在此基础上进行取样.采用这种策略的取样算法包括Stratified Sampling(分层取样心),Cluster Sampling,Two—Phase Samplin和Adaptive Sampling;第3类策略是为具体的应用抽取特定的数据特征,而不是产生一个能用于多种应用的取样集,这类应用包括频繁项e一误差概要(Mankuu)、近似查询(GibbonS)和查询尺寸评估(Haas)。

图1是数据挖掘领域中代表性取样方法的分类图。

偏倚取样与均匀取样:

当数据分布是严重偏斜时,密度偏倚取样作为聚类方法的预处理或一种数据约减技术,能加速多维大数据集中聚类和离群检测等挖掘任务的执行并解决取样过程中的偏斜、噪声和高维问题。同样在流查询中如果数据的选择性(selectivity)很低时,基于均匀取样的近似查询处理结果会出现较大偏差。在流数据挖掘中,zipfⅢ,分布(高偏斜数据分布)反映了现实中存在的大量自然现象,如存在于对不同Web域进行存取的引用分布中。

集中式和分布式的数据挖掘系统:

单一数据库/ 数据仓库的数据挖掘系统是当前发展得较为成熟的数据挖掘应用系统,许多商业性的数据挖掘应用软件都是基于这种结构. 通过对当前主要的数据挖掘系统进行分析可以发现,这种集中式的结构如图1,但各个不同产品对各个不同功能模块的具体实现技术又不尽相同。

分布式的数据挖掘系统:

分布式数据挖掘包括以下几个步骤:1)剖分待挖掘数据成P个子集,P 为可用的处理器个数,并把每个数据子集发送到各个处理器;2)每个处理器运行数据挖掘算法于其局部数据子集,处理器可以运行不同的数据挖掘算法;3)组合各个数据挖掘算法发现的局部知识成全局、一致的发现知识. 在分布式数据挖掘中有4 种关键技术:数据集中、并行数据挖掘、知识吸收和分布式软件引擎。

分布式数据挖掘的研究主要包括分布式数据挖掘算法和分布式数据挖掘体系结构的研究2 个方面。

与集中式数据挖掘系统不同,当前分布式数据挖掘系统还主要处在研究阶段,还没有出现成熟的商业产品. 分布式数据挖掘当前的研究热点主要集中在对超大规模数据集的处理以及提高分布式挖掘系统的整体性能. Grossman 等人提出了一种称为PDS(photonic data services)的集成框架,在该框架中首次集成了支持远程数据分析和分布式数据挖掘的数据服务,设计用于在高性能网络上进行高效数据传输的网络协议以及设计用于光纤网络的链路服务,该框架可用于进行Gigabyte 大数据量的分布式数据挖掘。

数据挖掘中的数据分类算法:

分类是数据挖掘中应用领域极其广泛的重要技术之一,至今已经提出很多算法。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。构造分类器的过程一般分为训练和测试两个步骤。在训练阶段,分析训练数据集的特点,为每个类别产生一个对相应数据集的准确描述或模型。在测试阶段,利用类别的描述或模型对测试进行分类,测试其分类准确度。一般来说,测试阶段的代价远远低于训练阶段。

决策树分类算法:

C4.5是较早提出的使用最普遍的决策树分类算法之一,为了适应大规模数据集的处理,数据挖掘研究兴起之后对它又进行了改进,其中SLIQ(supervised learning in quest)和SPRINT(scalable parallelizable induction of decision trees)是比较有代表性的两个算法。

Bayes分类算法:

Bayes分类算法是一类利用概率统计知识进行分类的算法,如NB(Naïve Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的独立性假设前提,而此假设在实际情况中经常是不成立的&因而其分类准确性就会下降。为此就出现了许多降低独立性假设的Bayes分类算法,如TAN(tree augmented Bayes network)算法。

 

以上就是数据挖掘方法的第一部分,如有不全之处,敬请提出改进。谢谢。

转载请注明:数据之美 » 数据挖掘的方法(一)

喜欢 (8)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址