51CTO技术论坛 » 微软SQL Server专区 » 微软商务智能 » 数据挖掘技术和算法        上一帖     下一帖    查看完整版本

页: [1]

bipub2008-1-21 05:40
数据挖掘技术和算法

技术:概念方法

算法:一步一步具体实现的细节

不同的目标要调用不同的技术

 数据挖掘根据其目标分为说明性(Prescriptive)和描述性 (Descriptive)数据挖掘两种

 不同的Data Type调用不同技术

三种数据挖掘技术

 自动聚集检测;决策树;神经网络

原因: 大量的商业软件应用

覆盖了数据挖掘一个较广的范围

 直接数据挖掘目标是预言,估值,分类,预定义目标变量的特征行为

神经元网络;决策树

 间接数据挖掘:没有目标变量被预言,目的是发现整个数据集的结构

聚集检测

自动聚集检测

 方法

K-均值是讲整个数据集分为K个聚集的算法。

 K-均值聚集检测如何工作

随机选取K个记录,作为种子节点;

对剩余的记录集合,计算每个记录与K个种子节点的距离,将每个记录归到最近的那个种子节点,这样整个记录集初次划分为K个聚集;

对每个聚集,计算聚集的质心(聚集中心点);

以每个质心为种子节点,重复上述步骤,直至聚集不再改变。

 Consequences of Choosing Clustering

选择距离函数

选择合适的聚集数

 对聚集的解释

构造决策树

可视化看聚集如何受输入变量的影响

单变量测试

 什么时候使用聚集检测

决策树

 决策树分类

决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。

一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等),来限制决策树的overfitting。

 决策树如何工作

决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。

首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。

 决策树如何构建

通过递归分割的过程构建决策树。

寻找初始分裂

整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。

决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。

树增长到一棵完整的树

重复第一步,直至每个叶节点内的记录都属于同一类。

数据的修剪

 选择决策树的结果

处理输入变量

树和规则


选择最好的属性的能力

 什么时候使用决策树

神经网络

神经元模型

生物模型

人工神经元

神经网模型

网的拓扑结构:层次(前馈,反馈);全连通

学习方法:有教员的(出入均知道);无教员的(输出不知道)

运行机制:同步;异步

神经网络的基本特点

大量简单节点的复杂连接;高度并行处理;分布式存储,信息存在整个网中,用权值体现出来,有联想能力,可以从一个不完整的信息恢复出完整信息;自组织、自学习。

六种常用于模式识别的神经网络分类器

Hopfield Net

Harmming Net

Carpenter/Grossberg 分类器

单层感知网

多层感知网

Kohonen的自组织特性图

嘛弥嘛弥弘2008-1-21 06:15
学习了~!继续关注!

fisker20082008-1-22 01:28
立体式存储和关系型存储将决定算法的实用和高效性是否符合工作环境标准!

快速的分析当前应用环境而做到对应的数据挖掘算法和技术将是数据挖掘技术的生命线!

41432008-3-1 02:59
我近来学习一下

zhfaggfas2008-3-25 01:11
概念不懂  这个对现在的我来说 太深奥了

ganjingun2008-4-16 06:58
很实用的帖子,学习了

关键词: osi       

相关文章:
DOS6.22帮助手册
实时数据库领域中有关数据压缩的认识误区
么是超频,怎么给CPU超频?
如何制作ghost引导光盘
二,三,四层交换机的区别

查看完整版本: 数据挖掘技术和算法


Powered by 51CTO.COM