51CTO技术论坛 » 微软SQL Server专区 » 微软商务智能 » 对初学数据挖掘的ddmm们一点建议        上一帖     下一帖    查看完整版本

页: [1]

热死拉2007-10-26 15:13
对初学数据挖掘的ddmm们一点建议

数据挖掘包含的内容很多,刚开始的确有点摸不着头脑,很多人都建议读韩家炜的那本数据挖掘教材,我想这本书得到这么多赞扬,一方面是因为韩教授在这个领域的卓越贡献,另一方面是因为他的教材需要的数学基础比较少,对那些数学功底不好的同学来说这个太重要了。
不过坦率地说,我并不觉得韩教授的的书是个好的入门教材,一方面涉及了太多没有什么普遍的实际价值的内容(比如数据挖掘语言),容易误导初学者让他们以为这个很重要,另一方面,对于最重要的算法部分又讲得相当简略,对算法背后的原理几乎根本没有涉及。也许因为韩教授的实际研究更注重效率问题吧,所以它考虑的是如何提高算法的效率,教材谈得更多的也是一些高效的算法实例,但不论是作为一个学习者还是研究者,在考虑效率问题之前首先要知道每种方法的基本思想和理论实质,就好比我们要统计数据时首先要明白到底什么是均值什么是中位数,它们有什么差别,各自应用在什么背景下比较好,然后才考虑用什么方法计算均值和中位数最好,考虑用不同的算法计算结果会不会有差别(显然,高效的算法有时候是以准确性为代价的)。韩教授的书则不同,他对最基本也是最本质的东西讨论得太少了。
我建议初学的ddmm们还是看看Tom Mitchell的machine learning比较好(见 [url]http://www.china-pub.com/computers/common/info.asp?id=8185[/url]),这本教材需要的数学基础也很少,但对必要的背景介绍相当丰富,韩教授的书对数据挖掘的后续学习帮助很小,但这本书对你的后续学习可以起到很大帮助。唯一缺憾的是它基本上只讨论分类和回归的问题,对聚类、关联规则等等完全没有涉及,但这个不是大问题,毕竟聚类可以看作分类的扩展,关联规则相对来说是比较容易入门的一个学科。另外,Tom Mitchell也是这个领域的重量级选手。

ornll2007-10-26 15:14
米其二的那本机器学习书不错的,我们学的时候,老师说这是能找到了机器学习领域最简单的一本书了,比较适合初学者。还有那本书是没有讲关联,因为关联规则本来就不在传统的机器学习领域。还有说聚类是分类的扩展,这种说法我是第一次听到,个人认为,相当不妥当,这两种数据分析方法从根本思想上来讲就完全不一致。。。还有韩加委的书其实是相当好,只是不适宜初学者而已。不要因为它里面没讲入门知识就说他没有关注“最基本最本质”的东西,这样说,其实是没有理解数据挖掘。数据挖掘技术作为一门独立的学科出现,其本来目的就是针对海量数据,就是针对传统的数据分析方法的可扩展性不强的问题,这才是数据挖掘的本质,这也是数据挖掘和人工智能,统计分析的区别所在。

世界代码2007-10-26 15:15
其实,<<数据挖掘:基于机器学习的方法>>这本书也不错,适合对机器学习不很了解的人.

抗梯子的帅哥2007-10-26 15:16
楼上的是说新西兰怀卡托大学开发weka人编的那本书吧?很不错的,又可以结合weka。不过不光适用初学者,呵呵,因为大家都是初学者。。。

热死拉2007-10-26 15:18
[quote]原帖由 [i]ornll[/i] 于 2007-10-26 23:14 发表
米其二的那本机器学习书不错的,我们学的时候,老师说这是能找到了机器学习领域最简单的一本书了,比较适合初学者。还有那本书是没有讲关联,因为关联规则本来就不在传统的机器学习领域。还有说聚类是分类的扩展, ... [/quote]
我们知道,很多分类方法经过修改都可以用来解决聚类问题,这是因为把分类问题中的样本的类别标签去掉,分类就变成聚类问题了。-当然,如果要严格地讨论这个问题,我的说法可能有些轻率,不过从初学者的角度,先学分类,在学习由分类方法扩展得到的聚类算法是没有问题的。 至于韩教授的那本书,存在的问题并不仅仅是缺乏对入门知识的探讨,更重要的问题是对算法背后的原理缺乏深入的分析。实际上那本书就是几个算法的汇编。别人用五六百页来讨论的问题,在那本书里只有三四十页,很难想象他的论述能有什么发人深省的地方。如果是工程人员急着赶项目,可以参考一下这本书,如果不是,还是考虑别的更好的资料吧 数据挖掘是数据库领域对机器学习技术的称呼,在别的领域,这个技术还可以被称作知识发现或者模式识别,当这个技术被称作数据挖掘的时候,对效率问题的关注更加迫切,不过这并不能改变这个技术的本质。最重要的是,如果你真的想在数据挖掘这个领域有所作为的话,你做先好多花些时间在机器学习领域的文献上,否则你对数据挖掘技术的理解就会像无本之木,很难深入下去

热死拉2007-10-26 15:20
实际上如果把回归和分类问题叫做supervised learning,聚类问题叫做unsupervised learning,然后说unsupervised learning是supervised learning的一种扩展,我想大多数人都还是可以接受的吧。 至于效率问题,只是个相对概念,实际上数据挖掘和机器学习、知识发现、模式识别的差别是很难界定的。

关键词: mac       C       

相关文章:
怎么查在那个考点啊
大哥大姐门帮帮忙了
网络工程师关键考点梳理和8套模拟题,绝对好东西,从希赛买的,跟大家分享!
应该学习CISCO还是HW
金算盘追求真相 进入司法维权阶段

查看完整版本: 对初学数据挖掘的ddmm们一点建议


Powered by 51CTO.COM