纳士达 都百特 鑫工艺

热加工行业论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始


查看: 1255|回复: 0

[分享] 浅析决策树在六西格玛项目中的应用

[复制链接]

该用户从未签到

发表于 2011-7-19 06:37:55 | 显示全部楼层 |阅读模式

马上注册,结交更多热工坛友,更多精彩内容等着您!

您需要 登录 才可以下载或查看,没有帐号?免费注册

x
在日常工作和项目中发现决策树有着很强的实用性,却不常见于工具列表中,所以撰写此文做个简单介绍。纰漏之处,万望指教。

什么是决策树?它与经典统计学方法有哪些联系和区别?

决策树是一个分类模型。

先讲一个生活中浅显常见的例子,某家银行在收到信用卡申请时会衡量四个因素:申请人的月收入、信用卡一年内申请数、有无恶意透支和三年内迟还款记录。当申请者的月收入超过两万,银行会进一步考虑信用卡最近一年内是否申请超过3张,如果是的话则拒绝办理,否的话接受办理,如果月收入低于两万,那银行会依次考虑有无背负循环利息,三年内迟还款记录。。。类似如下树形结构:
申请人月收入[大于2万]
------信用卡一年内申请数[小于等于3张]:接受申请
------信用卡一年内申请数[大于3张]:拒绝申请
申请人月收入[小于等于2万]
------三年内还款逾期次数[大于2]
------------背负循环利息[是]:拒绝申请
------------背负循环利息[否]:接受申请
------三年内还款逾期次数[小于2]:接受申请

统计学中相近的是Logisitic回归:它的因变量为分类变量,自变量既可以是连续的,也可以是分类的。此外,决策树的构造理论基础和热力学里面的熵概念非常接近。简言之,数据分类结果越是平均,其类别所包含的信息增益越是少。

决策树如何帮助你完成六西格玛项目?

在六西格玛的分析改进阶段中,如何识别并且模型化过程输入和输出的关系是关键。

我们经常使用经典的实验设计来完成这个目标,经典实验设计所用的正交表有两大特性,即“均匀分散性,整齐可比”。这样造成一个局限:无法实现考虑A因素出于某个水平时候,B因素显著,而A处于另外一个水平时候,C和D因素显著。在产品设计和过程控制中,这种分类讨论的问题是很常见的。

此外,在很多时候我们可能已经拥有大量观察数据,比如银行信用卡申请人的属性和信用记录,也需要考虑如何选取重要的因素构造一个合理的决策树来进行分类预测并且控制好这些因素。


哪些免费的软件可以从大量数据中生成决策树?

这里提供了两个非常有名且免费的决策树构造工具:

R-Project: R是属于GNU系统的一个自由、免费、开放源代码的软件,是一个用于统计计算、数据分析和统计制图的优秀工具,其中有分类回归树CART的包,因变量甚至也可以是连续变量。
Weka: WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),其作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,其中包含了决策树几种不同的算法实现.
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

QQ|手机版|Archiver|热加工行业论坛 ( 苏ICP备18061189号-1|豫公网安备 41142602000010号 )
版权所有:南京热之梦信息技术有限公司

GMT+8, 2025-2-24 01:07 , Processed in 0.181865 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表