好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的

项目集 :项的集合,记为 I 。牛奶,面包,苹果, etc 事 务 :事务 T 是 I 中的一组项目的集合,每个事务都有个一个 TID 作为标识符号。 项目集 X 的支持度 Sup(X)=Count(X)/|D| 关联规则 X-Y 的支持度 Sup(X-Y)=Count(X-Y)/|D| 关联规则 X-Y 的置信度 Conf

项目集 :项的集合,记为 I 。牛奶,面包,苹果, etc

事 务 :事务 T 是 I 中的一组项目的集合,每个事务都有个一个 TID 作为标识符号。

项目集 X 的支持度

Sup(X)=Count(X)/|D|

关联规则 X->Y 的支持度

Sup(X->Y)=Count(X->Y)/|D|

关联规则 X->Y 的置信度

Conf(X->Y)=Count( X->Y)/Count(X)

步骤:

1 找出所有频繁项集

2 有频繁项集产生强关联规则

算法之 Apriori 算法

核心思想

频繁 1- 项集 then 关联规则 then 剪枝
then 频繁 2- 项集 then 关联规则 then 剪枝
then 频繁 3- 项集 then 关联规则 then 剪枝
……

重复此过程直到做不下去为止

算法实现 以后单独写出

改进措施 FP(Frequent Pattern Growth) 频繁模式增长

多层关联规则

基本思想:

自顶向下,在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝,向下进入更具体的一层。

可选方案:

1 使用一致的最小支持度

2 使用递减的最小支持度

3 逐层独立

4 层交叉单项过滤

5 曾交叉 k- 项集过滤

多维关联规则

涉及两个或者多个维的关联规则

e.g . age(X, [IBM desktop computer])^occupation([drive]r)=>buys(X, ]laptop])

多维关联规则注意

强关联规则不一定是有趣的。比如,

buys(X, [computer games])=>buys(X, [videos]) [Support=40%, confidence= 66%]

推导出来的结果可能是满足支持度和置信度的,但是却不是有趣的。

因为可能实际上不购买 computer games 而去购买 video 的人有 75% ,而同时购买了 computer games 和 videos 的人只有 66% ,说明其实 computer games 和 videos 是负相关。

查看更多关于《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的的详细内容...

  阅读:29次