支持度表示项集{X,Y}在总项集里出现嘚概率公式为:
其中,I表示总事务集num()表示求事务集里特定项集出现的次数。
置信度表示在先决条件X发生的情况下由关联规则”X→Y“嶊出Y的概率。即在含有X的项集中含有Y的可能性,公式为:
提升度表示含有X的条件下同时含有Y的概率,与Y总体发生的概率之比
例1,已知有1000名顾客买年货分为甲乙两组,每组各500人其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡如表(1)所示:
设X= {买茶叶},Y={买咖啡}则规则”茶叶→咖啡“表示”即买了茶叶,又买了咖啡“于是,”茶叶→咖啡“的支持度为
由于提升度Lift(X→Y) =1表示X与Y相互獨立,即是否有X对于Y的出现无影响。也就是说是否购买咖啡,与有没有购买茶叶无关联即规则”茶叶→咖啡“不成立,或者说关联性很小几乎没有,虽然它的支持度和置信度都高达90%但它不是一条有效的关联规则。
满足最小支持度和最小置信度的规则叫做“强关聯规则”。然而强关联规则里,也分有效的强关联规则和无效的强关联规则