将样本分成三个类c1,c2 ,c3 则s1=2452s2=653s3=273
总计s=3378 按照基于信息熵的ID3算法公式,同时将“相同类型总计”考虑进去,可以得出:
I(s1,s2,s3)=I(2452,653,273)=0.3355+0.4583+0.2933=1.087下一步,按公式计算每个属性的熵。先计算“地区状态”,对于“市区”:s11=2452s21=275s31=0
I(s11,s21,s31)=0.1379+0.3378=0.4757
对于“城乡结合处”:s12=0 s22=378 s32=273
I(s12,s22,s32)=0.4554+0.5258=0.9812
如果样本按“市区-城乡结合处”划分,那么期望信息为:
E(“地区状态”)=2727/3378I(s11,s21,s31)+651/3378I(s12,s22,s32)=0.5731
因此按这种划分的信息增益是:
Gain(“地区状态”)=I (s1,s2,s3)- E(“地区状态”)=1.0871-0.5731=0.51399
同理可以得出以下几个字段的信息增益:
Gain“案发地点”=0.2001,Gain“居住人口性质”=0.1761,
Gain“案发时间(白天晚上)”=0.3431
这样,Gain“地区状态”最大,说明该属性对于数据分解为子类所起的作用最大,于是建立第一节点“地区状态”,并将样本分成两部分。然后对每一棵子树按照以上方法递归计算,最后得出的决策树如图2.1所示。
图2.1 决策树
在图2.1中从根到树叶每条路径创建一个规则,可以很清楚地看出在市区,白天,停车场地区容易涉机动车辆盗窃案,在3378件已侦破机动车辆盗窃案中,移动报警设备在2269起案件发挥了决定性的作用等分类知识。
又如在已破获的机动车辆盗窃案发生在城市地区,白天、居民小区内, 移动报警设备在151起案件的侦破中起到了一定的作用;而在已侦破的发生在城乡结合部、流动人口密集的地区273件案件中,移动报警设备基本上都没发挥什么作用。这些知识对于警务决策是相当有帮助的。比如在白天对停车场地区的车辆加强管理,提高防范力度,比如在此多安置报警设备以及部署更多的警力等。
【想第一时间了解安防行业的重磅新闻吗?请立即关注中安网官方微信(微信号:cpscomcn)——安防行业第一人气微信,万千精彩,千万不要错过!!!
网友评论
共有0条评论 点击查看全部>>24小时阅读排行
本周阅读排行