本文是关于条件熵的知识拓展。
一、问题:
假定数据库有𝑁个人,第𝑛个人的先验概率
二、解析
原来的条件熵公式为:
因为此题中X的取值只有两个即‘是’和‘否’,因此公式变为:
因此先计算对于第k个问题,X=‘是’的样本占总样本的概率P(X=是)和X=‘否’的样本占总样本的概率P(X=否)。
分子为对于第k个问题回答为‘是’的个数即:
分母为总数N,因此P(X=是):
同理,P(X=否):
然后在计算对于第k个问题,X=‘是’的数据集上Y的信息熵和X=‘否’的数据集上Y的信息熵,也就是:
因此要先计算对于第k个问题,X=‘是’的时候,对应每个人‘j’的概率
分子为对于第k个问题,X=‘是’的时候,‘j’这个人的个数:
分母为对于第k个问题所有X=‘是’的个数,也就是上述的P(X=是)的分子:
或者写为:
因此
同理X=‘否’的时候,对应每个人‘j’的概率
综上所述,可以得出条件熵的最终公式为:
