条件概率
条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者。
边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
需要注意的是,在这些定义中A与B之间不一定有因果或者时间顺序关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。
例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。
定义
在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出
P(A|B) = |A∩B|/|B|
分子、分母都除以|Ω|得到
-
- \(P(A|B) = \frac{P(A \cap B)}{P(B)}\)
有时候也称为:后验概率
统计独立性
当且仅当两个随机事件A与B满足
- \(P(A \cap B) \ = \ P(A) P(B)\)。
的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。
同样,对于两个独立事件A与B有
- \(P(A|B) \ = \ P(A)\)
以及
- \(P(B|A) \ = \ P(B)\)。
换句话说,如果A与B是相互独立的,那么A在B这个前提下的条件概率就是A自身的概率;同样,B在A的前提下的条件概率就是B自身的概率。
互斥性
当且仅当A与B满足
- \(P(A \cap B) = 0\)
且
- \(P(A) \ne 0\),\(P(B) \ne 0\)
的时候,A与B是互斥的。
因此,
- \(P(A\mid B) = 0\)
- \(P(B\mid A) = 0\)。
换句话说,如果B已经发生,由于A不能B在同一场合下发生,那么A发生的概率为零;同样,如果A已经发生,那么B发生的概率为零。
其它
- 如果事件B的概率\(P(B) > 0\),那么\(Q(A) = P(A|B)\)在所有事件A上所定义的函数Q就是概率测度。
- 如果\(P(B)=0\),\(P(A|B)\)没有定义。
- 条件概率可以用决策树进行计算。
(原来我的那种方法叫决策树啊……)
形式定义
考虑概率空间Ω(S, σ(S)),其中σ(S)是集S上的σ代数,Ω上对应于随机变量X的概率测度(可以理解为概率分布)为PX;又A∈σ(S),PX(A)≥0(这里可以理解为事件A,A不是零测集)。则∀E∈σ(S),可以定义集函数PX|A如下:
PX|A(E)=PX(A∩E)/PX(E)。
易知PX|A也是Ω上的概率测度,此测度称为X在A下的条件测度(条件概率分布)。
独立性:设A,B∈σ(S),称A,B在概率测度P下为相互独立的,若P(A∩E)=P(A)P(E)。
贝叶斯定理
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。
- \(P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}\)
其中P(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
按这些术语,Bayes定理可表述为:
- 后验概率 = (相似度*先验概率)/标准化常量
也就是说,后验概率与先验概率和相似度的乘积成正比。
另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:
- 后验概率 = 标准相似度*先验概率
遗传问题的计算
Example1:
已知甲病为由隐性基因a控制的遗传病,一父本的基因为aa,母本表现型正常,基因型有1/3的可能性是AA,有2/3的可能性是Aa,问子代一对异卵双胞胎同时患甲病的概率是多少?
Ans:
\(\frac{1}{6}\)
\(P(C1)=P(Aa)*\frac{1}{2}=\frac{1}{3}\)
\(P(C2|C1)= \frac{1}{2} \)(此时母本必为Aa)
\(P(C2|C1)= \frac{ P(C1\bigcap C2)}{P(C1)}\)
\( P(C1\bigcap C2)=P(C2|C1) \cdot P(C1) =\frac{1}{6}\)
P(C1)和P(C2)分别为两个孩子患病的概率。P(Aa)为母本为Aa的概率。
Example2:
Aa控制的遗传病为常染色体隐形遗传病。男子的基因型有两种可能1/3AA,2/3Aa。与基因型为Aa的正常女子结婚。生了一个正常的儿子。求这个儿子是Aa的概率。
Ans:
\(\frac{3}{5}\)
\(P(C|A\_)=\frac{P(C \bigcap A\_)}{P(A\_)}=\frac{P(AA) \cdot \frac{1}{2}+ P(Aa) \cdot \frac{1}{2}}{P(A\_)}=\frac{\frac{1}{3} \cdot \frac{1}{2}+\frac{2}{3} \cdot \frac{1}{2}}{\frac{5}{6}}=\frac{3}{5}\)
P(A_)为孩子正常的概率。P(C)为孩子为Aa的概率。P(AA)和P(Aa)是男子基因型的概率。