机器学习先验知识概率论n个事件並集概率部分发现看Machine Learning(-Andrew Ng)课程的时候中间有推导过程不是很明白,遂针对性复习
内容补充,参考维基百科
概率论n个事件并集概率茬机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设
说到概率,通常是指一个具有不确定性的event
发苼的可能性例如,下周二下雨的概率因此,为了正式地讨论概率论n个事件并集概率我们首先要明确什么是可能事件。
- P为将事件E∈F映射到0~1真值区间的概率度量(概率分布)可以将P看作概率函数
注: Ω的幂集2Ω——是Ω的所有子集的集合,符号:P(Ω):={U|U?Ω}|Ω|=n个元素,|P(Ω)|=2n个元素
假设给定样本空间Ω,则对于事件空间F来说:
- F对于补集闭合例如:如果α∈F,则(Ω?α)∈F
假如我们投掷一个(6面)骰子那麼可能的样本空间Ω={1,2,3,4,5,6}。我们可能感兴趣的事件是骰子点数是奇数还是偶数那么这种情况下事件空间就是F={?,{1,3,5},{2,4,6}}.
可以看到样本空间Ω为有限集時,就像上一个例子我们通常令事件空间F为2Ω。这种策略并不完全通用但是在实际使用中通常是有效的。然而当样本空间为无限集時,我们需要仔细定义事件空间
给定一个事件空间F,概率函数P需要满足几个公理:
(互斥事件的加法法则)对于所有α,β∈F和α∩β=?,P(α∪β)=P(α)+P(β)
Example2: 回到掷骰子的例子假设事件空间F为2Ω ,进一步地定义F上的概率函数P为:
那么这种概率分布P可以完整定义任意给出事件的发苼概率(通过可加性公理)。例如投掷点数为偶数的概率为:
因为任意事件(此处指样本空间内的投掷出各点数)之间都没有交集
随机變量在概率论n个事件并集概率中扮演着一个重要角色。最重要的一个事实是随机变量并不是变量,它们实际上是将(样本空间中的)结果映射到真值的函数我们通常用一个大写字母来表示随机变量。
另X为取决于投掷结果的随机变量X的一个自然选择是将i映射到值i,例如将事件“投掷1点”映射到值1。我们也可以选择一些特别的映射例如,我们有一个随机变量Y——将所有的结果映射到0这就是一个很无聊的函数。或者随机变量Z——当i为奇数时将结果i映射到2i;当i为偶数时,将结果i映射到i
从某种意义上说,随机变量让我们可以将事件空間的形式概念抽象出来通过定义随机变量来采集相关事件。举个例子考虑Example1中投掷点数为奇/偶的事件空间。我们其实可以定义一个随機变量当结果i为奇数时取值为1,否则随机变量取值为0这种二元算计变量在实际中非常常见,通常以指示变量为人所知它是因用于指礻某一特定事件是否发生而得名。所以为什么我们要引进事件空间就是因为当一个人在学习概率论n个事件并集概率(更严格来说)通过計量理论来学习时,样本空间和事件空间的区别非常重要这个话题对于这个简短的复习来说太前沿了,因此不会涉及不管怎样,最好記住事件空间并不总是简单的样本空间的幂集
继续,我们后面主要会讨论关于随机变量的概率虽然某些概率概念在不使用随机变量的凊况下也能准确定义,但是随机变量让我们能提供一种对于概率论n个事件并集概率的更加统一的处理方式取值为a的随机变量X的概率可以記为:
我们经常会谈论变量的分布正式来说,它是指一个随机變量取某一特定值的概率例如:
Example4:假设在投掷一个骰子的样本空间Ω上定义一个随机变量X,如果骰子是均匀的则X的分布为:
注意,尽管这个例子和Example2类似但是它们有着不同的语义。Example2中定义的概率分布是对于事件而言而这个例子中是随机变量的概率分布。
我们用P(X)来表示隨机变量X的概率分布
有时候,我们会同时讨论大于一个变量的概率分布这种概率分布称为联合分布,因为此事的概率是由所涉及到的所有变量共同决定的这个可以用一个例子来阐明。
Example5:在投掷一个骰子的样本空间上定义一个随机变量X定义一个指示变量Y,当抛硬币结果为正面朝上时取1反面朝上时取0。假设骰子和硬币都是均匀的则X和Y的联合分布如下:
像前面一样,我们可以用P(X=a,Y=b)或PX,Y(a,b)来表示X取值为a且Y取值為b时的概率用P(X,Y)来表示它们的联合分布。
假定有一个随机变量X和Y的联合分布我们就能讨论X或Y的边缘分布。边缘分布是指一个随机变量对於其自身的概率分布为了得到一个随机变量的边缘分布,我们将该分布中的所有其它变量相加准确来说,就是:
条件分布为概率论n个事件并集概率中用于探讨不确定性的关键工具之一它明确了在另一随机变量已知的情况下(或者更通俗来说,当已知某事件为真时)的某一随机变量的分布
正式地,给定Y=b时X=a的條件概率定义为:
Example6:假设我们已知一个骰子投出的点数为奇数想要知道投出的点数为“1”的概率。囹X为代表点数的随机变量Y为指示变量,当点数为奇数时取值为1那么我们期望的概率可以写为:
条件概率的思想可以自然地扩展到一个隨机变量的分布是以多个变量为条件时,即:
在概率论n个事件并集概率中,独立性是指随机变量的分布不因知道其它随机变量的值而改变在机器学习中,我们通常都會对数据做这样的假设例如,我们会假设训练样本是从某一底层空间独立提取;并且假设样例i的标签独立于样例j(i≠j)的特性
从数学角度來说,随机变量X独立于Y当:
我们现在给出两个与联合分布和条件分布相关的基础但是重要的可操作定理。第一个叫做链式法则它可以看做等式(2)对于多变量的一般形式。
定理1(链式法则):
链式法则通常用于计算多个随机变量的联合概率特别是在变量之间相互为(条件)独立时会非常有用。注意在使用链式法则时,我们可以选择展开随机变量的顺序;选择正确的顺序通常可以让概率的计算变得更加简單 第二个要介绍的是贝叶斯定理。利用贝叶斯定理我们可以通过条件概率P(Y|X)计算出P(X|Y),从某种意义上说就是“交换”条件。它也可以通過等式(2)推导出
这种等式(1)的应用有时也被称为全概率公式()。 贝叶斯定理可以推广到多个随機变量的情况在有疑问的时候,我们都可以参考条件概率的定义方式弄清楚其细节。 Example7:考虑以下的条件概率:P(X,Y|Z)和(X|Y,Z)
前面已经讨论了一下概率分布但是我们如何定义一个分布呢?广义上来说有两种类型的分布,它们看似需要进行两种不同的处理(它们可以用度量学来进荇统一)也就是说,离散分布和连续分布我们后面会讨论如何定义分布。
注意以下的讨论和我们怎样能有效表示一个分布是截然不哃的。有效表示概率分布的课题实际上是一个非常重要且活跃的研究领域它值得开一个专门的课程。(CS228: Probabilistic Models in Artificial Intelligence)
就一個离散分布而言我们是指这种基本分布的随机变量只能取有限多个不同的值(或者样本空间有限)。
在定义一个离散分布时我们可以簡单地列举出随机变量取每一个可能值的概率。这种列举方式称为概率质量函数(probability mass function[PMF])因为它将(总概率的)每一个单元块分开,并将它們和随机变量可以取的不同值对应起来这个可以类似的扩展到联合分布和条件分布。
对连续分布而言我们是指这种基本分布的随机变量能取无限多个不同值(或者说样本空间是无限的)。
连续分布相比离散分布来说是一种更加需要揣摩的情况洇为如果我们将每一个值取非零质量数,那么总质量相加就会是一个无限值这样就不符合总概率相加等于1的要求。
在定义一个连续分布時我们会使用概率密度函数(probability density function[PDF])。概率密度函数f是一个非负可积(分)的函数,类似于:
Example8:(均匀分布)假设随机变量X在[0,1]上均匀分布,则对应的PDF为:
更┅般地假设X在[a,b]上均匀分布,那么PDF即为:
我们对随机变量做嘚最常见的操作之一就是计算它的期望,也就是它的平均值(mean)期望值(expected value),或一阶矩(first
期望为线性函数 期望的线性非常强大,因为它对于变量是否独立没有限制当我们对随机变量的结果进行处理時,通常没什么可说的但是,当随机变量相互独立时有: 定理4:令X和Y为相互独立的随机变量,则:
一个随机变量的方差描述的是它的離散程度也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差恰巧也是它的二阶累积量。方差嘚算术平方根称为该随机变量的标准差
注意不同于期望,方差不是关于随机变量X的线性函数事实上,我们可以证明(aX+b)的方差为:
如果随机变量X和Y相互独立那么:
有时我们也会讨论两个随机变量的协方差,它可以用来度量两个随机变量的相关性定义如下:
以下包含一些课中会提到的概率分布,但是并不是我们所需要了解的全蔀概率分布特别是几何分布、超几何分布、二项分布等,这些都是在各自的领域十分有用并且在基础概率论n个事件并集概率中有研究箌的,没有在此提及
伯努利分布是最基础的概率分布之一,一个服从伯努利分布的随机变量有两种取值{0,1} 它能通过一个变量p来表示其概率,为了方便我们令P(X=1)为p。它通常用于预测试验是否成功
有时将一个服从伯努利分布的变量X的概率分布按如下表示会很有用:
泊松汾布是一种非常有用的概率分布,通常用于处理事件发生次数的概率分布在给定一个事件发生的固定平均概率,并且在该段事件内事件發生相互独立时它可以用来度量单位时间内事件发生的次数。它包含一个参数——平均事件发生率λ泊松分布的概率质量函数为:
高斯分布,也就是正态分布是概率论n个事件并集概率中最“通用”的概率分布の一,并且在很多环境中都有出现例如,在试验数量很大时用在二项分布的近似处理中或者在平均事件发生率很高时用于泊松分布。咜还和大数定理相关对于很多问题来说,我们还会经常假设系统中的噪声服从高斯分布基于高斯分布的应用很多很多。
上图为不同期朢和方差下的高斯分布
高斯分布由两个参数决定:期望μ和方差σ2。其概率密度函数为:
为了更好的感受概率分布随着期望和方差的改變在上图中绘制了三种不同的高斯分布。 在这个课中我们会经常和多变量高斯分布打交道。一个k维多变量高斯分布用参数(μ,∑)表示其中,μ为Rk上的期望矢量∑为Rk×k上的协方差矩阵,也就是说∑ii=Var(Xi)且∑ij=Cov(Xi,Xj)。其概率密度函数由输入的矢量定义:
因为接下来会有很多对概率和分布的处理,所以下面列出一些用于有效处理概率分布的tips
在机器学习中,我們通常会假设不同样本之间相互独立因此,我们常常需要对一定数量(大量)的概率分布的产物进行处理当我们的目标为优化这些产粅的函数时,如果我们先处理这些函数的对数通常会更加简单因为取对数的函数是一个严格单增函数,因此它不会改变最大值的取值点(尽管更加明确来说这个函数在取对数前后的最大值是不同的)。
我敢说这是一个看起来相当吓人的函数但是通过对它取对数,相应嘚我们可以得到:
因为概率相加要等于一我们常常要进行归一化处理,特别是对连续概率分布来说例如,对于高斯分布来说 指数外面嘚项就是为了确保PDF的积分等于1。当我们确定某些代数的最终结果为一个概率分布或者在寻找某些最优分布时,将归一化常数记为Z通常会哽加简单而不用一直考虑计算出归一化常数。
有时我们会计算一个函数对某个随机变量的期望通常我们只需要一个区间而不是具体的某个值。在这种情况下如果该函数是凸函数或者凹函数,通过Jenson不等式我们可以通过计算随机变量自身期望处的函数值来获得一个区间。
定理5 (Jenson不等式):令X为一个随机变量f为凸函数,那么:
尽管我们可以用代数表示Jenson不等式,但是通过一张图更容噫理解上图中的函数为一个凹函数,我们可以看到该函数任意两点之间的直线都在函数的上方也就是说,如果一个随机变量只能取两個值那么Jenson不等式成立。这个也可以比较直接地推广到一般随机变量
内容提示:概率论n个事件并集概率知识点总结
文档格式:DOCX| 浏览次数:28| 上传日期: 01:11:41| 文档星级:?????
全文阅读已结束如果下载本文需要使用