泊松分布用于什么情况特征是什么?

概率分布介绍1:泊松分布泊松分布 (Poisson Distribution)定义假设在一定时间间隔 (interval)中一个事件可能会发生0,1,2,...次,在一个间隔中平均发生事件的次数由\lambda决定,\lambda是事件发生比率 (event rate)。在一定时间间隔中发生k次事件的概率如下:P(k \text { events in interval })=e^{-\lambda} \frac{\lambda^{k}}{k !}代码使用from scipy import stats; stats.poisson.pmf(x,mu)为什么泊松不得不发明泊松分布?当时主要的问题是预测未来中发生事件的次数,更正式地说,预测在固定间隔的时间里,预测该事件发生n次的概率。“事件”可理解为一天中访问你网站的访客数、一天中所接到的电话数。为什么非得是泊松分布的形式呢?例如:每周平均有15个人给我的博客点赞,我想预测下一周的点赞数。假设现在并不知道泊松分布,如何解决?可以试试二项分布 ([[Binomial Distribution]])二项分布如果使用二项分布来解决,令x表示在n次重复实验中发生点赞的次数,p表示每次实验的点赞概率(Probability)。我们现在已知的是每周平均的点赞比率(rate)为15个赞/周,并不知道点赞概率p和博客访客数n的任何信息。因此,我们需要得到更多的信息p和n,来建模成Binomial Distribution问题。假设过去的1年(=52周)的数据中,一共有10000人看了我的博客,其中有800个人点赞了。这样平均每周访客数=10000/52=192,平均每周点赞数=800/52=15。可得到概率p=800/10000=0.08=8\%使用Binomial概率质量函数 (Probability Mass Function),可预测下一周有20个人点赞的概率为: \text{Bin}(m=20 \mid N=192, p=0.08)= \frac{N !}{(N-m) ! m !} p^{m}(1-p)^{N-m} = 0.04657╔═══╦════════╗

x
║ Binomial P(X=x)║
╠═══╬════════╣

10

0.04074


17

0.09196

The average rate has high P!

20

0.06962

Nice. 20 is also quite Likely!

30

0.00018


40

< 0.000001

╚═══╩════════╝
二项分布的缺点1. 二项随机变量x是只有0或1上面的过程中,可以将x=该周有15次点赞;也可以是x=该天有(15/7)=2.1个赞;也可以是x=该小时有(15/7*24)=0.1个赞。这意味着大多数小时没有赞,而有的小时有一个点赞。仔细想想,似乎一定时间内出现超过1个点赞的情况也是合理的(比如文章早上刚发布的时候)。由此,二项分布的问题是它无法在一个时间单元中包含超过1次的事件。(在这里,时间单元是1小时)那么,我们将1小时切分成60分钟,时间单元是1分钟,使得1小时能够包含多个事件。问题得到解决了吗?还没有,比如何同学的5G视频,一晚上点赞就过百万,1分钟内不止一个赞。那我们再将时间单元切分成秒,这样1分钟又能包含多个事件。这样思考下去,我们会将已有的事件单元不断地切分,直到满足一个时间单元只包含一个事件,而大的时间单元能够包含1个以上的事件。形式化来看,这意味着n \to \infty,当我们假定比率(rate)固定,则必须让p \to 0。否则,点赞数n \times p \to \infty基于以上的约束,时间单元变得无穷小。我们不用担心同一个时间单元包含一个以上的事件了。2. 二项分布中,实验次数n应该提前知道在用二项分布时,无法直接用比率(rate)来计算点赞概率p,而是需要n和p才能使用二项分布的概率质量函数。而泊松分布不需要知道n和p。它假定了n是一个无穷大的数,而p是无穷小的数。泊松分布的唯一参数是比率\lambda(即x的期望)。现实中,得知n和p得进行很多次实验,而短时间内,比率(rate)很容易得到(例如,在下午2点-4点,收到了4个点赞)。泊松分布的公式推导泊松分布的特点泊松分布可看作是对稀有事件的建模,其中的比率\lambda可以是任意的,但通常不要太小。泊松分布是非对称的,通常往右偏移。\lambda越大,分布图像越像一个正态分布。图像来自wiki泊松分布的假设(什么情况适合用泊松分布建模)每个时间单元的事件平均发生比率是常数例如:博客的每小时平均点赞数不太可能服从泊松分布,而博客每个月的平均点赞数可近似看作是固定的事件是独立的假如你的博客写的很好,被公众号转发推广了,那可能会有大批的读者来阅读,这种情况下的点赞数就不满足泊松分布了。泊松分布和指数分布的关系若每个时间单元发生事件的次数服从泊松分布,那么两次事件发生间等待的时间服从指数分布。泊松分布是离散的,而指数分布是连续的,这两个分布紧密相关。函数图像import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
# Create x and y
x = np.arange(35)
y1 = stats.binom.pmf(x, 192, 0.08)
y2 = stats.poisson.pmf(x,10)
y3 = stats.poisson.pmf(x,17)
y4 = stats.poisson.pmf(x,20)
# Create the plot
fig, ax = plt.subplots()
plt.plot(x, y1, label='binomial(N=192, mu=0.08)', linewidth=3, color='black')
plt.plot(x, y2, label='poisson(mu=10)', linewidth=3, color='royalblue')
plt.plot(x, y3, label='poisson(mu=17)', linewidth=3, color='orange')
plt.plot(x, y4, label='poisson(mu=25)', linewidth=3)
# Make the x=0, y=0 thicker
# ax.set_aspect('equal')
ax.grid(True, which='both')
ax.axhline(y=0, color='k')
ax.axvline(x=0, color='k')
# Add a title
plt.title('Probability Mass Function', fontsize=20)
# Add X and y Label
plt.xlabel('x', fontsize=16)
plt.ylabel('f(x)', fontsize=16)
# Add a grid
# plt.grid(alpha=.4, linestyle='--')
# Add a Legend
plt.legend(bbox_to_anchor=(1, 1), loc='best', borderaxespad=1, fontsize=12)
# Show the plot
plt.show()ps知乎和csdn的markdown实在太不友好了,roam research导出了之后都没法直接适应。关键是一级一级的列表,真的很难处理。假如我用了列表,并且对于列表的每一项希望添加文字描述,格式就不好看。参考Poisson Distribution — Intuition, Examples, and Derivation
大致来说,Poisson过程就是一个计数过程,用以描述一段时间内事件的发生次数。在日常生活中我们可以看到的一个现象是,对于一个车站,在一个短暂的时间段内,单位时间到达的乘客数期望值是相同的。并且,每一个时间区间到达的乘客数是相互独立的,即不受其他时间段到达乘客数的影响。那接下来,本文通过使用Poisson过程对车站的到站乘客数量进行分析,以此对Possion过程进行了解。首先,因为单位时间区间中,到达车站乘客的数学期望值相同,所以我们可以:将观察时间区间l分为等长的n段,每段时间 t_{i} 内,正好有一个乘客到达车站的概率近似的与这段时间的长 \frac{1}{n} 成正比,设比例系数为 \lambda (其含义为单位时间平均到达车站的乘客数),即正好有一个乘客到达的概率为: P=\frac{\lambda}{n} 。又假定在n很大时,在t_{i}这么短暂的时间内,要到达两个以上的乘客是不可能的。因此,在t_{i}时间段内没有乘客到达的概率为: P=1-\frac{\lambda}{n} 。对应的,对于某一单位时间内,某一个到达车站的乘客在这单位时间内到达车站的概率也是相同的,每一个乘客间互不相关。于是假设每一个乘客的状态为1(到达车站)或者0(未到达车站)。这时候,我们可以定义n个随机变量 X_{i}(t) ,它表示第i个乘客在t时刻的状态,取值为1或者0,所有的随机变量加起来就是观察时间区间中到达车站乘客的总人数。当确定了一个时刻t时,此时的乘客到达车站的数目,就呈现Possion分布。即可以认为Possion过程是Possion分布在时间轴上的延伸。接下来,确定一个时刻t,则对于此时刻所有随机变量的和 \sum_{i=1}^{n}{X_{i}} ,它的概率模型就是二项分布,即对于任意一个乘客,他已经到达车站的概率为 \frac{\lambda}{n} ,没有到达的概率为1-\frac{\lambda}{n} 。通过二项分布的概率模型可以得到随机变量X的分布函数:P\left\{ X=k\right\}=P\left\{ \sum_{i=1}^{n}{X_{i}(t)=k} \right\}=C_{k}^{n}(\frac{\lambda t}{n})^{k}(1-\frac{\lambda t}{n})^{n-k} 当n的取值越来越大,趋向无穷大时:\frac{C_{i}^{n}}{n^{i}}\rightarrow\frac{1}{i!} , (1-\frac{\lambda}{n})^{n}\rightarrow e^{-\lambda} \lim_{n \rightarrow \infty}{P\left\{ X=k \right\}}=\frac{(\lambda
t )^{k}}{k!}e^{-\lambda t}其中,对于确定了时刻的Poisson分布,\lambda
为该二项分布X~B(n,p)的数学期望, \lambda=np ,其方差也为\lambda 。 对于时间轴上展开的Poisson过程,\lambda t 为该二项分布X~B(n,p)的数学期望, \lambda t=np ,其方差也为\lambda t。对于任意两个时刻s和t,且s<t,则X_{}(t)-X_{}(s)即为[s,t)之间到达的乘客总数。Possion过程基本特征特征1:乘客到达车站时间间隔 \tau _{n}=t_{n+1}-t_{n} 相互独立,,且服从指数分布,其概率密度为:p(\tau_{n})=\lambda e^{-\lambda \tau_{n}} 对于Poisson过程的到达间隔服从指数分布的理解:假设两个相邻乘客到达车站的时间间隔为 \tau ,即在时间间隔 \tau 中没有乘客到达,所以在时间区间内[0,\tau _{1})第一个乘客到达的概率为:P(X(\tau_{1})=0)= e^{-\lambda \tau_{1}} 对于第二个时间间隔\tau_{2},在上一个时刻t1乘客到达车站发生的条件下,在时间间隔\tau_{2}后时刻t2到达第二个乘客的概率为:\frac{P(X(t1)X(t2))}{P(X(t1))} = e^{-\lambda\tau_{2}} 即可以看出Poisson过程的到达间隔服从指数分布即乘客到达的时间间隔大于\tau的概率为e^{-\lambda \tau_{1}},所以相邻两个乘客到达的时间间隔小于\tau的概率为:P(\tau_{n}<\tau)=1-e^{-\lambda \tau} 该特性说明Poisson过程的到达间隔服从指数分布。因此,如果一个计数过程的到达间隔序列是相互独立同分布,其分布是参数为λ的指数分布,则该过程是到达率为λ的Poisson过程。 这说明:Poisson过程在一个充分小的时间间隔内,没有用户到达的概率为1-λδ;Poisson过程在一个充分小的时间间隔内,没有用户到达的概率为λδ;Poisson过程在一个充分小的时间间隔内有两个或两个以上用户到达是几乎不可能的。 特征3:多个相互独立的Poisson过程之和A = A1+A2+…+Ak仍是一个Poisson过程,其到达率为λ = λ 1+ λ 2+…+ λ k ,式中λ k是Poisson过程Ak的到达率。 特征4:如果将一个Poisson过程的到达以概率p和1-p独立地分配给两个子过程,则这两个子过程也是Poisson过程。值得注意的是:如果把到达交替的分配给两个子过程,即两个子过程分别由奇数号到达和偶数号到达组成,则这两个子过程就不是Poisson过程。

我要回帖

更多关于 泊松分布用于什么情况 的文章