08.05 Probability

概率密度函数（Probability density function，PDF）如下：

\[ P(a\leq X\leq b)=\int_a^bf(x) dx \tag{1} \]

密度值是指一个区域或空间内某一属性的集中程度。比如说某个城市的人口密度：该城市的人口数量除以该城市的面积=人口密度值

你想知道某件事的概率可以记为 \(P(X)\)，那么 \(a,b\) 指的是什么？举一个具体的例子，你想知道一个班里身高在 160-170 的人数为多少，那么上面式子可以改为 \(P(160\leq X\leq170)=\int_{160}^{170}f(x) dx\)。

那么，\(f(x)\) 指的是什么？假设说你把班里的人数和他们的身高都记录下来，画成一张图：横轴表示身高，纵轴表示每个身高段的学生人数。如图，这个图还差点意思，假设我们把区间变得越来越小，

那么它看起来就可以形成一条光滑的曲线，这条曲线就是概率密度函数\(f(x)\)

\(f(x)\) 在某一点 \(x\) 的值表示在这一点附近单位区间内的相对频数。换句话说，\(f(x)\) 越高，说明在这个身高附近的学生人数越多。

然而，\(f(x)\) 本身不是概率，而是一个密度值。概率是通过积分计算的。

通常，随机变量 \(X\) 的概率密度函数 \(f\) 满足条件 \(f(x)\ge 0\)，对于所有 \(x\)。因为概率的取值是从 0 到 1，因此：

\[ \int_{-\infty}^{\infty}f(x) dx=1 \tag{2} \]

也就是说，假设身高区间是取 \([0,\infty]\)，因为我无法想象一个负无穷的身高会是什么样的，接着你计算它的概率，那么它一定等于 1。

在概率论中，一个随机变量的所有可能取值构成的集合称为样本空间，也就是区间。对于连续型随机变量而言，样本空间通常是无限大的，如身高、体重等物理量。然而，无论样本空间多么庞大，所有可能事件的发生概率之和总是等于1。这是因为概率度量了不确定性，而所有可能事件涵盖了所有不确定性，因此它们的联合概率必然为1。

指数分布是一种连续概率分布，也就是说不是离散的概率。比如说身高，在一个班级里面，某个身高可能没有人符合。而连续可以想象成你打电话到客服中心，他接电话的概率在处处都有可能。

指数密度函数

Average Values

想象一下你需要计算打电话到客服中心需要等待的平均时间，令 \(f(t)\) 为对应的密度函数，以 \(t\) 分钟为单位，\(N\) 个人打电话作为样本。把区间设在 \(0\le t \le 60\) ，并把区间分为以 \(\Delta t\) 为宽度。

某个人在时间 \([t_{i-1},t]\) 得到应答的概率/比例近似为图中的面积 \(f\left(\bar{t}_{i}\right) \Delta t\) （\(\bar{t}_{i}\) 为区间的中点，取一个中值更容易近似和简化；同时代表了这段时间内被接听的电话的平均等待时间，因为你取这个值刚好有对应的函数值）。

因此，在 \(N\) 个样本和在时间 \([t_{i-1},t]\) 中，被接听的数量（也就是说所有人都在这个时间点取打电话）近似为：\(N f\left(\bar{t}_{i}\right) \Delta t\)，而每个人等待的时间大约为 \(\bar{t}_{i}\)。因此，他们等待的总时间（一个小区间内）是这些数字的近似于乘积：\(\bar{t}_{i}[N f\left(\bar{t}_{i}\right) \Delta t]\)。

换句话说，如果你知道这段时间内有多少电话被接听，并且你知道它们平均等了多少时间，你可以通过将这两者相乘来得到这段时间内所有被接听的电话的总等待时间。

对所有这样的时间求和，得到每个人等待时间近似的总数为：

\[ \sum_{i=1}^nN\bar{t}_i f(\bar{t}_i) \Delta t \]

将上式乘上 \(1 / n\) 即得到近似的平均时间：

\[ \sum_{i=1}^n \bar{t}_i f(\bar{t}_i) \Delta t \]

黎曼和转积分的形式：

\[ \int_0^{60}tf(t) dt \]

这个积分称为平均等待时间。

通常，任何概率密度函数 \(f\) 的平均值定义为：

\[ \mu=\int_{-\infty}^{\infty}x f(x) dx \]

均值(mu)可以解释为随机变量 \(X\) 的长期平均值。它也可以解释为概率密度函数的中心性度量（应该也是中值的意思）。

Normal Distributions

正态分布指的是，假如一个班级所有人的身高概率，你会发现很少人是极高或者极低的，意味着大多数人的身高都在平均数附近。而它的图形显然像一个这样的对称曲线：

\[ f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-(x-\mu)^2/(2\sigma^2)} \tag{3} \]

一个非负的常数 \(\sigma\) 称之为标准差，它衡量 \(X\) 值的分布程度。从上图的函数族可以看出：\(\sigma\) 越小越分散，反之则越集中。\(\mu\) 则为上上面求得的均值。