Problem 1
(1)
根据泊松分布的定义,我们有 $$ \mathbb{P}[X=\lambda+k] = \dfrac{e^{ -\lambda }\lambda^{\lambda+k}}{(\lambda+k)!},\quad \mathbb{P}[X=\lambda-k-1] = \dfrac{e^{ -\lambda }\lambda^{\lambda-k-1}}{(\lambda-k-1)!} $$ 我们计算两者的比值,有 $$ \dfrac{\mathbb{P}[X=\lambda+k]}{\mathbb{P}[X=\lambda-k-1]} = \dfrac{\lambda^{2k+1}\cdot(\lambda-k-1)!}{(\lambda+k)!} = \dfrac{\lambda^{2k+1}}{(\lambda+k)(\lambda+k-1)\dots(\lambda-k)} $$ 将分母的乘积左右两两配对,得到 $$ (\lambda+k)\dots(\lambda-k) = \lambda \cdot \prod_{i=1}^{k} (\lambda^{2}-k^{2}) > \lambda \cdot \prod_{i=1}^{k} \lambda^{2} = \lambda^{2k+1} $$ 从而就有 $$ \dfrac{\mathbb{P}[X=\lambda+1]}{\mathbb{P}[X=\lambda-k-1]} \geq 1 \implies \mathbb{P}[X=\lambda+1]\geq \mathbb{P}[X=\lambda-k-1] $$
接着证明 $ \mathbb{P}[X\geq\lambda]\geq \frac{1}{2} $,将事件展开并拆分可以得到 $$ \begin{align*} \mathbb{P}[X\geq \lambda] & =\sum_{k=0}^{\infty} \mathbb{P}[X=\lambda+k] \\ & = \sum_{k=0}^{\lambda-1} \mathbb{P}[X=\lambda+k] + \mathbb{P}[X\geq 2\lambda] \\ & \geq \sum_{k=0}^{\lambda-1} \mathbb{P}[X=\lambda+k] \end{align*} $$ 我们再考虑 $ \mathbb{P}[X< \lambda] $,也就是 $$ \begin{align*} \mathbb{P}[X< \lambda] & = \sum_{k=0}^{\lambda-1} \mathbb{P}[X=\lambda-k-1] \\ & \leq \sum_{k=0}^{\lambda-1} \mathbb{P}[X=\lambda+k] \end{align*} $$ 又因为 $ \mathbb{P}[X\geq\lambda]+\mathbb{P}[X< \lambda]=1 $,这样就得到了 $$ 1-\mathbb{P}[X\geq \lambda] \leq \mathbb{P}[X\geq \lambda] \implies \mathbb{P}[X\geq \lambda] = \dfrac{1}{2} $$ (2)
对于 $ \{ Y \} $,我们直到所有球的总数 $ M $ 是随机的,并且 $ M\sim\text{Pois}(m) $。
根据全期望公式,我们有 $$ \mathbb{E}[f(Y_{1},\dots,Y_{n})] = \sum_{k=0}^{\infty} \mathbb{P}[M=k]\cdot \mathbb{E}[f(Y_{1},\dots,Y_{n})\mid M=k] $$ 其中在固定 $ M=k $ 时,由于球也是随机扔的,这和固定总数随机放球的情形相同,所以这时 $$ \mathbb{E}[f(Y_{1},\dots,Y_{n})\mid M=k] = \mathbb{E}[f(\mathbf{X}^{(k)})] $$ 其中 $ \mathbf{X}^{(k)} $ 表示固定总数为 $ k $ 个球时的方案。
由于题设中可知 $ f $ 关于球数是单增的,因此若 $ k\geq m $,我们就有 $ \mathbb{E}[f(\mathbf{X}^{(k)})]\geq \mathbb{E}[f(\mathbf{X}^{(m)})] $。
我们对 $ \mathbb{E}[f(\mathbf{Y})] $ 放缩,只考虑 $ k\geq m $ 的情形(因为根据第一问知道泊松分布在后一半的概率大于 $ \frac{1}{2} $),就有 $$ \begin{align*} \mathbb{E}[f(\mathbf{Y})] & \geq \sum_{k=m}^{\infty} \mathbb{P}[M=k]\cdot \mathbb{E}[f(\mathbf{Y})\mid M=k] \\ & = \sum_{k=m}^{\infty} \mathbb{P}[M=k] \cdot \mathbb{E}[f(\mathbf{X}^{(k)})] \\ & \geq \mathbb{E}[f(\mathbf{X}^{(m)})]\cdot \mathbb{P}[M\geq m] \\ & \geq \dfrac{1}{2}\mathbb{E}[f(\mathbf{X}^{(m)})] \end{align*} $$ 换回题设中的记号,移项后我们就证明了 $$ \mathbb{E}[f(X_{1},X_{2},\dots,X_{n})] \leq 2\cdot \mathbb{E}[f(Y_{1},Y_{2},\dots,Y_{n})] $$ (3)
利用 $ (2) $ 的结论。我们定义函数 $$ f(\mathbf{X}) = \mathbb{I}(\text{\textbf{X} 中存在 5 个学生生日在同一天}) $$ 显然总人数越多,越容易达成这个条件,因此 $ \mathbb{E}[f] $ 满足单调性。因此我们可以利用 $ (2) $ 的结论来估算概率。
我们假设某一天生日的学生数量独立服从泊松分布,即 $ Y_{i}\sim\text{Pois}(\lambda) $,其中 $$ \lambda = \dfrac{m}{n} = \dfrac{96}{365} \approx 0.263 $$ 此时某一天有 $ \geq 5 $ 个人生日的概率为 $$ \mathbb{P}[Y_{i}\geq 5] = \sum_{k=5}^{\infty} \dfrac{e^{ -\lambda }\lambda^{k}}{k!} $$ 采用等比级数放缩,就有 $$ \begin{align*} \mathbb{P}[Y_{i}\geq 5] & = \dfrac{e^{ -\lambda }\lambda^{5}}{5!}\left( 1 + \dfrac{\lambda}{6} + \dfrac{\lambda^{2}}{6\cdot 7} + \dots \right) \\ & < \dfrac{e^{ -\lambda }\lambda^{5}}{5!}\left[ 1+\dfrac{\lambda}{6} + \left( \dfrac{\lambda}{6} \right)^{2} + \left( \dfrac{\lambda}{6} \right)^{3} + \dots \right] \\ & = \dfrac{e^{ -\lambda }\lambda^{5}}{5!}\cdot \dfrac{1}{1-\frac{\lambda}{6}} \\ & = \dfrac{e^{ -\lambda }\lambda^{5}}{20(6-\lambda)} \\ & \approx 8.43 \times 10^{-6} \end{align*} $$ 从而利用 Union Bound,得到至少有一天发生的概率的上界是 $$ \mathbb{P}[\exists i,Y_{i}\geq 5] \leq \sum_{i=1}^{365} \mathbb{P}[Y_{i}\geq 5] \approx 365\times 8.43\times 10^{-6}\approx 3.08 \times 10^{-3} $$ 利用 $ (2) $ 的结论,就有 $$ \mathbb{P}[\mathbf{X}] \leq 2\cdot \mathbb{P}[\mathbf{Y}] \approx 0.616\% < 0.7\% $$ 证毕。
Problem 2
(1)
令 $ Z=X^{3} $。由于 $ X\geq 0 $,所以 $ Z\geq 0 $。我们写出 $ Z $ 的 CDF, $$ \begin{align*} F_{Z}(z) & = \mathbb{P}[Z \leq z] = \mathbb{P}[X^{3} \leq z] \\ & = \mathbb{P}[X \leq z^{1/3}] \\ & = 1 - \exp( -\alpha z^{1/3} ) \end{align*} $$ 我们对 $ z $ 求导即可得到 PDF, $$ \begin{align*} f_{Z}(z) & = \dfrac{\mathrm{d} }{\mathrm{d}z} (1 - \exp(-\alpha z^{1/3})) \\ & = - \exp(-\alpha z^{1/3})\cdot \dfrac{\mathrm{d} }{\mathrm{d}z} (-\alpha z^{1/3}) \\ & = \dfrac{\alpha}{3}z^{-2/3}\exp(-\alpha z^{1/3}),\quad (z\geq 0) \end{align*} $$ (2)
令 $ Z=2X+3 $。由于 $ X\geq 0 $,因此 $ Z\geq 3 $。写出 $ Z $ 的 CDF,有 $$ \begin{align*} F_{Z}(z) & = \mathbb{P}[Z\leq z] = \mathbb{P}[2X+3\leq z] \\ & = \mathbb{P}\left[ X \leq \dfrac{z-3}{2} \right] \\ & = 1-\exp\left( -\alpha\left( \dfrac{z-3}{2} \right) \right) \end{align*} $$ 求导得到 $$ \begin{align*} f_{Z}(z) & = \dfrac{\mathrm{d} }{\mathrm{d}z} \left( 1-\exp\left( -\alpha\left( \dfrac{z-3}{2} \right) \right) \right) \\ & = \dfrac{\alpha}{2}\exp\left( -\alpha\left( \dfrac{z-3}{2} \right) \right),\quad (z\geq 3) \end{align*} $$ (3)
令 $ Z=X-Y $。此时 $ Z $ 的范围是 $ \mathbb{R} $。我们使用全概率公式,有 $$ f_{Z}(z) = \int_{-\infty}^{\infty} f_{X}(x)f_{Y}(x-z) \mathrm{d}x $$ 由于 $ x,y $ 均需要非负,因此积分的区间需要满足 $ x\geq 0 $ 且 $ x\geq z $。
分类讨论。若 $ z\geq 0 $,那么限制条件合并为 $ x\geq z $,从而 $$ \begin{align*} f_{Z}(z) & = \int_{z}^{\infty} (\alpha e^{ -\alpha x })(\alpha e^{ -\alpha(x-z) }) \mathrm{d}x \\ & = \alpha^{2}e^{ \alpha z }\int_{z}^{\infty} e^{ -2\alpha x } \mathrm{d}x \\ & = \alpha^{2}e^{ \alpha z }\left[ -\dfrac{1}{2\alpha}e^{ -2\alpha x } \right]_{z}^{\infty} \\ & = \dfrac{\alpha}{2}e^{ -\alpha z } \end{align*} $$ 若 $ z< 0 $,由于对称性,$ X-Y $ 和 $ Y-X $ 同分布,也就是 $ f(z)=f(-z) $,所以直接写出结果 $$ f_{Z}(z) = \dfrac{\alpha}{2}e^{ \alpha z } $$ 合并就有 $$ f_{Z}(z) = \dfrac{\alpha}{2}e^{ -\alpha \left| z \right| },\quad z\in \mathbb{R} $$ (4)
使用上一问的 $ Z $,令 $ W=\left| Z \right| $。我们有 $ W\in [0,+\infty) $。
由于 $ \left| Z \right|=W $ 的情况有 $ Z=W $ 和 $ Z=-W $ 两种可能,所以 $$ f_{W}(w)=f_{Z}(w)+f_{Z}(-w) = \alpha e^{ -\alpha w },\quad (w\geq 0) $$ (5)
令 $ W=Y^{3} $,利用第一问,我们有 $$ \mathbb{P}[W>w] = \mathbb{P}[Y^{3}>w] = e^{ -\alpha w^{1/3} } $$ 令 $ Z=\min(X,W) $,于是 $$ \mathbb{P}(Z>z) = \mathbb{P}(\min(X,W)>z) $$ $ \min(X,W)>z $ 说明两者都同时大于 $ z $。因此利用独立性,就有 $$ \begin{align*} \mathbb{P}(Z>z) & = \mathbb{P}(X>z)\cdot \mathbb{P}(W>z) \\ & = e^{ -\alpha z }\cdot e^{ -\alpha z^{1/3} } \\ & = e^{ -\alpha(z+z^{1/3}) } \end{align*} $$ 从而 $ Z $ 的 CDF 为 $ 1-e^{ -\alpha(z+z^{1/3}) } $。
接着我们求导得到 PDF,有 $$ \begin{align*} f_{Z}(z) & = \dfrac{\mathrm{d} }{\mathrm{d}z} (1-e^{ -\alpha(z+z^{1/3}) }) \\ & = \alpha\left( 1+\dfrac{1}{3}z^{-2/3} \right)e^{ -\alpha(z+z^{1/3}) },\quad (z\geq 0) \end{align*} $$ (6)
同理 $ (5) $,令 $ Z=\max(X,Y^{3}) $,我们有 $$ F_{Z}(z) = \mathbb{P}(Z\leq z) = \mathbb{P}(\max(X,W)\leq w) $$ 这说明两个数都同时小于等于 $ u $,于是 $$ \begin{align*} F_{Z}(z) & = \mathbb{P}(X\leq z)\cdot \mathbb{P}(W\leq z) \\ & = F_{X}(z)\cdot F_{W}(w) \\ & = (1-e^{ -\alpha z })(1-e^{ -\alpha z^{1/3} }) \end{align*} $$ 求导可得 $$ \begin{align*} f_{Z}(z) & = (\alpha e^{ -\alpha z })(1-e^{ -\alpha z^{1/3} })+(1-e^{ -\alpha z })\left( \dfrac{\alpha}{3}z^{-2/3}e^{ -\alpha z^{1/3} } \right),\quad (z\geq 0) \end{align*} $$
Problem 3
(1)
由于 $ T_{1},T_{2} $ 独立,因此它们的联合概率密度函数为 $$ f(x,y) = g_{m}(x)\cdot g_{n}(y) $$ 我们需要求在 $ y< x $ 区域内的概率 $$ \begin{align*} \mathbb{P}(T_{2}< T_{1}) & = \underset{ 0< y< x }{ \iint } g_{m}(x)g_{n}(y)\mathrm{d}x\mathrm{d}y \\ & = \int_{0}^{\infty} g_{m}(x)\left( \int_{0}^{x} g_{n}(y) \mathrm{d}y \right) \mathrm{d}x \end{align*} $$ (2)
由于两个队列服从服从参数相同的指数分布 $ \text{Exp}(\lambda) $,根据指数分布的性质,任意时刻下一次服务完成发生在 $ 1 $ 或 $ 2 $ 的概率是相等的。我们将整个服务过程视为一系列独立的伯努利试验,也就是抛硬币。如果硬币为正面,代表队列 $ 2 $ 完成一次服务;如果硬币为反面,代表队列 $ 1 $ 完成一次服务。
事件 $ T_{2}< T_{1} $ 意味着队列 $ 2 $ 的 $ n $ 名顾客全部完成服务时,队列 $ 1 $ 的 $ m $ 个顾客还没有全部完成。对应到硬币模型,也就是累计出现 $ n $ 次正面的时刻,反面出现的次数还没到 $ m $ 次。因此 $ \mathbb{P}(T_{2}< T_{1}) $ 是在公平的抛硬币模型中,$ n $ 个正面比 $ m $ 个反面先出现的概率。
Problem 4
(1)
我们知道随机变量 $ X_{1},X_{2},\dots,X_{n} $ 独立且均服从指数分布 $ \text{Exp}(\lambda) $,从而其 PDF 为 $$ f(x) = \begin{cases} \lambda e^{ -\lambda x }, & x\geq 0 \\ 0, & x < 0 \end{cases} $$ 以及其 CDF 为 $$ F(x) = \begin{cases} 1-e^{ -\lambda x }, & x\geq 0 \\ 0, & x < 0 \end{cases} $$ 首先处理带证明公式中的组合系数,$ n\binom{ n-1 }{ k-1 } $ 表示从 $ n $ 个随机变量中选定 $ X_{(k)} $ 后再从剩下 $ n-1 $ 个随机变量中选出前 $ k-1 $ 个发生的 $ X_{(1)},\dots,X_{(k-1)} $ 的方案数。这样就表示所有可能发生的事件的组合数。
对于 $ X_{(1)},\dots,X_{(k-1)} $,它们在时刻 $ x $ 之前已经坏掉的概率为 $$ [F(x)]^{k-1} = (1-e^{ -\lambda x })^{k-1} $$ 对于 $ X_{(k)} $,它在时刻 $ x $ 坏掉的概率密度为 $$ \lambda e^{ -\lambda x } $$ 对于 $ X_{(k+1)},\dots,X_{(n)} $,它们再时刻 $ x $ 还没有发生过的概率为 $$ [1-F(x)]^{n-k} = e^{ -(n-k)\lambda } $$ 从而相乘后就得到了 $$ f_{X_{(k)}}(x) = n\binom{ n-1 }{ k-1 } (1-e^{ -\lambda x })^{k-1}e^{ -(n-k)\lambda x }\cdot\lambda e^{ -\lambda x } $$ (2)
首先考虑当 $ r=n $。由于所有 $ X_{1},\dots,X_{n} $ 独立同分布,因此其概率联合密度为 $ \prod_{i=1}^{n}f(x_{i}) $。我们要统计的 $ X_{(1)}< X_{(2)}< \dots< X_{(n)} $ 对应原始样本 $ (X_{1},\dots,X_{n}) $ 的 $ n! $ 种排序中的特定一种。
从而在定义域 $ 0< x_{1}< x_{2}< \dots< x_{n} $ 中,根据每个 $ X $ 的对称性,联合概率密度函数为 $$ f_{X_{(1)},\dots,X_{(n)}}(x_{1},\dots,x_{n})=n!\cdot \prod_{i=1}^{n} f(x_{i}) $$ 带入就得到了 $$ \begin{align*} f_{X_{(1)},\dots,X_{(n)}}(x_{1},\dots,x_{n}) & = n!\prod_{i=1}^{n} (\lambda e^{ -\lambda x_{i} }) \\ & = n!\lambda^{n}e^{ -\lambda \sum_{i=1}^{n} x_{i} } \end{align*} $$ 在这个定义域之外,概率密度为 $ 0 $。从而引入指示函数作为定义域的限制,就得到了 $$ f_{X_{(1)},\dots,X_{(n)}}(x_{1},\dots,x_{n}) = n!\lambda^{n}e^{ -\lambda \sum_{i=1}^{n} x_{i} }\cdot \mathbb{I}[x_{1}< x_{2}< \dots< x_{n}] $$
对于一般情况,$ X_{(1)}< X_{(2)}< \dots< X_{(r)} $ 对应原始样本中 $ \dfrac{n!}{(n-r)!} $ 种排列(后 $ n-r $ 个随机变量可以随意排列)。
此时对于 $ 0< x_{1}< x_{2}< \dots< x_{r} $,我们首先要确保选出的 $ X_{(k)} $ 在时刻 $ x_{k} $ 发生,概率密度为 $ \prod_{i=1}^{r}f(x_{i})=\lambda^{r}e^{ -\lambda \sum_{i=1}^{r}x_{i} } $。接着要确保后未选中的 $ (n-r) $ 个随机事件不会在时刻 $ x_{r} $ 之前发生,概率为 $ [1-F(x_{r})]^{n-r}=e^{ ^{-(n-r)}\lambda x_{r} } $。
带入就得到了 $$ f_{X_{(1)},\dots,X_{(r)}}(x_{1},\dots,x_{r}) = \dfrac{n!}{(n-r)!}\cdot\lambda^{r}e^{ -\lambda \sum_{i=1}^{r} x_{i} }\cdot e^{ -(n-r)\lambda x_{r} } $$ (3)
定义 $ Y_{1}=X_{(1)},Y_{k}=X_{(k)}-X_{(k-1)}\quad (k>1) $,那么可以得到 $$ X_{(k)}=\sum_{i=1}^{k} Y_{i} $$ 我们求出这个变换的 Jacobian 行列式。对于 $ n $ 个变量,这个变换对应的矩阵是一个下三角矩阵,并且对角线元素全为 $ 1 $,因为 $ \frac{ \partial X_{(k)} }{ \partial Y_{k} }=1 $,从而 $$ \left| J \right| = \det\left( \dfrac{ \partial (x_{(1)},x_{(2)},\dots,x_{(n)}) }{ \partial (y_{1},y_{2},\dots,y_{n}) } \right) = 1 $$ 利用 $ (2) $ 中 $ r=n $ 时的联合概率密度函数,再带入 $$ \sum_{i=1}^{n} x_{i} = \sum_{i=1}^{n} \sum_{j=1}^{i} y_{j} = \sum_{j=1}^{n} (n-j+1)y_{j} $$ 就得到了 $$ \begin{align*} f_{Y}(y_{1},y_{2},\dots,y_{n}) & = n!\lambda^{n}e^{ -\lambda \sum_{j=1}^{n} (n-j+1)y_{j}}\cdot \left| J \right| \\ & = \prod_{j=1}^{n} [(n-j+1)\lambda e^{ -(n-j+1)\lambda y_{j} }] \end{align*} $$ 从而联合概率密度函数分解成了 $ n $ 个独立的因子的乘积 $$ f_{Y_{k}}=(n-k+1)\lambda e^{ -(n-k+1)\lambda y_{k} },f_{Y}=\prod_{k=1}^{n} f_{Y_{k}} $$ 其中 $ Y_{k} $ 正对应着 $ n-k+1 $ 个还存活的指数分布的密度。
对应回题目中 $ Y_{k+1}=X_{(k+1)}-X_{(k)} $ 的系数为 $ n-k $,从而说明间隔 $ X_{(k+1)}-X_{(k)} $ 相互独立,并且服从 $ \text{Exp}((n-k)\lambda) $。
(4)
由于 $ X_{(i)} $ 之间不独立,难以计算,因此我们考虑将 $ U $ 改写为 $ (3) $ 中用到的独立变量 $ Y_{i}\sim\text{Exp}((n-i+1)\lambda) $ 的线性组合。
首先每个 $ Y_{i} $ 的期望与方差分别为 $$ \mathbb{E}[Y_{i}]=\dfrac{1}{(n-i+1)\lambda},\quad \text{Var}[Y_{i}]= \dfrac{1}{(n-j+1)^{2}\lambda^{2}} $$
将 $ U $ 重写为 $ Y_{i} $ 的线性组合 $$ \begin{align*} U & = \sum_{i=1}^{r} a_{i}X_{(i)} \\ & = \sum_{i=1}^{r} a_{i}\left( \sum_{j=1}^{i} Y_{j} \right) \\ & = \sum_{j=1}^{r} Y_{j}\sum_{i=j}^{r} a_{i} \end{align*} $$ 令 $ b_{i}=\sum_{k=i}^{r}a_{k} $,就有 $$ \begin{align*} U = \sum_{i=1}^{r} b_{i}Y_{i} \end{align*} $$ 题目要求 $ \mathbb{E}[U]=\lambda ^{-1} $,带入就得到 $$ \mathbb{E}[U] = \mathbb{E}\left[ \sum_{i=1}^{r} b_{i}Y_{i} \right] = \sum_{i=1}^{r} b_{i}\mathbb{E}[Y_{i}] =\dfrac{1}{\lambda} \sum_{i=1}^{r} \dfrac{b_{i}}{n-i+1} = \dfrac{1}{\lambda} $$ 从而有约束条件 $$ \sum_{i=1}^{r} \dfrac{b_{i}}{n-i+1}=1 $$ 在这个约束条件下我们需要最小化 $ U $ 的方差。利用 $ Y_{i} $ 的独立性,有 $$ \text{Var}[U] = \sum_{j=1}^{r} b_{i}^{2}\text{Var}[Y_{i}] = \dfrac{1}{\lambda^{2}}\sum_{i=1}^{r} \dfrac{b_{i}^{2}}{(n-i+1)^{2}} $$ 利用 Cauchy 不等式,容易求出在 $$ \dfrac{b_{1}}{n} = \dfrac{b_{2}}{n-1}=\dots=\dfrac{b_{r}}{n-r+1}=\dfrac{1}{r} $$ 时 $ \text{Var}[U] $ 取到最小值,由此解出最优的 $ b_{i} $ 为 $$ b_{i} = \dfrac{n-i+1}{r} $$ 对应系数 $ a_{i} $ 为 $$ a_{r} = b_{r} = \dfrac{n-r+1}{r},\quad a_{k} = b_{k}-b_{k+1} = \dfrac{1}{r}\quad (k< r) $$ 与题设一致。
带入最优的 $ b_{i} $ 到 $ \text{Var}[U] $ 的表达式中,得到 $$ \text{Var}[U] = \dfrac{1}{\lambda^{2}}\sum_{i=1}^{r} \left( \dfrac{1}{r} \right)^{2} = \dfrac{1}{r\lambda^{2}} $$