不求甚解學經濟-一些簡單的凸分析

一些簡單的凸分析

基本概念與基本性質

組合 Combination

Linear Combination 綫性組合：係數無要求；
Affine Combination 仿射組合：係數之和為1，可正可負；
Conical Combination 錐組合：係數為非负；
Convex Combination 凸組合：係數為非负，且和為1。

仿射函數/綫性函數

綫性函數： $ax+by$ 。綫性函數不可以有額外的常數項。
仿射函數： $ax+by+c$ 。仿射函數是綫性函數的平移。

在經濟學的語言中，常常將仿射函數稱爲綫性函數，從數學上來説這是不對的，但往往遵循慣例。

凸函數的幾何刻畫

凸函數常有兩種幾何刻畫：

兩點連綫處於函數圖像之上。
某點切綫位於函數圖像之下。

連綫、切綫只是一種廣義的説法，具體的形式因維度而定，例如在高維中的切綫其實是相切的超平面。

Chordal Slope Lemma

令 $(a,b)\in\mathbb{R}$ 為一個開區間， $f:(a,b)\rightarrow\mathbb{R}$ 為一個凸函數。則對於定義域內任何三個滿足 $x<y<z$ 的點 $x,y,z\in (a,b)$ 都有

$\frac{f(y)-f(x)}{y-x}\leq\frac{f(z)-f(x)}{z-x}\leq\frac{f(z)-f(y)}{z-y}$

特別地，給定任何 $x_{0}\in (a,b)$ ，函數 $x\rightarrow\frac{f(x)-f(x_{0})}{x-x_{0}}$ 是遞增的。

(三條綫各自均爲兩點連綫，可以將斜率處於中間的那條兩點連綫視爲斜率最陡峭和最平緩的兩條兩點連綫的加權平均，斜率處於中間者，是斜率最陡峭和最平緩的兩條兩點連綫拼接而成。)

證明：

$\begin{aligned} y(z-x)=&zy-xy\\ =&zy-zx+zx-xy\\ =&z(y-x)+x(z-y) \end{aligned}$

從而

$y=\frac{y-x}{z-x}z+\frac{z-y}{z-x}x$

其中 $\frac{z-y}{z-x}=1-\frac{y-x}{z-x}$ ，
由 $x<y<z$ 可知 $\frac{y-x}{z-x}\in (0,1)$ ，從而上式即是將 $y$ 表示成 $z$ 和 $x$ 的凸組合的表達式，根據 $f$ 為凸函數，可知

$\begin{aligned} f(y)\leq&\frac{y-x}{z-x}f(z)+\frac{z-y}{z-x}f(x)\\ =&\frac{y-x}{z-x}(f(z)-f(x))+f(x) \end{aligned}$

從而

$f(y)-f(x)\leq\frac{y-x}{z-x}(f(z)-f(x))$

即

$\frac{f(y)-f(x)}{y-x}\leq\frac{f(z)-f(x)}{z-x}$

但

$f(y)\leq\frac{y-x}{z-x}f(z)+\frac{z-y}{z-x}f(x)$

又可以表示為

$f(y)\leq\frac{z-y}{z-x}(f(x)-f(z))+f(z)$

從而

$\frac{f(x)-f(z)}{x-z}\leq\frac{f(z)-f(y)}{z-y}$

得證。

這意味著，當把 $x-h$ 視為前麵的 $x$ 、 $x$ 視為前麵的 $y$ 、 $x+h$ 視為前麵的 $z$ 時，有

$\begin{aligned} f^{\prime}(x^{-})&=\lim_{h\rightarrow 0}\frac{f(x)-f(x-h)}{h}\\ &\leq\lim_{h\rightarrow 0}\frac{f(x+h)-f(x)}{h}=f^{\prime}(x^{+}) \end{aligned}$

即凸函數任何內點 $x\in (a,b)$ 的右極限總是不小於左極限，當屬於間斷點時右極限嚴格高於左極限。
進一步地

$f^{\prime}(x^{-})\leq f^{\prime}(x^{+}) \leq\frac{f(y)-f(x)}{y-x} \leq f^{\prime}(y^{-})\leq f^{\prime}(y^{+})$

因此，凸函數任何內點 $x\in (a,b)$ 的左導數和右導數總是有界的： $|f^{\prime}(x^{-})|<\infty$ ， $|f^{\prime}(x^{+})|<\infty$ 從而上述命題凸函數內點的右極限總是不小於左極限，當屬於間斷點時右極限嚴格高於左極限中的“間斷點”可以進一步限製為跳躍間斷點（即凸函數的內點不會是無窮間斷點）。

Supergradient

参考 KC Border。

令 $C$ 为 $m$ 维欧氏空间的凸子集， $f$ 为定义在 $C$ 上的凹函数。称（同样为 $m$ 维的）向量 $p$ 是函数 $f$ 在点 $x\in C$ 处的 supergradient，如果对于任何向量 $y$ ，都有 $f (x) + p · (y − x) \geq f (y)$ 。

supergradient 是 gradient 概念的推广。

supergradient

把不等式取相反符号，即为 subgradient。

命題：定義在開區間上的凸函數都是連續函數

令 $f:(a,b)\rightarrow\mathbb{R}$ 為凸函數，則對於任何 $[\underline{x},\bar{x}]\subset(a,b)$ ， $f$ 都是李普希茨連續的，因此 $f$ 在 $[\underline{x},\bar{x}]$ 上也是絕對連續的。

證明：

（待補充）

命題

命題：凸函數的幾乎處處連續可微性質。

定義：極點 Extreme Point

令 $S\subset\mathbb{R}^{n}$ 為 $n$ 維歐氏空間的凸子集，那些無法被 $S$ 裏的點們由非平凡凸組合得到的點就是極點（這裏的平凡是指：就令所選取的點的權重為1，其他任意點的權重為0，依然是凸組合，但冇有實際意義）。如三角形的三個頂點、矩形的四個角、立方體的八個角等等都是極點。但任一條邊都可以被那條邊的端點組合而成，所以邊上的點不是極點。將 $S$ 的極點們記為 $\text{ext}(S)$ 。

凹凸性與擬凹凸性

凹凸性是基數性質，在單調變換下可能會發生改變。而擬凹凸性是敘述性質，可以在單調變化下保留。例如，無論是凹函數還是擬凹函數，在單調正變換后都將變成擬凹函數。

Polyhedra

給定超平面 $H\subset\mathbb{R}^{d}$ ，記 $H^{-}$ 和 $H^{+}$ 分別爲超平面的兩個閉半空間。至於是大於等於的記爲正、還是小於等於的記爲正具有任意性。一個 Polyhedron 是能被表示爲有限多個閉半空間的交集的集合。一個 Polytope 是有限多個點的凸包。一個 Polyhedral cone 是一個有限多個點的正包，即只要求係數爲正、不要求合爲一(因此不是凸包)。

凸集表示定理

凸集表示定理（一）Minkowski 定理

給定有限維嚮量空間 $E$ ， $X\subset E$ 為緊凸子集，則對於任何 $x\in X$ ，都存在有限個 $x_{1},...,x_{k}\in\text{ext}(X)$ 和正數 $\mu_{1},...,\mu_{k}$ 滿足 $\sum_{i}\mu_{i}=1$ ，使得 $\sum_{i}\mu_{i}x_{i}=x$ 。

定義：表示 Representation

如前述Minkowski 定理中那般，對於某個 $x\in X$ ，如果存在有限個 $x_{1},...,x_{k}\in\text{ext}(X)$ 和正數 $\mu_{1},...,\mu_{k}$ 滿足 $\sum_{i}\mu_{i}=1$ ，使得 $\sum_{i}\mu_{i}x_{i}=x$ ，則稱 $x$ 通過 $\lbrace \mu_{i}\rbrace _{i}$ 得到了(凸)表示。

積分形式為：

對於定義在 $X$ 上的任何連續線性(註意，這裏不限製為有限維空間，因此線性不意味著連續，而線性連續等價於線性有界)泛函 $f$ ，和某個 $x\in X$ ,如果 $f(x)=\int_{X}fd\mu$ 對於某個機率測度 $\mu$ 都成立，則稱 $x$ 通過 $\mu$ 得到了表示。

因此Minkowski 定理也可以敘述為：

對於有限維嚮量空間中的緊凸子集，其任一元素都可以使用其極點得到表示。

凸集表示定理（二）Caratheodory 定理

對於任何有限維度 $n\in\mathbb{N}$ ，令 $S\subset\mathbb{R}^{n}$ 為 $n$ 維歐氏空間的子集，則 $S$ 的凸包 $co(S)$ 中的任一點 $x\in co(S)$ ，都存在 $n+1$ 個點 $\lbrace x^{i}\rbrace _{i=1}^{n+1}\subset S$ 和 $\lbrace \lambda_{i}\rbrace _{i=1}^{n+1}\subset [0,1]$ （如果其中有某些 $\lambda_{j}=0$ ，那就意味著隻需要少於 $n+1$ 個 $x^{i}$ ），滿足 $\sum_{i=1}^{n+1}\lambda_{i}=1$ （意味著權重非負、和為 $1$ ，因此是凸組合），使得 $x=\sum_{i=1}^{n+1}\lambda_{i}x^{i}$ 。

即：對於任何有限 $n$ 維空間裏的任一集合 $S$ ，其凸包 $co(S)$ 中的任一點都可由原 $S$ 中不多於 $n+1$ 個點的凸組合來表示。

證明：假設用了 $m\geq n+2$ 個點來做凸組合，即 $x=\sum_{i=1}^{m}\lambda_{i}x^{i}$ ， $\lbrace x^{i}\rbrace _{i=1}^{m}\subset S$ ， $\lbrace \lambda_{i}\rbrace _{i=1}^{m}\subset [0,1]$ ， $\sum_{i=1}^{m}\lambda_{i}=1$ 。假設每個 $\lambda_{i}>0,\forall i=1,...,m$ ，否則有等於 $0$ 的權重就意味著已經隻使用了少於 $m$ 個點。

但即使 $\lbrace x^{i}\rbrace _{i=1}^{m}$ 不是線性相關的，任取一個 $x^{k}$ ， $\lbrace x^{i}-x^{k}\rbrace _{i\neq k}$ 也是線性相關的，因此存在一組 $\lbrace \mu_{i}\rbrace _{i\neq k}$ ，滿足 $\mu_{i}\in [0,1]$ 及 $\sum_{i\neq k}\mu_{i}=1$ ，並且 $\mu_{i}$ 不全為0，使得

$\sum_{i\neq k}\mu_{i}(x^{i}-x^{k})=0$

如果我們取 $\mu_{k}=-\sum_{i\neq k}\mu_{i}$ 則有

$\sum_{i=1}^{m}\mu_{i}=0$

以及

$\begin{aligned} 0=\sum_{i\neq k}\mu_{i}(x^{i}-x^{k})=&\sum_{i\neq k}\mu_{i}x^{i}-\sum_{i\neq k}\mu_{i}x^{k}\\ =&\sum_{i\neq k}\mu_{i}x^{i}+\mu_{k}x^{k}\\ =&\sum_{i=1}^{m}\mu_{i}x^{i} \end{aligned}$

目前我們已經有了 $x=\sum_{i=1}^{m}\lambda_{i}x^{i}$ 和 $\sum_{i=1}^{m}\mu_{i}x^{i}=0$ ，那麼對於任一實數 $\alpha\in\mathbb{R}$ 都有

$x=\sum_{i=1}^{m}\lambda_{i}x^{i}-\alpha\sum_{i=1}^{m}\mu_{i}x^{i}=\sum_{i}^{m}(\lambda_{i}-\alpha\mu_{i})x^{i}$

既然這個式子對任一 $\alpha$ 都成立，那麼我們可以選取特定的某個 $\alpha$ ，即

$\alpha=\min_{i=1,...,m}\lbrace \frac{\lambda_{i}}{\mu_{i}}|\mu_{i}>0\rbrace$

即隻在那些 $\mu_{i}>0$ 的組裏選，而 $x^{k}$ ， $\lbrace x^{i}-x^{k}\rbrace _{i\neq k}$ 的線性相關保證了至少有一個 $\mu_{i}>0$ 。我們將這些 $\frac{\lambda_{i}}{\mu_{i}}$ 中取到最小值的那一組記為第 $l$ 組，那麼

$\alpha=\frac{\lambda_{l}}{\mu_{l}}$

因此 $\lambda_{i}-\alpha\mu_{i}\geq 0,\forall i$ ，但 $\lambda_{l}-\alpha\mu_{l}=0$ 。

這樣就把 $m$ 個嚮量的凸組合變成了 $m-1$ 個嚮量的凸組合。可以將這個過程一直持續下去。那麼這個過程應該到什麼時候停止呢？

應該到 $\lbrace x^{i}-x^{k}\rbrace _{i}$ 不再線性相關了為止。

而每個 $x^{i}$ 都是取自 $\mathbb{R}^{n}$ ，因此最多可以有 $n$ 個線性不相關的 $x^{i}=x_{i}-x_{k}$ ，也就是最多可以有 $n+1$ 個 $x_{j}$ 使得 $n$ 個 $x^{i}=x_{i}-x_{k}$ 線性不相關，即要表示 $x$ ，最多需要 $\lbrace x_{j}\rbrace _{j=1}^{n+1}$ 。當然，這隻是說最多需要 $n+1$ 個，在不同的情景中可以隻需要更少，但永遠不需要更多。

特殊情況：邊界點

對於 $S\subset\mathbb{R}^{n}$ ，記 $C:=\text{co}S$ 。如果 $x\in C\cap \text{boudary}C$ ，那麽如果想要將這種特別的 $x$ 表示爲其它元素的凸組合，無需像 Carathedory 那樣要求 $n+1$ 個元素，而只需 $n$ 個就好了。

證明：由於 $x\in\text{db}C$ ，根據支撐超平面定理，存在超平面 $H_{s,r}$ ，其中 $s\neq 0,r\in\mathbb{R}$ ，使得

$<s,x>-r=0$

并且

$<s,y>-r\leq 0,\forall y\in C$

由於 $x\in C$ ，根據 Caratheodory 定理，存在 $x_{1}\in S,...x_{i}\in S,...,x_{n+1}\in S$ 以及 $\alpha_{1}>0,...\alpha_{i}>0,...,\alpha_{n+1}>0$ 使得 $x=\sum_{j=1}^{n+1}\alpha_{j}x_{j}$ 。代入 $y=x_{j}$ ，得

$0=<s,x>-r=\sum_{j=1}^{n+1}\alpha_{j}(<s,x_{j}>-r)\leq 0$

因此必有 $<s,x_{j}>-r=0,\forall j=1,...,n+1$ ，這意味著每個 $x_{j}$ 都滿足超平面 $H_{s,r}$ 的定義式 $<s,x>-r=0$ 。而超平面 $H_{s,r}$ 的維度為 $n-1$ ( $x\in\mathbb{R}^{n}$ 本身處於維度為 $n$ 的空間内， $<s,x>-r=0$ 的約束使得維度減 $1$ )。

這表明 $x$ 只需用超平面 $H_{s,r}$ 上的點的凸組合，就可以表示。根據 Caratheodory 定理， $x$ 可以表示為 $(n-1)+1$ 個點的凸組合，得證。 $\square$

凸集表示定理（三）Krein Milman 定理

版本一
對於任何非空緊凸集 $S\subset\mathbb{R}^{n}$ ，將 $S$ 的極點們記為 $\text{ext}(S)=\lbrace s_{i}\rbrace _{j}$ ，則 $\text{co}(\lbrace s_{i}\rbrace ^{i})=S$ 。
版本二

證明：我們將採用歸納法證明。

當 $n=1$ 時，非空緊凸集既是實端點的閉區間，其極點即是端點，極點的凸包即是這個區間。

假設對於 $n-1$ 成立，我們表明對於 $n$ 也成立。假設不成立，即 $S\setminus \text{co}(\text{ext}(S))\neq\emptyset$ ，那麼

結合Caratheodory定理和Krein Milman定理，可知在 $n$ 維歐氏空間 $\mathbb{R}^{n}$ 中的任何非空緊凸集中的任一點，都可以被寫為其極點們中至多 $n+1$ 個的凸組合。

凸集表示定理（四）Choquet integral representation

給定 $E$ 為局部凸空間， $X\subset E$ 為可度量化的緊凸子集，任給 $x_{0}\in X$ ，都存在某個定義在 $X$ 上的機率測度 $\mu$ 可以表示 $x_{0}$ (意即 $f(x)=\int_{X}fd\mu$ 對於任何線性有界（从而连续）泛函 $f$ 都成立)並且機率測度 $\mu$ 的支撐為 $X$ 的極點(即 $\lbrace x\in X:\mu(x)>0\rbrace =\text{ext}X$ )。

Bauer 最大值原理

給定任何賦範線性空間 $X$ 中的任何非空緊凸子集 $S\subset X$ ，若 $f:S\rightarrow\mathbb{R}$ 是上半連續(是semi，不是hemi)的凸函數(註意，這裏定義域是緊集，因此凸函數並不自動意味著連續函數)，則集合 $S$ 的極點 $ext(S)$ 中至少存在一個點，使得函數 $f$ 在該點取得最大值

$\arg\max_{x\in S}f(x)\cap ext(S)\neq\emptyset$

例子

（待補充）

（補上 Kleiner, A., Moldovanu, B., & Strack, P. (2020). Extreme Points and Majorization: Economic Applications. Available at SSRN.）

分離定理與支撐超平麵定理

（待補充）

分離超平麵定理

任取兩個非空凸集 $A,B\subset\mathbb{R}^{n}$ ，並且其中任一個具有非空內部，不妨令 $int(A)\neq\emptyset$ ，那麼 $A$ 的內部 $int(A)$ 與 $B$ 不相交即 $int(A)\cap B=\emptyset$ 當且僅當可以找到一個各分量不全為 $0$ 的嚮量$v\in\mathbb{R}^{n}\setminus\lbrace 0\rbrace $和一個實數$ \alpha\in\mathbb{R}$使得

$v^{T}y\geq\alpha\geq v^{T}x,\forall y\in B,x\in A$

若從 $A$ 的內部取點 $x\in int(A)$ ，則後一個不等號取嚴格

$\alpha > v^{T}x,\forall x\in int(A)$

（若令 $int(B)\neq\emptyset$ ，則是前一個不等號取嚴格）

支撐超平麵定理

（待補充）

supporting hyperplanes to epigraphs

（待補充）

避免誤解

注意！！！儘管二階連續可微的函數 $f:\mathbb{R}^n\rightarrow\mathbb{R}$ 是凸函數當且僅當其海塞矩陣為半正定，但嚴格凸函數僅僅是海塞矩陣正定的必要而非充分條件，或者說海塞矩陣正定是嚴格凸函數的充分而非必要條件。

例如 $f(x)=x^{4}$ 是嚴格凸函數，但 $f^{\prime\prime}(0)=0$ 。這是一個極其容易被誤用的性質！！！有很多老師會把嚴格凸函數時的海塞矩陣正定説成充要條件！！！這是錯的！！！

另外，“二階連續可微”這個性質也不可少。當然，可微性的假設要求定義域是開集，正如凸函數的假設要求定義域是凸集。

即使是一維歐式空間定義域(單變量)的嚴格凸函數，其充要條件也僅僅是 $\left\{x]in\mathbb{R}:f^{\prime\prime}(x)>0\right\}$ 為稠密集而已！！！對於高維定義域(多變量)的嚴格凸函數，至今不存在任何通用的、簡化的充要條件刻畫！！！

(跑題一下，對於求解最優化問題來説，在 critical point 処的嚴格正/負定就足以作爲局部最優化的充分條件了，而無需在整個定義域都滿足嚴格正/負定，也無需凹凸性。但如果在整個定義域都滿足嚴格正/負定就可以談凹凸性和全局最優化了，儘管在整個定義域都滿足嚴格正/負定只是凹凸性的充分條件，也就意味著，有可能不滿足在整個定義域都嚴格正/負定但卻依然是嚴格凹凸函數，例如 $f(x)=-x^{4}$ 和 $f(x)=x^{4}$ )

弱對偶定理

對於問題

$\begin{aligned} \sup_{x\in\mathbb{R}^{n}}f(x)\\ s.t.\\ g_{j}(x)\geq 0,\forall j\in\lbrace 1,...,J\rbrace \\ h_{l}(x)= 0,\forall i\in\lbrace 1,...,L\rbrace \end{aligned}$

其中， $f(x)$ 、 $\lbrace g_{j}\rbrace _{j=1}^{J}$ 和 $\lbrace h_{l}\rbrace _{l=1}^{L}$ 的凹凸性、可微性甚至連續性均不做要求。

這一問題可以採用對偶方式來求解，定義前述問題的值函數為 $p^*$ ，則前述問題的對偶問題為

$\inf_{\lambda\in\mathbb{R}^{J},\mu\in\mathbb{R}^{L}}q(\lambda,\mu)$

其中

$q(\lambda,\mu)=\sup_{x\in\mathbb{R}^{n}}(f(x)+\lambda^{T}g(x)+\mu^{T}h(x))$

由於 $q(\lambda,\mu)$ （註意， $q$ 不是 $x$ 的函數）是關於仿射函數 $\lambda^{T}g(x)+\mu^{T}h(x)$ 的逐點上確界，因此即使對 $f(x)$ 、 $\lbrace g_{j}\rbrace _{j=1}^{J}$ 和 $\lbrace h_{l}\rbrace _{l=1}^{L}$ 的凹凸性不做任何要求，作為上確界函數（當能取到最值時，也就是關於參數 $\lambda$ 和 $\mu$ 的最優值函數）這一點本身，使它成為了凸函數。

定義 $\inf_{\lambda\in\mathbb{R}^{J},\mu\in\mathbb{R}^{L}}q(\lambda,\mu)$ 問題的值函數為 $d^*$ ，有如下定理

弱對偶定理

弱對偶定理： $d^*\geq p^*$

證明：由於$g_{j}(x)\geq 0,\forall j\in\lbrace 1,…,J\rbrace $和$ h_{l}(x)= 0,\forall i\in\lbrace 1,…,L\rbrace $，所以對於任何$ x$，都有

$f(x)\leq f(x)+\sum_{j}\lambda_{j}g_{j}(x)+\sum_{l}\mu_{l}h_{l}(x)$

其中 $\lambda_{j}\geq 0,\forall j$ 以及 $\mu_{l}\geq 0,\forall l$ ，從而

$f(x)\leq \sup_{x}\lbrace f(x)+\sum_{j}\lambda_{j}g_{j}(x)+\sum_{l}\mu_{l}h_{l}(x)\rbrace =q(\lambda,\mu),\forall x$

進而

$\sup f(x)\leq g(\lambda,\mu),\forall \lambda\geq 0,\mu\geq 0$

最終

$p^*=\sup f(x)\leq\inf_{\lambda,\mu}g(\lambda,\mu)=d^*$

超梯度與次梯度

(這個就是前面提到過的兩種幾何刻畫的第二種，即通過在該點処的切綫來刻畫。凸函數的切綫在函數圖像之上，凹函數的切綫在函數圖像之下。)

Thm1 凹函數在切線以下

假設函數 $f$ 在 $x$ 的一個凸開鄰域 $C\subset\mathbb{R}^{n}$ 上是凹的，並且在 $x$ 點可微，則對於 $C$ 中的任一 $y$ ，都有

$f(x)+f^{\prime}(x)(y-x)\geq f(y)$

證明：任取 $y\in C$ ，根據 $f$ 在 $C$ 上為凹函數，則對於任一 $\lambda\in\left[0,1\right]$ 有

$f(x+\lambda (y-x))=f((1-\lambda)x+\lambda y)\geq (1-\lambda)f(x)+\lambda f(y)=f(x)+\lambda(f(y)-f(x))$

特別地，選取 $\lambda>0$ 並通除

$\frac{f(x+\lambda(y-x))-f(x)}{\lambda}\geq f(y)-f(x)$

取 $\lambda>0$ 趨嚮於 $0$ 的單側極限，並根據 $f$ 在 $x$ 處可微，則有

$f^{\prime}(x)(y-x)\geq f(y)-f(x)$

即

$f(x)+f^{\prime}(x)(y-x)\geq f(y)$

意即，在 $x$ 處，凹函數 $f(x)$ 與仿射函數 $f(x)+f^{\prime}(x)(y-x)$ （此時 $y=x$ ，即 $f(x)=f(x)+f^{\prime}(x)(x-x)$ ）相切，並在任何點 $y$ 處，凹函數 $f(x)$ 都在仿射函數 $f(x)+f^{\prime}(x)(y-x)$ 的下方。

Thm2

若 $f$ 在凸開集 $U\subset\mathbb{R}^{n}$ 上可微，並假設對於任何 $x$ 和 $y$ 屬於 $C$ ，都有 $f(x)+f^{\prime}(x)(y-x)\geq f(y)$ ，那麼 $f$ 是凹函數。

證明：對於任何 $x\in C$ ，定義仿射函數 $h_{x}$ 為 $h_{x}=f(x)+f^{\prime}(x)(y-x)\geq f(y)$ 。由於仿射函數（即不嚴謹的經濟學語言中的“線性函數”）是凹函數，並且根據假設，對於任何 $x\in C$ 都有 $f\leq h_{x}$ ，並且 $f(x)=h_{x}(x)$ ，所以有

$f=\inf_{x\in C}h_{x}$

而一族凹函數的下確界仍然是凹函數，因此 $f$ 是凹函數。

解讀：這意味著，我們可以用逐點取值不低於某一凹函數 $f$ 的一族仿射函數 $h_{x}$ 來逼近（在下確界意義上）原函數 $f$ 。 $f\leq h_{x}$ 並且 $f(x)=h_{x}(x)$ 的這種關係，稱之為仿射函數 $h_{x}$ majorize函數 $f$ 。註意，majorization是一個全局的性質，仿射函數 $h_{x}$ 在處處都不低於函數 $f$ ，並在 $x$ 處相切。

Def3

若一般地，不假設 $f$ 的可微性，給定 $f$ 是凸集 $C\in\mathbb{R}^{n}$ 上的凹函數，那麼我們稱一個嚮量 $p\in\mathbb{R}^{n}$ 是 $f$ 在點 $x$ 處的超梯度，若嚮量 $p$ 滿足如下超梯度不等式：

$f(x)+p(y-x)\geq f(y)$

對比Th1，可知超梯度 $p$ 是 $f^{\prime}(x)$ 的推廣。並且對於給定的凹函數 $f$ 和點 $x\in C$ ，有可能存在多個嚮量 $p_{i}$ 都滿足超梯度不等式，即超梯度可以是個多點集 $\partial f(x)=\lbrace p_{i}\rbrace _{i}$ 。函數在某點處超梯度的存在稱為該函數在該點超可微。

將 $f(x)+p(y-x)$ 寫為 $f(x)+<p,y>-<p,x>$ ，進而 $<p,y>-[<p,x>-f(x)]$ 中括號中的部分在給定點 $x$ 時為常數，這意味著，當給定 $x$ 從而 $f(x)$ 時， $p$ 是仿射函數 $f(x)+p(y-x)$ 的斜率，這一斜率使得 $f(x)+p(y-x)$ 是與 $f(y)$ 在 $x$ 處相切、並且處處不低於 $f$ 的那些仿射函數中最低的一個。而截距項 $-[<p,x>-f(x)]$ 便是使得 $f(y)\leq <p,y>+\alpha$ 對於任何 $y$ 都成立的最小的 $\alpha$ 。

Lemma4

Thm5 超可微性

凹函數在定義域的內點處都是超可微的。

證明：取定義域凸集 $C$ ，並假設函數 $f$ 在 $C$ 上為凹函數，並且某點 $x$ 屬於 $C$ 的內點。則 $f$ 的嚴格下圖 $S$ 為

$S=\lbrace (y,\alpha)\in C\times\mathbb{R}|\alpha<f(y)\rbrace$

凹函數的下圖（及嚴格下圖）為凸集，即 $S$ 為凸集。由於 $(x,f(x))$ 不屬於 $S$ （被“嚴格”掉了），則根據分離超平麵定理，存在非 $0$ 的法嚮量 $(p,\lambda)\in\mathbb{R}^{n}\times\mathbb{R}$ 將 $(x,f(x))$ 與集合 $S$ 分離開：

$px+\lambda f(x)\geq py+\lambda\alpha$

對於任何的 $(y,\alpha)\in S$ ，即 $y\in C$ 且 $\alpha < f(y)$ 。

我們可以進一步限製法嚮量元素的符號：既然任何 $\alpha < f(y)$ 都需要滿足這一不等式，那麼令 $\alpha$ 為足夠大的負數，如果 $\lambda$ 也是負數的話，不等式右端將會變得足夠大以至於不等式不能滿足，因此 $lamda\geq 0$ 。（但無法取 $\alpha$ 為足夠大的正數，因為這樣將無法滿足 $\alpha$ 的選取條件，即 $\alpha < f(y)$ ）；

進一步地 $lambda$ 也不能取 $0$ 。如果 $\lambda=0$ 的話，那麼不等式變為

$px\geq py$

但由於 $x$ 是 $C$ 的內點， $y=x\pm\epsilon z$ 其中 $\epsilon>0$ 以及任一 $z\in\mathbb{R}^{n}$ 依然滿足 $y\in C$ ，從而

$px\geq px\pm p\epsilon z$

進而 $pz=0$ ，但由於 $z$ 是任取的，隻能 $p=0$ 。但這意味著“法嚮量” $(p,\lambda)$ 是零嚮量，矛盾。

因此 $\lambda>0$ 。將不等式通除 $\lambda$

$f(x)+(-\frac{p}{\lambda})(y-x)\geq\alpha$

令 $\alpha$ 從下方（左側）趨近於 $f(x)$

$f(x)+(-\frac{p}{\lambda})(y-x)\geq f(y)$

則超梯度不等式由超梯度 $-\frac{p}{\lambda}$ 滿足，即凹函數 $f$ 在點 $x$ 處是超可微的。而點 $x$ 是 $f$ 的定義域內任一內點，因此凹函數 $f$ 在其內點是超可微的。

註釋：在現代的凸分析中，凹/凸函數的定義域一般不是某個任一凸集 $C$ ，而是一個特定的凸集 $\mathbb{R}^{n}$ 。並通過賦予 $\mathbb{R}^{n}\setminus C$ 中的點 $\infty$ （凸函數）或 $-\infty$ （凹函數）的方式，將定義域拓展到全空間 $\mathbb{R}^{n}$ 上去（並相應地將值域從實數域變為拓展後的實數域）。因此，若 $C$ 的維度（定義為其仿射包 $aff(C)$ 的維度）低於 $n$ ，則定理中的“內點”在現代凸分析中，是指“相對內點”，即相對於其仿射包 $aff(C)$ 而言的內點。

Def6 單側方嚮導數

定義函數 $f$ 在點 $x$ 處沿方嚮 $v$ 的單側方嚮導數為

$f^{\prime}(x;v)=\lim_{\lambda>0,\lambda\rightarrow 0}\frac{f(x+\lambda v)-f(x)}{\lambda}$

允許單側方嚮導數取值 $\pm\infty$

Lemma7

Lemma8 超梯度與單側方嚮導數

令 $f$ 為凸集 $C$ 上的凹函數，則

$p\in\partial f(x)$ 當且僅當 $pv\geq f^{\prime}(x;v)$ 對於任何使得 $x+v\in C$ 的 $v\in\mathbb{R}$ 。

證明：

取 $x+v\in C$ ，則對於 $\lambda\in\left[0,1\right]$ 都有 $x+\lambda v\in C$ 。因此，如果 $p\in\partial f(x)$ ，則根據超梯度不等式

$\begin{align} f(x)+p(\lambda v)&\geq f(x+\lambda v)\\ p(\lambda v)&\geq f(x+\lambda v)-f(x)\\ pv&\geq\frac{f(x+\lambda v)-f(x)}{\lambda}\\ pv&\geq f^{\prime}(x;v) \end{align}$

反之，如果 $p\notin\partial f(x)$ ，則超梯度不等式對於 $p$ 必然在至少一個滿足 $x+v\in C$ 的 $v$ 處不成立，即

$f(x)+pv<f(x+v)$

但由於 $f$ 是凹函數，選定 $\lambda\in(0,1]$ 有

$\begin{align} f(x+\lambda v)&=f((1-\lambda)x+\lambda(x+v))\geq (1-\lambda)f(x)+\lambda f(x+v)\\ f(x+\lambda v)&\geq f(x)+\lambda[f(x+v)-f(x)]\\ f(x+\lambda v)-f(x)&\geq\lambda[f(x+v)-f(x)]\\ \frac{f(x+\lambda v)-f(x)}{\lambda}&\geq f(x+v)-f(x)\\ \frac{f(x+\lambda v)-f(x)}{\lambda}&\geq f(x+v)-f(x)>pv \end{align}$

意即 $f^{\prime}(x;v)>pv$ 。

Thm9 凹函數在某點處可微當且僅當該函數在該點處的超梯度為單點集。

即

Slater’s Condition

例子：效用最優化與成本最小化

應用：信息設計

一個發送者，一個接收者。有限的世界狀態空間 $\Omega$ ，發送者和接收者對世界狀態具有共同先驗 $\mu_{0}\in int(\Delta\Omega)$ 。

發送者的vNM效用函數 $v:A\times\Omega\rightarrow\mathbb{R}$ ，

接收者的vNM效用函數 $u:A\times\Omega\rightarrow\mathbb{R}$ 。

發送者承諾(commit)一個信息結構 $(S,q)$ ，其中 $S$ 為信號實現的可能集，為有限集； $q:\Omega\rightarrow\Delta(S)$ 為條件機率。

接收者根據觀察到的信號實現 $s\in S$ 和先驗信念 $p$ 進行貝葉斯更新，並採取行動 $a\in A$ ，其中 $A$ 為接收者的有限行動空間。

接收者的行動同時影響發送者和接收者的效用。

接收者信念更新的形式為，對於任何 $\omega\in\Omega$

$\mu_{s}(\omega)=\frac{q(s|\omega)\mu_{0}(\omega)}{\sum_{\omega^{\prime}\in\Omega}q(s|\omega^{\prime})\mu_{0}(\omega^{\prime})}$

根據這一後驗信念 $\mu_{s}$ ，接收者採取 $\hat{a}(s)\in A$ 來求解如下問題

$\max_{a\in A}\sum_{s\in S}u(a,\omega)\mu_{s}(\omega)$

預期到接收者的行為，發送者選擇並承諾信息結構 $(S,q)$ 來求解如下問題

$\max_{(S,q)}\sum_{\omega\in\Omega}\sum_{s\in S}v(\hat{a}(s),\omega)q(s|\omega)\mu_{0}(\omega)$

但發送者的問題很不直觀，需要做如下簡化。我們在接收者問題中看到，當信息結構給定時，每個信號實現 $s$ 對應於一個後驗信念 $\mu_{s}$ ，從而每個信息結構 $(S,q)$ 根據不同的信號實現 $s\in S$ 可以轉化為在一係列後驗信念 $\lbrace \mu_{s}\rbrace _{s\in S}$ 上的分佈 $\tau\in\Delta\Delta(\Omega)$ ， $\tau(\mu_{s})=\sum_{\omega\in\Omega}q(s|\omega)\mu_{o}(\omega)$ 。

在後驗信念的這個分佈上，貝葉斯可行總是成立的

$\begin{aligned} \sum_{s\in S}\mu_{s}(\omega)\sum_{\omega^{\prime}\in\Omega}q(s|\omega^{\prime})\mu_{0}(\omega^{\prime})\\ =\sum_{s\in S}\frac{q(s|\omega)\mu_{0}(\omega)}{\sum_{\omega^{\prime\prime}\in\Omega}q(s|\omega^{\prime\prime})\mu_{0}(\omega^{\prime\prime})}\sum_{\omega^{\prime}\in\Omega}q(s|\omega^{\prime})\mu_{0}(\omega^{\prime})\\ =\sum_{s\in S}q(s|\omega)\mu_{0}(\omega)=1\cdot\mu_{0}(\omega) \end{aligned}$

即後驗信念的期望等於先驗信念。

實際上，信號結構 $(S,q)$ 與後驗信念上的分佈 $\tau$ 之間是雙射(bijection)，即所有可能的信息結構可以被滿足貝葉斯可行的後驗信念上的分佈來表示

$\lbrace \tau\in\Delta\Delta(\Omega)|\int_{\Delta(\Omega)}u\tau(d\mu)=\mu_{0}\rbrace$

給定任何一個後驗信念 $\mu\in supp(\tau)$ ，接收者採取行動 $\hat{a}(\mu)$ ，這樣就把接收者的行動規則從信號實現的函數變成了後驗信念的函數。

將 $\hat{a}(\mu)$ 代入發送者的效用函數，就可以把發送者的效用函數表示為接收者後驗信念的值函數

$\hat{v}(\mu)=\sum_{\omega\in\Omega}v(\hat{a}(\mu),\omega)\mu(\omega)$

因此發送者的問題可以進一步表示為

$\begin{aligned} \sup_{\tau\in\Delta\Delta(\Omega)}\int_{\Delta(\Omega)}\hat{v}(\mu)\tau(d\mu)\\ s.t.\\ \int_{\Delta(\Omega)}\mu\tau(d\mu)=\mu_{0} \end{aligned}$

進一步定義函數 $\hat{v}(\mu)$ 的下圖的凸包

$V=co(\lbrace (v,\mu)\in\mathbb{R}\times\Delta(\Omega)|v\leq\hat{v}(\mu)\rbrace )$

對於接收者的任意後驗信念 $\mu\in\Delta(\Omega)$ ，定義發送者效用值函數的凹化函數，

$V(\mu)=\sup\lbrace v\in\mathbb{R}|(v,\mu)\in V\rbrace$

命題：發送者的問題可以進一步簡化為

$\begin{aligned} V(\mu)=\sup_{\tau_{\Delta\Delta(\Omega)}}\int_{\Delta(\Omega)}\hat{v}(\mu)\tau(d\mu)\\ s.t.\\ \int_{\Delta(\Omega)}\mu\tau(d\mu)=\mu_{0} \end{aligned}$

證明：我們先將發送者最終問題的值函數表示為 $W(\mu)$ ，並表明 $W(\mu)=V(\mu)$ 。

考慮發送者問題的對偶問題

$D(\lambda)=\sup_{\tau\in\Delta\Delta(\Omega)}\int_{\Delta(\Omega)}(\hat{v}(\mu)-\lambda^{T}\mu)\tau(d\mu)$

根據弱對偶定理

$D^*=\inf_{\lambda\in\mathbb{R}^{|\Omega|}}D(\lambda)\geq W(\mu_{0})$

而 $\hat{v}$ 的下圖的凸包 $V$ 根據設定就是個內部非空 $int(V)\neq\emptyset$ 的凸集。

並且

$V(\mu_{0})=\sup\lbrace v\in\mathbb{R}|(v,\mu_{0})\in V\rbrace$

同時， $V(\mu_{0})<\hat{v}(\mu_{0})$ 不成立，所以 $(\mu_{0},V(\mu_{0}))\in V\setminus int(V)$ 。

根據支撐超平麵定理，存在一個嚮量（比世界狀態空間的維度高一維） $(u,w)\in\mathbb{R}\times\mathbb{R}^{|\Omega|}$ 滿足 $u>0$ 使得

$uV(\mu_{0})+w^{T}\mu_{0}\geq u\hat{v}(\mu)+w^{T}\mu$

其中 $(v,\mu)\in V$ 。即使用支撐超平麵定理，表明 $(\mu_{0},V(\mu_{0}))\in V\setminus int(V)$ 與 $int(V)$ 在 $(\mu_{0},V(\mu_{0}))$ 處存在支撐超平麵 $(u,w)$ 。

(1) 如果 $V(\mu_{0})=\hat{v}(\mu_{0})$ ，那麼對於任何 $\mu\in\Delta(\Omega)$ ，代入

$u\hat{v}(\mu_{0})+w^{T}\mu_{0}\geq u\hat{v}(\mu)+w^{T}\mu$

得到

$\hat{v}(\mu_{0})+\frac{1}{u}w^{T}\mu_{0}\geq \hat{v}(\mu)+\frac{1}{u}w^{T}\mu$

接下來我們表明 $\tau=\delta_{\lbrace \mu_{0}\rbrace }$ (即不揭露任何信息，唯一地使接收者的後驗信念確定為先驗信念 $\mu_{0}$ )

在這種情況下( $V(\mu_{0})=\hat{v}(\mu_{0})$ )

對於發送者為唯一最優的

(即 $W(\mu_{0})=\hat{v}(\mu_{0})=V(\mu_{0})$ )。

根據

$D(\lambda)=\sup_{\tau\in\Delta\Delta(\Omega)}\int_{\Delta(\Omega)}(\hat{v}(\mu)-\lambda^{T}\mu)\tau(d\mu)$

可知，如果能夠找到某個 $\lambda$ 使得

$\delta_{\lbrace \mu_{0}\rbrace }\in\arg\max_{\tau\in\Delta\Delta(\Omega)}\int_{\Delta(\Omega)}(\hat{v}(\mu)-\lambda^{T}\mu)\tau(d\mu)$

就可以了。但這就意味著找到了某個 $\tau$ 使得原問題的目標函數取得了 $D(\lambda)$ 這個期望效用，那麼原問題目標函數的上確界值函數 $W(\mu_{0})$ 就至少為 $D(\lambda)$ ，即

$W(\mu_{0})\geq D(\lambda)$

但根據定義有

$D^*=\inf_{\lambda\in\mathbb{R}^{|\Omega|}}D(\lambda)\geq W(\mu_{0})$

因此

$W(\mu_{0})\geq D(\lambda)\geq D^*\geq W(\mu_{0})$

即

$W(\mu_{0})=D(\lambda)$

因此 $\delta_{\lbrace \mu_{0}\rbrace }$ 確實解了原始問題。下麵我們考慮如何找到這個 $\lambda$

令 $\lambda=-\frac{1}{u}w$

則

$\hat{v}(\mu_{0})+\frac{1}{u}w^{T}\mu_{0}\geq \hat{v}(\mu)+\frac{1}{u}w^{T}\mu$

變為

$\hat{v}(\mu_{0})+\lambda^{T}\mu_{0}\geq \hat{v}(\mu)+\lambda^{T}\mu$

兩邊同時積分，並代入 $\tau=\delta_{\lbrace \mu_{0}\rbrace }$ ，有

$\int_{\Delta(\Omega)}(\hat{v}(\mu_{0})-\lambda^{T}\mu_{0})d\mu_{0}\geq\int_{\Delta(\Omega)}(\hat{v}(\mu)-\lambda^{T}\mu)\tau^{\prime}(d\mu)$

但這就意味著當 $\lambda=-\frac{1}{u}w$ 時， $\tau=\delta_{\lbrace \mu_{0}\rbrace }$ 比任何其他的 $\tau^{\prime}\in\Delta\Delta(\Omega)$ 對於發送者來說都能帶來更高的效用。因此，當 $V(\mu_{0})=\hat{v}(\mu_{0})$ 時，完全不披露任何信息，使得後驗信念與先驗信念完全重合是發送者的最優策略。

(2) 如果 $V(\mu_{0})>\hat{v}(\mu_{0})$ ，那麼根據Caratheodory定理，存在$\lbrace \hat{v}(\mu^{j}),\mu^{j}\rbrace _{j=1}^{|\Omega|+2}\subset\lbrace (v,\mu)\in\mathbb{R}\times\Delta(\Omega)|v\leq\hat{v}(\mu)\rbrace $和$ \alpha\in\Delta(\lbrace 1,…,|\Omega|+2\rbrace )$使得

$\sum_{j=1}^{|\Omega|+2}\alpha_{j}(\mu^{j},\hat{v}(\mu^{j}))=(\mu_{0},V(\mu_{0}))$

結合

$uV(\mu_{0})+w^{T}\mu_{0}\geq u\hat{v}(\mu)+w^{T}\mu$

可知

$V(\mu_{0})=\hat{v}(\mu^{j}),\forall j$

以及

$uV(\mu_{0})+w^{T}\mu_{0}=u\hat{v}(\mu^{j})+w^{T}\mu^{j},\forall j$

從而

$u\hat{v}(\mu^{j})+w^{T}\mu^{j}\geq u\hat{v}(\mu)+w^{T}\mu,\forall j,\forall \mu\in\Delta\Delta(\Omega)$

取 $\lambda=-\frac{1}{u}w$ ，得

$\hat{v}(\mu^{j})-\lambda^{T}\mu^{j}\geq \hat{v}(\mu)-\lambda^{T}\mu,\forall j,\forall \mu\in\Delta\Delta(\Omega)$

由於 $\lbrace \alpha_{j}\rbrace _{j=1}^{|\Omega|+2}$ 是凸組合的係數，因此可以作為 $\tau$ 分配給 $\mu^{j}$ 的權重，即

$\tau(\mu^{j})=\alpha_{j},\forall j\in\lbrace 1,...,|\Omega|+2\rbrace$

因此

$\int_{\Delta(\Omega)}(\hat{v}(\mu^{j})-\lambda^{T}\mu^{j})\tau(d\mu^{j})\geq\int_{\Delta(\Omega)}(\hat{v}(\mu)-\lambda^{T}\mu)\tau^{\prime}(d\mu),\forall\tau^{\prime}\in\Delta\Delta(\Omega)$

從而 $\lbrace \tau(\mu^{j})|\tau(\mu^{j})=\alpha_{j},\text{such that}\sum_{j=1}^{|\Omega|+2}\alpha_{j}(\mu^{j},\hat{v}(\mu^{j}))=(\mu_{0},V(\mu_{0}))\rbrace _{j=1}^{|\Omega|+2}$ 確實解了原問題。因此 $W(\mu_{0})=V(\mu_{0})$ 。

凸錐

凸錐是個凸集 $S$ ，需要滿足：其元素的任意縮放(無論是以 $\lambda\in[0,1]$ 還是 $\lambda\geq 1$ 的比率)仍然要在這個凸集内

$\lambda x\in S,\forall \lambda\geq 0,\forall x\in S$

正極錐

给定一个錐 $C=\lbrace x\rbrace$ ，把那些對於錐中每個元素(向量) $x\in C$ 都滿足 $y^{T}x\geq 0$ 的 $y$ 們放在一起，就構成了它的正極錐 $C^{+}$

$C^{+}=\lbrace y:y^{T}x\geq 0,\forall x\in C\rbrace$

$y^{T}x\geq 0$ 的條件意味著 $y$ 跟 $C$ 中每個元素的夾角都要小於或者等於 90 度。

負極錐(對偶錐)

$C^{-}=\lbrace y:y^{T}x\leq 0,\forall x\in C\rbrace$

$y^{T}x\leq 0$ 的條件意味著 $y$ 跟 $C$ 中每個元素的夾角都要大於或者等於 90 度。

舉例 1

錐 $\lbrace b \rbrace$ 為一條射綫，那麽其對偶錐為 $\lbrace b \rbrace^{\star}=\lbrace y:y^{T}b\leq 0 \rbrace$ 即半空間。

舉例 2

对于任何 $y\in\mathbb{R}^{n}$ 来说， $y^{T}_{1\times n}0_{n\times 1}\leq 0$ 恆(以等式)成立，因此退化的錐 $\lbrace 0\rbrace$ 的對偶錐 $\lbrace 0\rbrace^{\star}=\mathbb{R}^{n}$ 為全空間。

相應地，向量 $0_{n\times 1}$ 是唯一能夠滿足對於任何 $x\in\mathbb{R}^{n}$ 都有 $0^{T}_{1\times n}x_{n\times 1}\leq 0$ (以等式成立)的向量，從而 $\lbrace \mathbb{R}^{n}\rbrace ^{\star}=\lbrace 0\rbrace$

函數的凸化與凹化

函數的凸化或凹化即是函數上圖或下圖的凸集化。函數的凸化，是函數上圖的凸集化；函數的凹化，是函數下圖的凸集化。二者都是凸集化，并沒有“凹集”這種東西。

借助於單位形， $\Delta_{k}$

$\Delta_{k}:=\lbrace (\alpha_{1},...,\alpha_{k})\in\mathbb{R}^{k}:\sum_{j=1}^{k}\alpha_{j}=1,\alpha_{j}\geq 0,\forall j=1,...,k \rbrace$

Minorize by Affine Function

給定一個函數 $g:\mathbb{R}^{n}\rightarrow\mathbb{R}\cup\lbrace +\infty\rbrace$ ，并且要求其取值不可以恆爲 $+\infty$ 。如果對於某對 $(s,b)\in\mathbb{R}^{n}\times\mathbb{R}$ ，有

$g(x) \geq <s,x>-b,\forall x\in\mathbb{R}^{n}$

則稱仿射函數 $<s,x>-b$ minorize 了函數 $g$ 。

凸化定理

對於可以被某個 $(s,b)$ 所代表的仿射函數所 minorize 的、滿足前述要求的函數 $g$ 來説，可以定義如下三個函數 $f_{1},f_{2},f_{3}$ ，并且這三個函數在 $\mathbb{R}$ 上是等價的

$f_{1}(x):=\inf \lbrace r: (x,r)\in \text{co epi} g\rbrace$
$f_{2}(x):=\sup\lbrace h(x):h\in\text{Convex functions in }\mathbb{R}^{n},h\leq g \rbrace$
$f_{3}(x):=\inf\lbrace \sum_{j=1}^{k}\alpha_{j}g(x_{j}):k=1,2,...;x_{j}\in\text{dom}g,\sum_{j=1}^{k}\alpha_{j}x_{j}=x \rbrace$

這個 $\sum_{j=1}^{k}\alpha_{j}x_{j}=x$ 條件無論是在 minorization 還是 majorization 裏都是需要滿足的。這個條件在經濟學裏的運用，比如，後驗信念 $x_{j}$ 們的期望等於先驗信念 $x$ 。

反過來看，也可以視爲將先驗信念 $x$ 分解為 $k$ 個後驗信念 $x_{j},j=1,...,k$ ，其係數分別為 $\alpha_{j},j=1,...,k$ 。

證明

將那些 minorize 了 $g$ 的凸函數們(任何凸函數，不必是仿射函數)組成一個集合，記爲 $\Gamma$ 。

由於仿射函數本身也是凸函數，所以至少仿射函數可以 minorize 函數 $g$ ，所以 $\Gamma$ 不是空集。

$f_{1}(x)$ 是一個凸集 $\text{co epi}g$ 的下確界函數，因此 $f_{1}(x)$ 是一個凸函數。
接下來我們證明 $f_{2}\leq f_{1},\forall x$

對於任一 $h\in\Gamma$ ，考慮它的上圖 $\text{epi}h$ 。既然 $\text{epi}h$ 本身就是 $h$ 的上圖，那麽由其定義的下確界函數 $\mathscr{l}_{\text{epi}h}$ 就是 $h$ 本身。既然 $h\leq g$ ，那麽 $g$ 的上圖 $\text{epi}g$ 是包含在 $h$ 的上圖之内的，并且由於 $\text{epi}h$ 是個包含 $\text{epi}g$ 在内的凸集，因此 $\text{epi}h$ 也包含 $\text{co epi}g$ 在内，所以

$h=\mathscr{l}_{\text{epi}h}\leq\mathscr{l}_{\text{co epi}g}=f_{1}$

由於這個不等式是對任一 $h\in\text{Conv}\mathbb{R}^{n}$ 都成立的，那麽必然也對 $f_{2}(x):=\sup\lbrace h(x):h\in\text{Convex functions in }\mathbb{R}^{n},h\leq g \rbrace$ 成立。

接下來我們證明 $f_{3}\leq f_{2},\forall x$

我們采用的方式是表明 $f_{3}\in\Gamma$ 。我們表明 $f_{3}\leq g$ ：當 $k=1$ 時， $\inf\lbrace \sum_{j=1}^{k}\alpha_{j}g(x_{j}):k=1,2,...;x_{j}\in\text{dom}g,\sum_{j=1}^{k}x_{j}=x \rbrace \leq \alpha_{\alpha=1} g(x) \leq g(x)$ ，因此，如果 $f_{3}\in\text{Conv}\mathbb{R}^{n}$ ，那么 $f_{3}$ 就是一个 minorize 了 $g$ 的凸函數，所以 $f_{3}\in\Gamma$ ，那麽 $f_{3}$ 肯定也不會大於 $\Gamma$ 裏面的上確界，即 $f_{2}$ ，則有 $f_{3}\leq f_{2}$ 。那麽如何表明 $f_{3}$ 是個凸函數呢？

首先，由於存在某個 $(s,b)$ 來 minorize $g$ ，這意味著要對於每個 $x$ 都成立，即對於每個 $x$ 都有 $g(x)\geq <s,x>-b$ 。那麽既然對於每個 $x$ 都成立，也就當然有

$\sum_{j=1}^{k}\alpha_{j}g(x_{j})\geq \sum_{j=1}^{k}\alpha_{j}(<s,x_{j}>-b)=<s,x>-b$

即 $f_{3}$ 是被仿射函數 $<s,\cdot>-b$ 所 minorize 了的。

現在從 $f_{3}$ 的嚴格上圖裏選取兩個點 $(x,r)$ 和 $(x^{\prime},r^{\prime})$ ，即使得 $f_{3}(x)<r$ 和 $f_{3}(x^{\prime})<r^{\prime}$ 的 $(x,r)$ 和 $(x^{\prime}。根據 $f_{3}$ 的定義，這意味著存在某個 $(k,\lbrace \alpha_{j}\rbrace,\lbrace x_{j}\rbrace)$ 和 $(k^{\prime},\lbrace \alpha_{j}^{\prime}\rbrace,\lbrace x_{j}^{\prime}\rbrace)$ 使得

$\sum_{j=1}^{k}\alpha_{j}g(x_{j})<r$

和

$\sum_{j=1}^{k}\alpha_{j}^{\prime}g(x_{j}^{\prime})<r^{\prime}$

對於任何 $t\in(0,1)$ 來説，做二者的嚴格凸組合，有

$t\sum_{j=1}^{k}\alpha_{j}g(x_{j})+(1-t)\sum_{j=1}^{k}\alpha_{j}^{\prime}g(x_{j}^{\prime})<tr+(1-t)t^{\prime}$

注意

$t\sum_{j=1}^{k}\alpha_{j}x_{j}+(1-t)\sum_{j=1}^{k}\alpha_{j}^{\prime}x_{j}^{\prime}=tx+(1-t)x^{\prime}$

可以把左側視爲對 $tx+(1-t)x^{\prime}$ 凸分解為 $k+k^{\prime}$ 個元素。根據 $f_{3}$ 的定義，有

$f_{3}(tx+(1-t)x^{\prime})\leq t\sum_{j=1}^{k}\alpha_{j}x_{j}+(1-t)\sum_{j=1}^{k}\alpha_{j}^{\prime}x_{j}^{\prime}=tx+(1-t)x^{\prime}$

這就意味著 $f_{3}$ 的上圖是凸集，從而 $f_{3}$ 是個凸函數。

接下來我們證明 $f_{1}\leq f_{3}$ 。任選定義域内的一個點 $x\in\mathbb{R}^{n}$ ，以及 $x$ 的一個凸分解 $x=\sum_{j=1}^{k}\alpha_{j}x_{j}$ 。

根據定義， $(x_{j},g(x_{j}))\in\text{epi}g,\forall j=1,...,k$ ，那麽根據構造凸包的方法

$(x,\sum_{j=1}^{k}\alpha_{j}g(x_{j}))\in\text{co epi}g$

即

$f_{1}(x):=\inf \lbrace r: (x,r)\in \text{co epi} g\rbrace\leq \sum_{j=1}^{k}\alpha_{j}g(x_{j})$

由于這個凸分解是任意的，那麽對於凸分解中的下碻界 $f_{3}$ 也應該是成立的。 $\square$

$\text{epi}(\text{co}g)\neq\text{co}(\text{epi}g)$

需要截断下部分。

$\sum_{j=1}^{k}\alpha_{j}x_{j}=x$ 使得 $x$ 為邊界點，根據 Caratheodory 定理在邊界點的特殊情況， $k\leq n+1$ 。

參考文獻

[1] Vohra, R. V. (2004). Advanced mathematical economics. Routledge.
[2] Kamenica, E., & Gentzkow, M. (2011). Bayesian persuasion. American Economic Review, 101(6), 2590-2615.
[3] Kai Hao Yang’s Lecture Notes