Sequential Information Design

這篇文章提出了適用於將靜態目標以動態博弈實施的相關均衡概念:Coordinated Equilibrium。這篇文章是建立在 Salcedo (2017) 基礎上的拓展,Salcedo (2017) 研究了,在完備信息情形下,給定基本博弈,不論採取何種拓展形(例如哪個參與人先行動等),我們能對均衡結果做出何種穩健的預測,並且給定某個均衡結果,如何構建某個(未必唯一的)拓展形來實現這個均衡結果。在這篇SID中,Ely和Doval考察了,當信息結構和拓展形同時可變、並且信息結構與拓展形的變動有一緻性時,我們能對均衡結果做出何種穩健的預測,並且給定某個均衡結果,如果構建某個拓展形和與之一緻的信息結構來實現這個均衡結果。(根據 Myerson (1986) ,在不完備信息情形下,信息的傳遞應與博弈形式具有一緻性,例如從前知道的現在仍然知道、在整個博弈開始前的免洗信息傳遞不足以實現每一期都有新信息傳遞所能實現的結果從而策略式不足以分析多階段問題等等。)

在這篇文章的處理下,拓展式的設計是和信息結構的設計整合在一起的。如果不要求將拓展式的設計和信息結構整合在一起,那麼可以特設一個信息結構,並且其解讀要符合“一次就完”的限製性,比如目前已經有將信息設計整合進DSGE模型來研究財政政策和貨幣政策的文章,由於動態隨機一般均衡所要求的更多設定,以及信息設計問題的複雜性,尚未出現能將拓展式(哪怕隻是多階段式)的設計整合進動態隨機一般均衡框架的文章。

但目前這篇文章的處理也具有一定的限製性。在當前框架下,盡管博弈的進行過程是動態的,但從對目標的實施意義上來看,仍然是一個靜態的問題:有一個固定的目標,有一個盡管不確定但一旦揭曉就不會在博弈的動態進行過程中改變的世界狀態,博弈隻進行一次就結束。因此,對於那種要求將世界狀態設定為狀態變數、在每一期因行為人的行動而改變的問題是無法處理的,這也是難以將信息設計整合於總量經濟學框架的一個原因,對於這一問題,在 Information design in multi-stage games (2021) 一文中也有所論述,據稱在該文中可以處理世界狀態因參與人行為而改變的動態問題,但目前我還冇仔細研讀那篇論文,如果有必要的話後麵也會再記對那篇論文的閱讀筆記。

因此,這篇論文的“動態”隻體現在博弈展開過程上,也可稱為“固定狀態情形”。即,盡管世界狀態是不確定的,但並不會在博弈過程中改變。如果我們把這個“信息結構與博弈展開式”的結合視爲一個 (廣義) 機制,那麽這篇論文考察的是如何通過一個“動態機制”來實施給定的目標,卻并不是考察的動態問題。

基本設定

NN個參與人,每個參與人ii的有限行動集AiA_{i}。其效用ui(a,θ)u_{i}(a,\theta)既依賴於大家的行動組合a×iAia\in\times_{i}A_{i},也依賴於真實的世界狀態θ\thetaθΘ\theta\in\ThetaΘ\Theta為有限集。可以指定也可以不指定在Θ\Theta上的某個共同先驗ρ\rho

定義1. 計畫。一個計劃是一個樹,其中每個節點都屬於某個參與人ii,並以ii的某個行動aiAia_{i}\in A_{i}為標識。在屬於ii的每個節點處,對於其每個行動aiAia_{i}\in A_{i}都有且僅有一個枝杈,並且在樹上的每條路徑都隻通過對於ii的唯一節點。

解讀:這意味著在計劃中,每個參與人都會行動,並且僅會行動一次。相當於將每個參與人的行動拚接起來。雖然對於每個參與人每個可能的行動節點,都需要指定一個行動,但事實上實現的從初始節點貫通到某個終結節點的是唯一一條路徑。

將計劃pp放在一起組成集合PP。本文用計劃來代錶相機的行動建議組合,即,計劃的每個組成部分都是,告訴各個參與人,在每種需要該參與人行動的可能節點上,建議他採取哪個行動,但每個參與人都隻能觀察到這個計劃pp中與自己有關的部分,而無法觀察到整個pp

如果每個參與人都按照計劃的建議來行動,那麼這時候形成的從初始節點貫通到終結節點的路徑就稱為遵從路徑。

具體地,記[ai][a_{i}]為那些計劃們的集合,這些計劃的共同之處在於告訴了參與人ii在這個時候輪到他來行動,並且推薦了參與人ii採取行動aia_{i}。參與人ii隻能知道這個建議來自某個p[ai]p\in[a_{i}],但無法確定是哪個pp


動態博弈的拓展式錶達是更具有一般性的,其中有一類較有限製性的是多階段博弈:有明確的時間安排,並且通常在每一步都可以觀察到上一步別人都做了什麼。多階段博弈比更具一般性的拓展式博弈更適合宏觀建模。


協調均衡

定義2. 協調均衡。在世界狀態與計劃集合上一個的聯合分佈πΔ(Θ×P)\pi\in\Delta(\Theta\times P),如果對於每個參與人ii及其可能行動ai,biAia_{i},b_{i}\in A_{i}來說,如下遵從約束得到滿足,那麼這個π\pi就是一個協調均衡:

θΘ,p[ai]π(θ,p)[ui(ai,p,θ)ui(bi,p,θ)]0\sum_{\theta\in\Theta,p\in[a_{i}]}\pi(\theta,p)[u_{i}(a_{i},p,\theta)-u_{i}(b_{i},p,\theta)]\geq 0

其中ui(ai,p,θ)u_{i}(a_{i},p,\theta)錶示各參與人接收到了pp中對應於他自己的那部分建議aia_{i},並且真實狀態為θ\theta,而參與人ii按照計劃pp來行動時的事後效用;

那麼ui(bi,p,θ)u_{i}(b_{i},p,\theta)錶示各參與人接收到了pp中對應於他自己的那部分建議aia_{i},並且真實狀態為θ\theta,而參與人ii採取行動biAib_{i}\in A_{i}時的事後效用;

二者之差,並以聯合機率π(θ,p)\pi(\theta,p)進行加總,所得到的便是期望效用之差,因此這個條件錶示遵照建議能夠得到最大的期望效用(盡管並不一定唯一)。

當存在某個共同先驗(但不必如此)ρΔ(Θ)\rho\in\Delta(\Theta)時,如果p[ai]π(θ,p)=ρ(θ)\sum_{p\in[a_{i}]}\pi(\theta,p)=\rho(\theta),那麼就稱這個π\pi是與ρ\rho相一緻的。

給定世界狀態Θ\Theta與聯合分佈πΔ(Θ,p)\pi\in\Delta(\Theta,p)之間的對應關係,給定某個計劃(建議組合)pp,如果對於每個參與人來說,按照pp中對應於他的部分來行動滿足其遵從約束,那麼這時pp會引緻一個在世界狀態與行動組合上的聯合分佈,我們稱這個αΔ(Θ×A)\alpha\in\Delta(\Theta\times A)為一個結果。如果使用的聯合分佈π\pi是一個協調均衡,那麼這樣得到的α\alpha就是一個協調均衡結果。

給定一個基本博弈G=(N,{Ai}i,Θ,{ui}i)G=(N,\{A_{i}\}_{i},\Theta,\{u_{i}\}_{i})(或者G=(N,{Ai}i,Θ,{ui}i,ρ)G=(N,\{A_{i}\}_{i},\Theta,\{u_{i}\}_{i},\rho)),當我們將計劃的展開做為這個基本博弈的拓展式框架,並且附上某個π\pi以及根據pp而生成的信息集(參與人ii隻能知道這個建議來自某個p[ai]p\in[a_{i}]),那麼這時得到的這個(依賴於特定π\pi的)拓展式博弈可以記為Γ(π)\Gamma(\pi),其時間線為:設計者承諾某個PPπ\pi,自然根據某個π\pi生成(θ,p)(\theta,p),然後博弈按照pp進行。給定某個特定的拓展式博弈Γ(π)\Gamma(\pi),每個參與人的遵從策略就是,在由pp生成的信息集上,按照建議組合pp中對應於他的那部分建議aia_{i}來行動。如果π\pi是基本博弈的一個協調均衡,那麼每個參與人都採用遵從策略就是其相應的拓展式博弈Γ(π)\Gamma(\pi)上的一個貝葉斯納什均衡。

π\pi變動時,我們就得到了基本博弈GG的標準拓展形。

定理1. 如果π\pi是一個協調均衡,且其協調均衡結果為α\alpha,那麼在對應於這個協調均衡的拓展式博弈Γ(π)\Gamma(\pi)上,每個參與人採取遵從策略就構成了一個貝葉斯納什均衡,並且引緻的結果就是α\alpha

自存的協調均衡

定義3. 考慮一個具有完美回憶的有限動態拓展式博弈。如果對於每個參與人 ii 來說,給定 σi\sigma_{-i} 那些能夠到達的信息集在 σ\sigma 下都確實到達了,那麼這個 σ\sigma 就被稱為一個自存的協調均衡。

協調均衡與經典解概念

這裏考慮兩種經典解概念:序貫均衡和完美貝葉斯均衡。

作為序貫均衡的自存協調均衡

命題1. 每個自存的貝葉斯納什均衡都是一個序貫均衡策略組合。

解讀:由於序貫均衡是信念和策略組合構成的 assessment ,但貝葉斯納什均衡隻有策略組合,因此隻能判斷貝葉斯納什均衡與序貫均衡中的策略組合那一部分是否相同。這個命題錶示,自存的貝葉斯納什均衡是序貫均衡的精煉。

給定策略組合σ\sigma,對於信息集hh,在所有參與人均按照σ\sigma來行動時,如果信息集hh中有某個節點會以正機率到達,便稱這個信息集hh在策略組合σ\sigma被達到,或在行動路徑上。給定其他人的策略σi\sigma_{-i},如果某個參與人ii,通過其自己的某個行動σi\sigma^{\prime}_{i},所形成的策略組合σ=(σi,σi)\sigma^{\prime}=(\sigma^{\prime}_{i},\sigma_{-i})使得某個信息集hh^{\prime}σ\sigma^{\prime}下被達到,那麼便稱這個信息集hh^{\prime}在原先的σ\sigma下就是可達的,並且當σi=σi\sigma_{i}=\sigma^{\prime}_{i}時就確實被達到了。

對於每個參與人ii的每個ai Aia_{i}\ A_{i},如果存在任何一個協調均衡,使得協調均衡結果αΔ(Θ×A)\alpha\in\Delta(\Theta\times A)賦予aia_{i}正的機率,那麼便把這個aia_{i}放到Ci1C_{i}^{1}裏,但Ci1C_{i}^{1}中的元素們不必都是在同一個協調均衡下以正機率出現,隻要各自可以找到某個協調均衡就可以。

當對於每個ii都進行過這一輪剔除後,將{Ci1}i\{C_{i}^{1}\}_{i}們作為各個參與人的新行動集。然後構造Ci2C_{i}^{2},為那些可以被某個協調均衡以正機率實現的行動aiCi1a_{i}\in C_{i}^{1}所組成,並且記PC1P^{C^{1}}為隻採用C1=×iCi1C^{1}=\times_{i}C_{i}^{1}的計劃。繼續重複這個過程,直到得到最後無法再剔除的Ci=CiC_{i}^{\infty}=C_{i},並記C=×iCiC=\times_{i}C_{i},及其隻使用CC中元素的計劃們構成的集合PCP^{C}

定義4. 如果一個協調均衡對PCP^{C}中的計劃賦予機率1,那麼這個協調均衡就是自存的。

定理2. 對於任何一個自存的協調均衡結果 α\alpha
和任一 ϵ>0\epsilon>0 ,都存在一個經典拓展式,使得該經典拓展式的貝葉斯納什均衡所帶來的結果,與 α\alpha 可以任意逼近,即距離小於 ϵ\epsilon

證明:選定任一自存的協調均衡 π\pi 及其結果 α\alpha。對於每個參與人 ii 和行動 aiCia_{i}\in C_{i} ,都存在一個自存的協調均衡,記為 πai\pi_{a_{i}},它所引緻的結果賦正機率以 aia_{i}

作為完美貝葉斯均衡的協調均衡

定義5. 當可能時均滿足貝葉斯法則

對於一個給定的評估(β,υ)(\beta,\upsilon),如果存在一個條件機率係統μ\mu,使得對於每個信息集hih_{i}及其節點yy,都滿足

  1. υ(yhi)=μ(yhi)\upsilon(y|h_{i})=\mu(y|h_{i})

  2. βΣ(y)=μ(y),μ(yhi)]0\beta^{\Sigma}(y)=\mu(\cdot|y),\forall\mu(y|h_{i})]0

即,這個評估中關於信念的部分υ\upsilon與條件機率係統相同;對於具體的某個σy\sigma\in y(即通過策略組合σ\sigma能到達y節點),其條件機率與行為策略組合相同。

定義6. 序貫理性

一個評估(β,υ)(\beta,\upsilon),如果對於所有參與人ii及其信息集hih_{i},以及任一其他單方麵偏離βi\beta^{\prime}_{i}來說,都滿足

yhiυ(yhi)[Υ(βy)Υ(βi,βiy)]0\sum_{y\in h_{i}}\upsilon(y|h_{i})[\Upsilon(\beta|y)-\Upsilon(\beta^{\prime}_{i},\beta_{-i}|y)]\geq 0

那麼便稱這個評估是序貫理性的。

定義7. 完美貝葉斯均衡

一個評估,如果是序貫理性的,並且當可能時均滿足貝葉斯法則,那麼這個評估便是一個完美貝葉斯均衡。

定義8. 偏離協調均衡

任給一個計劃pp,任給一個節點xxxx不必在計劃pp的展開上(可能是多次偏離後到達的),但從xx開始往後,都按pp來行動,那麼q=(p,x)q=(p,x)就是一個偏離計劃。將所有偏離計劃的集合記為QQ。任給一族行動子集B=(B1,...,BN)B=(B_{1},...,B_{N}),考慮那些在行動子集BB以外的行動們,如aiBia_{i}\notin B_{i}對於每個參與人ii,那些給參與人ii推薦aia_{i}的偏離計劃如q[ai]q\in [a_{i}],一個在世界狀態與偏離計劃集合上的聯合分佈πΔ(Θ×Q)\pi\in\Delta(\Theta\times Q),如果對於任何biAib_{i}\in A_{i},都滿足下述遵從約束,則稱這個π\pi為一個偏離協調均衡。

引入偏離是為了處理在非均衡路徑,或者在給定策略組合下應賦予0機率節點後的路徑上的最優選擇問題。非均衡路徑上也應採取最優選擇,是子博弈完美均衡的要求;將其拓展到不完備信息情況下,就是在那些給定策略組合下應賦予0機率的節點後也應採取最優選擇。因此,為了探討完美貝葉斯均衡的概念, 需要對這種情況進行分析。(序貫均衡與此稍有不同,序貫均衡也是子博弈完美的,但其對“結構一緻性”的設定使得收斂序列中不存在機率為0的節點,每個節點都以正機率出現)

θΘ,q[ai]π(θ,q)[ui(ai,q,θ)ui(bi,q,θ)]0\sum_{\theta\in\Theta,q\in [a_{i}]}\pi(\theta,q)[u_{i}(a_{i},q,\theta)-u_{i}(b_{i},q,\theta)]\geq 0

逆關係

定義9. 可行

給定一個基本博弈。一個擁有完美回憶的有限拓展形被稱為可行的,如果它滿足

定理4. 給定一個基本博弈及其某個可行拓展形Γ\Gamma

  1. 如果Γ\Gamma擁有一個結果為α\alpha的貝葉斯納什均衡,那麼α\alpha也可以被某個協調均衡實現。
  2. 如果Γ\Gamma擁有一個結果為α\alpha的自存均衡,那麼α\alpha也可以被某個自存協調均衡所實現。
  3. 如果Γ\Gamma擁有一個結果為α\alpha的完美貝葉斯均衡均衡,那麼α\alpha也可以被某個協調均衡所實現,這個協調均衡以機率1採取PDP^{D}中的計劃。