制定决策

偏好(Preferences)
假设Agent将在一组行为之间进行选择,每个行为可以视为一次抽奖。
假设一个行为的可能结果为\(S_1,\cdots,S_n,\) 其对应的发生概率为\(p_1,\cdots,p_n\),则该行为可以记作\[L=[p_1,S_1;\cdots;p_n,S_n]\]其中每个输出是一个原子状态或另一次抽奖(行为)。

首先约定以下记号:
\(A\succ B\)表示Agent偏好A高于B;
\(A\sim B\)表示A和B之间偏好相同;
\(A\succsim B\)表示偏好A高于B,或者偏好相同。

偏好应当遵循以下几个公理:
(1) 有序性(operability):\[(A\succ B)\lor (A\sim B)\lor (B\succ A)\]
(2) 传递性(Transitivity):\[(A\succ B)\land (B\succ C)\Rightarrow (A\succ C)\]
(3) 连续性(Continuity):\[A\succ B \succ C\Rightarrow \exists p,\ B\sim [p,A;1-p,C]\]
(4) 可替换性(Substitutability):\[A\sim B \Rightarrow [p,A;1-p,C]\sim [p,B;1-p,C]\](对\(\succ\)也成立;)
(5) 单调性(Monotonicity):\[A\succ B\Rightarrow p\ge q\Leftrightarrow [p,A;1-p, B]\succ [q,A;1-q,B]\]
(6) 可分解性(decomposability):\[[p,A;1-p,[q,B;1-q,C]]\sim[p,A;(1-p)q,B;(1-p)(1-q), C]\]
效用(Utilities)
偏好可以用效用函数(utility function)来描述。用实数\(U(s)\)来表达对某个状态\(s\)的喜好程度。
在给定证据\(e\)的情况下,某个动作\(a\)的期望效用\(EU(a|e)\)等于输出结果的依概率加权平均效用值:\[EU(a|e)=\sum\limits_{s'} P(Result(a)=s'|a,e)U(s')\]
定理:如果一些偏好满足偏好公理,则存在实值效用函数\(U\)使得\[U(A)\ge U(B)\Leftrightarrow A\succsim B;\\U([p_1,S_1;\cdots;p_n,S_n])=\sum_i p_iU(S_i).\]
最大期望效用原理:Agent根据期望效用最大的原则来选择动作,\[a^*=\arg\max_a EU(a|e).\]
效用函数
首先约定最好和最坏的可能结果分别为\(u_\top,u_\bot\). 归一化效用是指满足\(u_top=1,u_\bot=0\)的效用。
对于一次抽奖\(L\), 其期待货币价值(expected monetary value)称为\(EMV(L)\)。一般来讲为了规避风险,人们会选择\(U(L) < U(EMV(L))\).

多属性效用函数(Multiattribute utility)\(U(x_1,\cdots,x_n)\):根据多个变量进行决策。
严格优势(Strict dominance): 选择B相对于A是有严格优势的,如果\(\forall i, X_i(B)\ge X_i(A)\).
然而在多数情况下,严格优势并不总成立。
随机优势(Stochastic dominance): 设行动\(A_1,A_2\)在属性\(X\)上有概率分布\(p_1,p_2\)。称分布\(p_1\)比\(p_2\)在属性\(X\)上具有随机优势,如果满足\[\forall t, \int_{-\infty}^t p_1(x)dx \le \int_{-\infty}^t p_2(x)dx\]如果效用函数\(U(x)\)关于\(x\)单调不减,则\(A_1\)的效用期望不低于\(A_2\)。

偏好独立性(Perferentially independent, PI): 称属性\(X_1,X_2\)偏好独立于\(X_3\),如果在\(\langle x_1,x_2,x_3\rangle\)和\(\langle x_1',x_2',x_3\rangle\)之间的偏好与\(x_3\)的值无关。
相互偏好独立性(Mutual Perferentially Independent, MPI):如果每对属性都是偏好独立的。此时每个属性子集都独立偏好于其补集。

定理:如果一组属性\(X_1,\cdots,X_n\)是相互偏好独立的,则存在一个加法值函数\[V(S)=\sum_{i=1}^n V_i(X_i(S)).\]
从效用的角度来看,如果属性集X中抽奖的偏好与属性集Y无关,称X是效用独立(utility independent, UI)于Y的。
如果属性集的每个子集都独立于其余的属性,则称此属性集为相互效用独立的(MUI)。此时Agent的行为可以用乘法效用函数来描述,如\[U=\sum_i k_iU_i + \sum_{i,j}k_ik_jU_iU_j + k_1k_2k_3U_1U_2U_3.\]

    所属分类:人工智能     发表于2022-06-07