Agent智能体

Agent和环境
Agent函数:\(f:\mathcal P^*\to\mathcal A\) 将感知序列映射为行动。

理性Agent
理性(Rational)行为的度量:依赖于以下4个方面
定义成功标准的性能度量;Agent对环境的先验知识;Agent可以完成的行动;Agent截止到此时的感知序列。
理性Agent:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,Agent应该选择使得性能度量最大化的行动。
理性≠全知(omniscient,clairvoyant),感知不一定会提供所有信息,行为的结果也可能是未知的,只能使期望最大化。

环境的性质
PEAS描述:性能(Performance),环境(Environment),执行器(Actuators),传感器(Sensors)

环境的性质:
1. 完全可观察(Observable)与部分可观察的;
2. 单Agent(Single-agent)与多Agent;
3. 确定的(Deterministic)与随机的(注意这里是相对于环境而言,即环境的下一状态是否完全取决于当前环境与Agent的动作);
4. 片段的(Episodic)与延续式的;
5. 静态的(Static)与动态的;
6. 离散的(Discrete)与连续的;

Agent的结构
Agent = 体系结构 + 程序
4中基本的Agent程序:
1. 简单反射Agent (simpel reflex agent)
基于当前的感知选择行动,不关注感知历史

2. 基于模型的反射Agent (model-based reflex agent)
Agent根据感知历史维护内部状态。具体而言,Agent将根据现有状态state,采取的行动action,sensors对世界的感知perception,和知识模型model这四个输入变量共同维护新的state。然后,再根据新状态state和规则rules选取一条rule并决定下一步行动action.

3. 基于目标的Agent (Goal-based agent)
在模型的基础上,检查哪些行为的结果可以/有利于实现目标,并基于此选择下一步的行为。

4. 基于效用的Agent (Utility-based agent)
Agent利用效用(utility)函数度量性能,并根据每个行为之后的可能结果的效用来选择下一步行动。

学习Agent
学习Agent可以被划分为4个概念上的组建,包括:
评判元件(Critic) 反馈评价Agent做得如何,观察世界并把信息传递给学习元件;
学习元件(Learning element) 负责改进提高,影响性能元件;
性能元件(Performance element) 负责选择外部行动,
问题产生器(Problem generator) 可以得到新的和有信息的经验的行动提议。

    所属分类:人工智能     发表于2022-05-03