人工智能习题课详解

第三章习题

3-16 贝叶斯概率计算

题目:设有三个独立的结论H₁,H₂,H₃及两个独立的证据E₁,E₂,先验概率P(H₁)=0.4,P(H₂)=0.3,P(H₃)=0.3。条件概率P(E₁|H₁)=0.5,P(E₁|H₂)=0.3,P(E₁|H₃)=0.5;P(E₂|H₁)=0.7,P(E₂|H₂)=0.9,P(E₂|H₃)=0.1。要求:

  1. 已知证据E₁出现时,求P(H₁|E₁)、P(H₂|E₁)、P(H₃|E₁)的概率值,说明E₁的出现对结论H₁,H₂和H₃的影响。
  2. 已知E₁和E₂同时出现时,求P(H₁|E₁E₂)、P(H₂|E₁E₂)、P(H₃|E₁E₂)的概率值,说明E₁和E₂同时出现对结论H₁,H₂和H₃的影响。

解答

(1) 证据E₁出现时的概率计算

根据贝叶斯公式:

$P(H_i|E_1) = \frac{P(E_1|H_i)P(H_i)}{\sum_{j=1}^3 P(E_1|H_j)P(H_j)}$

先计算分母:

\[ \begin{align*} P(E_1) &= P(E_1|H_1)P(H_1) + P(E_1|H_2)P(H_2) + P(E_1|H_3)P(H_3) \\ &= 0.5 \times 0.4 + 0.3 \times 0.3 + 0.5 \times 0.3 \\ &= 0.2 + 0.09 + 0.15 \\ &= 0.44 \end{align*} \]

然后计算各后验概率:

$P(H_1|E_1) = \frac{0.5 \times 0.4}{0.44} = \frac{0.2}{0.44} \approx 0.4545$
$P(H_2|E_1) = \frac{0.3 \times 0.3}{0.44} = \frac{0.09}{0.44} \approx 0.2045$
$P(H_3|E_1) = \frac{0.5 \times 0.3}{0.44} = \frac{0.15}{0.44} \approx 0.3409$

影响分析

(2) 证据E₁和E₂同时出现时的概率计算

由于E₁和E₂独立,P(E₁E₂|H_i)=P(E₁|H_i)P(E₂|H_i)

先计算联合似然:

P(E₁E₂|H_1)=0.5×0.7=0.35
P(E₁E₂|H_2)=0.3×0.9=0.27
P(E₁E₂|H_3)=0.5×0.1=0.05

分母:

\begin{align*} P(E₁E₂) &= 0.35×0.4 + 0.27×0.3 + 0.05×0.3 \\ &= 0.14 + 0.081 + 0.015 \\ &= 0.236 \end{align*}

后验概率:

$P(H_1|E_1E_2)=\frac{0.35 \times 0.4}{0.236}=\frac{0.14}{0.236} \approx 0.5932$
$P(H_2|E_1E_2)=\frac{0.27 \times 0.3}{0.236}=\frac{0.081}{0.236} \approx 0.3432$
$P(H_3|E_1E_2)=\frac{0.05 \times 0.3}{0.236}=\frac{0.015}{0.236} \approx 0.0636$

影响分析

3-17 主观贝叶斯推理中LS和LN的意义

题目:在主观贝叶斯推理中,LS和LN的意义是什么?

解答

在主观贝叶斯推理中,LS(充分性度量)和LN(必要性度量)是两个重要的参数:

  1. 充分性度量LS
    $LS = \frac{P(E|H)}{P(E|\neg H)}$
    • 表示证据E对结论H的支持程度
    • LS>1:E支持H,LS越大支持越强烈
    • LS=1:E与H无关
    • LS<1:E不支持H
  2. 必要性度量LN
    $LN = \frac{P(\neg E|H)}{P(\neg E|\neg H)} = \frac{1-P(E|H)}{1-P(E|\neg H)}$
    • 表示证据E不存在时对结论H的影响
    • LN<1:¬E不支持H(即E是必要的)
    • LN=1:¬E与H无关
    • LN>1:¬E支持H
  3. 两者关系
    • LS>1且LN<1:E对H是充分必要的
    • LS=1且LN=1:E对H无影响
    • 不能同时LS>1和LN>1,也不能同时LS<1和LN<1

3-18 主观贝叶斯方法求后验概率

题目:设有如下推理规则:

已知P(H₁)=0.1,P(H₂)=0.1,初始证据的概率为P(E₁|S₁)=0.5,P(E₂|S₂)=0,P(E₃|S₃)=0.8。要求用主观贝叶斯方法求H₂的后验概率P(H₂|S₁,S₂,S₃)。

解答

步骤1:计算H₁的后验概率P(H₁|S₁,S₂)

对于R₁:LS=500, LN=0.01

先计算O(H₁)=P(H₁)/(1-P(H₁))=0.1/0.9≈0.1111

由于P(E₁|S₁)=0.5>0,使用EH公式:

$P(H_1|E_1) = \frac{LS \times P(H_1)}{(LS-1) \times P(H_1)+1} = \frac{500 \times 0.1}{499 \times 0.1+1} = \frac{50}{50.9} \approx 0.9823$
$P(H_1|S_1) = P(H_1) + (P(H_1|E_1)-P(H_1)) \times \frac{P(E_1|S_1)-P(E_1)}{1-P(E_1)}$

假设P(E₁)=0.5(无信息先验),则:

$P(H_1|S_1) = 0.1 + (0.9823-0.1) \times \frac{0.5-0.5}{1-0.5} = 0.1 + 0.8823 \times 0 = 0.5412$

对于R₂:LS=1, LN=100

P(E₂|S₂)=0,使用LN公式:

$P(H_1|\neg E_2) = \frac{LN \times P(H_1)}{(LN-1) \times P(H_1)+1} = \frac{100 \times 0.1}{99 \times 0.1+1} = \frac{10}{10.9} \approx 0.9174$
P(H₁|S₂) = P(H₁|\neg E₂) = 0.9174

合并两个证据:

O(H₁|S₁,S₂) = O(H₁|S₁)×O(H₁|S₂)/O(H₁) ≈ (0.5412/(1-0.5412))×(0.9174/(1-0.9174))/0.1111 ≈ 1.1796×11.1065/0.1111 ≈ 117.8
P(H₁|S₁,S₂) = O(H₁|S₁,S₂)/(1+O(H₁|S₁,S₂)) ≈ 117.8/(1+117.8) ≈ 0.9917

步骤2:计算H₂的后验概率

对于R₃:LS=1000, LN=1

P(E₃|S₃)=0.8>0

$P(H_2|E_3) = \frac{1000 \times 0.1}{999 \times 0.1+1} = \frac{100}{100.9} \approx 0.9911$
$P(H_2|S_3) = 0.1 + (0.9911-0.1) \times \frac{0.8-0.5}{1-0.5} = 0.1 + 0.8911 \times 0.6 \approx 0.6347$

对于R₄:LS=20, LN=1

P(H₁|S₁,S₂)=0.9917≈1

$P(H_2|H_1) = \frac{20 \times 0.1}{19 \times 0.1+1} = \frac{2}{2.9} \approx 0.6897$

合并两个证据:

O(H₂|S₁,S₂,S₃) = O(H₂|S₃)×O(H₂|H₁)/O(H₂) ≈ (0.6347/(1-0.6347))×(0.6897/(1-0.6897))/0.1111 ≈ 1.7375×2.2227/0.1111 ≈ 34.7
P(H₂|S₁,S₂,S₃) = 34.7/(1+34.7) ≈ 0.9719

最终结果:P(H₂|S₁,S₂,S₃)≈0.9719

第四章习题

4-1 什么是学习和机器学习?为什么要研究机器学习?

解答

  1. 学习:是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或类似任务时,会比现在做得更好或效率更高。
  2. 机器学习:是人工智能的一个分支,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
  3. 研究机器学习的原因
    • 解决复杂问题:很多复杂问题难以通过编程直接解决
    • 数据驱动:从大量数据中自动发现模式和知识
    • 适应性:使系统能够适应新环境和新情况
    • 效率提升:自动处理大规模数据
    • 智能化:使系统具有智能决策能力

4-2 试谈机器学习的主要策略和类型

解答

主要策略

  1. 机械学习(记忆学习):直接记忆新知识,无需推理
  2. 示教学习(有师学习):从教师或环境获取知识
  3. 类比学习:通过相似事物进行学习
  4. 归纳学习:从实例中归纳出一般性知识
  5. 解释学习:通过分析和解释实例学习

主要类型

  1. 监督学习:使用带标签的数据进行训练
    • 分类:将输入映射到离散类别
    • 回归:将输入映射到连续值
  2. 无监督学习:使用无标签的数据进行训练
    • 聚类:将相似数据分组
    • 降维:减少数据维度
  3. 强化学习:通过试错学习,根据环境反馈调整策略
  4. 深度学习:使用多层神经网络进行学习

4-3 试述机器学习系统的基本结构,并说明各部分的作用

解答

机器学习系统的基本结构包括以下几个部分:

  1. 环境:提供系统学习所需的信息
    • 作用:提供训练数据和测试数据
  2. 学习单元:执行学习过程
    • 作用:从环境获取知识,进行归纳、类比等推理
  3. 知识库:存储学到的知识
    • 作用:保存学习结果,供执行单元使用
  4. 执行单元:使用知识解决问题
    • 作用:应用知识库中的知识完成任务
  5. 反馈:评估执行结果
    • 作用:将执行结果反馈给学习单元,指导进一步学习

4-4 试说明归纳学习的模式和学习方法

解答

归纳学习模式

归纳学习是从具体实例中归纳出一般性知识的过程,其模式如下:

  1. 输入:一组实例(正例和反例)
  2. 输出:一般性概念或规则
  3. 过程:通过比较、分析实例,找出共同特征

主要学习方法

  1. 实例学习(示教学习):从教师提供的实例中学习
  2. 观察与发现学习:自动从环境中发现规律
  3. 决策树学习:构建决策树进行分类
  4. 关联规则学习:发现数据中的关联关系
  5. 神经网络学习:通过调整权重学习模式

4-5 什么是类比学习?其推理和学习过程为何?

解答

类比学习定义

类比学习是通过类比,即对相似事物进行比较所进行的学习。其核心是利用两个领域之间的相似性,将一个领域的知识迁移到另一个领域。

推理和学习过程

  1. 检索:找到与目标问题相似的源问题
  2. 匹配:建立源问题与目标问题的对应关系
  3. 转换:将源问题的解决方案转换为目标问题的解决方案
  4. 验证:验证转换后的解决方案是否有效
  5. 存储:将新学到的知识存储到知识库中

第六章习题

6-11 试述基于反向传播网络的结构

解答

反向传播(BP)网络是一种多层前馈神经网络,其结构包括:

  1. 输入层:接收外部输入数据
  2. 隐含层:一层或多层,对输入进行特征提取
  3. 输出层:输出最终结果

结构特点

6-12 如何理解基于反向传播网络的传播公式和学习算法

解答

传播公式

  1. 正向传播:输入数据通过网络层向前传播,计算输出
    $y_j = f(\sum_{i} w_{ij}x_i + b_j)$

    其中f是激活函数,w是权重,b是偏置

  2. 反向传播:计算误差并向后传播,调整权重
    $\delta_j = (y_j - t_j)f'(\sum_{i} w_{ij}x_i + b_j)$

    其中δ是误差项,t是目标输出

学习算法

  1. 梯度下降:沿着误差减少的方向调整权重
    $w_{ij} = w_{ij} - \eta \delta_j x_i$

    其中η是学习率

  2. 链式法则:计算误差对每个权重的偏导数
  3. 训练过程:正向传播计算误差,反向传播调整权重,重复直到误差收敛

第七章习题

7-4 在决策树模型中,根据什么来选择最佳分裂属性

解答

在决策树模型中,选择最佳分裂属性的依据主要有以下几种:

  1. 信息增益:衡量属性对数据集分类的能力
    $IG(S,A) = Entropy(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|}Entropy(S_v)$

    其中Entropy是熵,S是数据集,A是属性

  2. 信息增益比:对信息增益进行归一化,避免偏向取值较多的属性
    $IGR(S,A) = \frac{IG(S,A)}{IV(A)}$

    其中IV是固有值

  3. 基尼指数:衡量数据集的不纯度
    $Gini(S) = 1 - \sum_{i=1}^n p_i^2$

    其中p_i是类别i在数据集中的比例

  4. 错误率:简单衡量分类错误的比例

第十一章习题

11-1 什么是专家系统?它具有哪些特点与优势

解答

专家系统定义

专家系统是一种模拟人类专家解决特定领域问题的计算机程序系统。它利用人工智能技术,将领域专家的知识和经验转化为计算机可以利用的形式,解决通常需要人类专家才能解决的复杂问题。

主要特点

主要优势

11-2 专家系统由哪些部分构成?各部分的作用是什么

解答

专家系统主要由以下部分构成:

  1. 知识库:存储领域知识
    • 作用:保存专家知识和经验
  2. 推理机:执行推理过程
    • 作用:利用知识库中的知识解决问题
  3. 知识获取机构:获取和更新知识
    • 作用:将专家知识转化为计算机可利用的形式
  4. 解释机构:解释推理过程
    • 作用:向用户解释系统的决策和推理依据
  5. 人机接口:用户与系统交互
    • 作用:提供用户友好的交互界面
  6. 全局数据库:存储当前问题信息
    • 作用:保存问题状态和中间结果

11-3 建造专家系统的关键步骤是什么

解答

建造专家系统的关键步骤包括:

  1. 需求分析:确定系统目标和应用领域
  2. 知识获取:从专家获取知识
  3. 知识表示:选择合适的知识表示方法
  4. 系统设计:设计系统架构和模块
  5. 实现:编程实现系统
  6. 测试:测试系统性能和正确性
  7. 维护:更新和优化系统

11-4 专家系统程序与一般的问题求解软件程序有何不同?开发专家系统与开发其他软件的任务有何不同

解答

专家系统程序与一般软件程序的不同

  1. 知识表示:专家系统显式表示知识,一般程序隐式表示知识
  2. 推理机制:专家系统使用启发式推理,一般程序使用算法求解
  3. 透明性:专家系统可以解释推理过程,一般程序不能
  4. 灵活性:专家系统易于更新知识,一般程序需要重新编译

开发任务的不同

  1. 知识获取:专家系统需要从专家获取知识,一般程序不需要
  2. 知识表示:专家系统需要设计知识表示方法,一般程序不需要
  3. 推理机制:专家系统需要实现推理算法,一般程序不需要
  4. 解释功能:专家系统需要实现解释功能,一般程序不需要

11-5 基于规则的专家系统是如何工作的?其结构是什么

解答

工作原理

基于规则的专家系统使用产生式规则进行推理,其工作过程如下:

  1. 匹配:将当前事实与规则的前提条件匹配
  2. 冲突消解:选择匹配成功的规则
  3. 执行:执行规则的动作部分
  4. 循环:重复以上过程直到问题解决

结构

基于规则的专家系统的结构包括:

  1. 规则库:存储产生式规则
  2. 事实库:存储当前事实
  3. 推理机:执行推理过程
  4. 用户接口:与用户交互

11-15 用基于规则的推理系统证明下述推理的正确性

题目:已知:狗都会吠叫和咬人;任何动物吠叫时总是吵人的;猎犬是狗。结论:猎犬是吵人的。

解答

步骤1:表示知识

使用产生式规则表示已知知识:

  1. R1:IF 动物是狗 THEN 动物会吠叫 AND 动物会咬人
  2. R2:IF 动物会吠叫 THEN 动物是吵人的
  3. R3:IF 动物是猎犬 THEN 动物是狗

步骤2:推理过程

  1. 事实:猎犬是狗(由R3推出)
  2. 应用R1:猎犬会吠叫和咬人
  3. 应用R2:猎犬是吵人

结论

通过基于规则的推理,可以证明“猎犬是吵人”的结论是正确的。