• No results found

Research on Obtaining Predictive State Representation and Feature Selection with Monte Carlo Tree Search Algorithm

N/A
N/A
Protected

Academic year: 2021

Share "Research on Obtaining Predictive State Representation and Feature Selection with Monte Carlo Tree Search Algorithm"

Copied!
17
0
0

Loading.... (view fulltext now)

Full text

(1)

学校编码:10384 分类号 密级 学号:23220141153383 UDC

基于蒙特卡罗树搜索的预测状态表示模型

获取及特征选择研究

Research on Obtaining Predictive State Representation and

Feature Selection with Monte Carlo Tree Search Algorithm

朱合兴

指导教师姓名:

刘云龙

副教授

称:控

论文提交日期:

论文答辩时间:

学位授予日期:

答辩委员会主席:

评阅人:

2017 年 5 月

厦门大学博硕士论文摘要库

(2)
(3)

厦门大学学位论文原创性声明

本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。

本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文

中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活

动规范(试行)》

另外,该学位论文为( )课题(组)

的研究成果,获得( )课题(组)经费或实验室的

资助,在( )实验室完成。(请在以上括号内填写

课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作

特别声明。

声明人(签名):

年 月 日

厦门大学博硕士论文摘要库

(4)
(5)

厦门大学学位论文著作权使用声明

本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》

等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位

论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及

其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、

硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇

编出版,采用影印、缩印或者其它方式合理复制学位论文。

本学位论文属于:

( )1.经厦门大学保密委员会审查核定的保密学位论文,

于 年 月 日解密,解密后适用上述授权。

( )2.不保密,适用上述授权。

(请在以上相应括号内打“√”或填上相应内容。保密学位论文

应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密

委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认

为公开学位论文,均适用上述授权。)

声明人(签名)

年 月 日

厦门大学博硕士论文摘要库

(6)
(7)

摘要

摘要

近几年来,蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)算法成为人

工智能领域研究的热点,被广泛应用于计算机游戏中,特别是在计算机围棋博弈 中的应用取得了巨大的成功。MCTS算法基本思路是用节点表示状态,并用它到 子节点的有向链接表示动作,迭代地构建搜索树,在给定域中找到最佳决策。每 次迭代过程中,用树策略来平衡对节点的探索和利用,并用推广策略运行模拟产 生估计值,然后将估计值更新到搜索树中。MCTS依赖较少的先验知识,能快速 专注于搜索空间中最有价值的部分,有效地处理大规模系统决策问题。本文利用 MCTS 能处理大规模复杂系统问题的优势,研究了基于 MCTS 的预测状态表示

(Predictive State Representations,PSR)模型获取方法和高维数据特征选择方法。

PSR 模型利用一组称为检验的完全可观测的量来表示系统的状态。PSR 与 其他建模方法相比,具有模型易于学习、需要较少的先验知识和表达能力强等优 点,是对局部可观测动态系统建模的有效方法。建立 PSR 模型的核心问题之一 是发现系统的检验核,然而现有的针对该问题的处理方法并不适用于大规模系统。 本文的第一个主要工作是利用 MCTS 算法适用于大规模复杂系统的优势,研究 基于MCTS算法的发现系统检验核新方法,进而学习大规模系统PSR模型。由 于 MCTS 适用于在顺序决策问题中寻找最佳策略,这显然和检验核的发现问题 是很不相同的。为此,本文首先将发现检验核问题转化为顺序决策问题的形式, 然后提出能衡量模型准确性的模型熵的概念,并把模型熵作为评估函数,成功地 将MCTS运算法用于处理发现检验核问题。 特征选择方法在不改变原始特征空间的基础上剔除无关或冗余的信息,保留 和分类任务相关度高的信息,是一个对高维数据降维的有效方法。特征选择算法 降维后,能保持数据精确、易理解,且计算复杂度相对较低、运算效率高,所以 研究可以高效处理高维数据的特征选择方法具有重要的意义和价值。本文的第二 个主要工作是研究将MCTS应用于高维数据特征选择。由于 MCTS处理的顺序 决策问题与特征选择问题也很不一样。为此,本文首先将特征选择问题转化为顺 序决策问题,然后用 Relief 算法计算的分类权重来衡量特征分类相关度,并将 Relief算法作为评价函数,成功地将MCTS运用于特征选择问题。 关键词:MCTS算法;PSR建模;特征选择

厦门大学博硕士论文摘要库

(8)
(9)

Abstract

Abstract

In recent years, Monte Carlo Tree Search (MCTS) has become the focus of research in artificial intelligence field. It has been widely used in computer games, especially in computer Go. The basic idea of the MCTS algorithm is to construct the search tree iteratively with using the node to represent the state and the directed link to the child node represent the action. Then find the best decision in the given domain. During each iteration, tree policy are used to balance the exploration and exploitation of nodes, and the default policy is used to run the simulation to generate estimates, and then update the estimates to the search tree. The MCTS algorithm relies on less a priori knowledge to quickly focus on the most valuable parts of the search space through real-time statistics and can effectively deal with large-scale system decision-making problems. Based on the advantages of MCTS algorithm in dealing with large-scale complex system problems, MCTS algorithm is used to learning predictive state representation (PSR) of dynamic system and high-dimensional data feature selection.

The PSR model uses a set of fully observable quantities called tests to represent the state of the system. Compared with other modeling methods, PSR has the advantages of easy learning model, less prior knowledge and expressive ability, and is an effective method for modeling local dynamic system. One of the core problems in establishing the PSR model is to discover the test core of the system, but the existing approach to the problem does not apply to large-scale systems. The first major work of this paper is to use the advantages of MCTS algorithm which is suitable for the large-scale complex system, to study the new method of discovering based on MCTS algorithm, and then learn large-scale system PSR model. Since the MCTS is suitable for finding the best strategy in sequential decision problems, it is clear that the problem of finding the test core is very different. In this paper, we first formalize the discovery problem as a sequential decision making problem, and then put forward the concept of model entropy which can measure the accuracy of the model, and use the model entropy as the evaluation function to successfully use the MCTS algorithm for processing discovery issue.

(10)

Abstract

The feature selection method does not change the original feature space to eliminate irrelevant or redundant information, and retain the information with high relevance of the sorting task. It is an effective method to reduce dimensionality of high dimensional data. Compared with the dimensionality reduction algorithm, the feature selection algorithm can keep the data accurate and easy to understand, and the computational complexity is relatively low and the operation efficiency is high. Therefore, it is of great significance and value to study the feature selection method of high dimensional data efficiently. The second major work of this paper is to study the application of MCTS to high dimensional data feature selection. The order decision problem and the feature selection problem of MCTS are also very different. For this reason, we first formalize the feature selection problem as a sequential decision making problem, then uses the classification weight calculated by Relief algorithm to measure the feature classification correlation, and uses the Relief algorithm as the evaluation function to successfully apply the MCTS to the feature selection problem.

Key words: MCTS algorithm; PSR modeling; feature selection

(11)

目录 ⅳ

目录

第一章

引言

... 1

1.1 研究背景 ... 1 1.1.1 蒙特卡罗树搜索算法... 1 1.1.2 预测状态表示模型... 2 1.1.3 特征选择... 2 1.2 研究现状 ... 4 1.2.1 MCTS研究现状 ... 4 1.2.2 动态系统建模研究现状... 6 1.2.3 特征选择研究现状... 8 1.3 本文结构 ... 9

第二章

蒙特卡罗树搜索算法

... 11

2.1 MCTS算法 ... 12 2.1.1 蒙特卡罗方法... 12 2.1.2 MCTS算法 ... 13 2.2 信心上限搜索树算法 ... 15 2.2.1 基于匪徒方法... 15 2.2.2 UCT算法... 17 2.3 MCTS算法特征 ... 20 2.4 小结 ... 21

第三章

基于

MCTS

的预测状态表示模型获取

... 23

3.1 引言 ... 23 3.2 预测状态表示方法 ... 23 3.2.1 动态系统建模... 23 3.2.2 PSR模型 ... 25 3.2.3 系统动态矩阵... 29 3.2.4 根据系统动态矩阵建立PSR模型 ... 30 3.3 模型准确性衡量 ... 30

厦门大学博硕士论文摘要库

(12)

目录 ⅴ 3.3.1 模型熵... 30 3.3.2 建立PP-MDP模型 ... 32 3.4 发现问题转化为决策问题 ... 39 3.5 基于MCTS的发现检验核方法 ... 40 3.6 实验 ... 43 3.6.1 各建模方法设置... 44 3.6.2 性能衡量... 46 3.6.3 实验结果及分析... 47 3.7 小结 ... 54

第四章

基于

MCTS

的特征选择方法

... 55

4.1 引言 ... 55 4.2 特征选择 ... 55 4.3 Relief算法 ... 57 4.4 特征选择问题转化为决策问题 ... 59 4.5 基于MCTS的特征选择方法 ... 60 4.6 实验 ... 61 4.6.1 实验数据集配置... 61 4.6.2 特征选择方法设置... 62 4.6.3 性能衡量... 63 4.6.4 实验结果及分析... 64 4.7 总结 ... 70

第五章

总结与展望

... 71

5.1 总结 ... 71 5.2 展望 ... 72

参考文献

... 73

攻读硕士期间所发表论文与参与项目

... 83

致谢

... 85

厦门大学博硕士论文摘要库

(13)

Contents

Contents

Chapter 1 Introduction ... 1

1.1 Background ... 1

1.1.1 Monte Carlo Tree Search Algorithm ... 1

1.1.2 Predictive State Representation ... 2

1.1.3 Feature Selection ... 2

1.2 Research Situation ... 4

1.2.1 Research Situation of MCTS ... 4

1.2.2 Research Status of Dynamic System Modeling ... 6

1.2.3 Research Status of Feature Selection ... 8

1.3 Chapter Outline ... 9

Chapter 2 Monte Carlo Tree Search Algorithm ... 11

2.1 MCTS Algorithm ... 12

2.1.1 Monte Carlo Method ... 12

2.1.2 MCTS Algorithm ... 13

2.2 Upper Confidence Bound Applied to Tree ... 15

2.2.1 Bandit-Based Methods ... 15

2.2.2 UCT Algorithm ... 17

2.3 Features of the MCTS Algorithm ... 20

2.4 Brief Summary ... 21

Chapter 3 Obtaining PSR with MCTS ... 23

3.1 Introduction ... 23

3.2 Predictive State Representation ... 23

3.2.1 Dynamic System Modeling... 23

3.2.2 PSR ... 25

3.2.3 System Dynamics Matrix ... 29

3.2.4 Learning a PSR Model from a System Dynamics Matrix ... 30

3.3 Measurement of Model Accuracy with Model Entropy ... 30

(14)

Contents

3.3.1 Measurement of Model Accuracy with Model Entropy ... 30

3.3.2 Establish PP-MDP model ... 32

3.4 Discovery as Decision Making ... 39

3.5 Discovery Using MCTS ... 40

3.6 Experiments ... 43

3.6.1 Modeling Method Setting ... 44

3.6.2 Performance Measurements ... 46

3.6.3 Experimental Results and Analysis ... 47

3.7 Brief Summary ... 54

Chapter 4 Application of MCTS in Feature Selection ... 55

4.1 Introduction ... 55

4.2 Feature Selection ... 55

4.3 Relief Algorithm ... 57

4.4 Feature Selection as Decision Making ... 59

4.5 Feature Selection Using MCTS ... 60

4.6 Experiments ... 61

4.6.1 Experimental Dataset ... 61

4.6.2 Feature Selection Method Setting ... 62

4.6.3 Performance Measurements ... 63

4.6.4 Experimental Results and Analysis ... 63

4.7 Brief Summary ... 70

Chapter 5 Conclusions and Forecasts ... 71

5.1 Conclusions ... 71

5.2 Forecasts ... 72

References ... 73

List of the Published Paper and the Participating Projects... 83

Acknowledgements ... 85

厦门大学博硕士论文摘要库

(15)

第一章 引言

1

第一章

引言

1.1

研究背景

1.1.1蒙特卡罗树搜索算法

蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)算法[1]是将传统的蒙特

卡罗(Monte Carlo, MC)随机采样方法和树搜索方法相结合的搜索算法。目前, MCTS算法主要应用于人工智能领域的计算机游戏中,特别是在计算机围棋博弈 中的应用取得了巨大的成功。2016年,人工智能机器人(Alpha Go)在多次与世 界顶级围棋选手博弈中取得重大胜利,围棋人工智能领域实现了一次史无前例的 突破。其实蒙特卡罗方法在统计物理学上的应用具有悠久的历史,被广泛应用于 各个领域以获得难以处理的积分的近似值,并且在各种人工智能(Artificial Intelligence,AI)游戏,特别是信息不完整游戏,例如在拼字游戏(Scrabble)和 桥牌游戏(Bridge)中也已经取得了显著的成功。然而,对计算机而言,计算机 围棋游戏是一个难度非常大的游戏,它需要建立一个高深度,多分枝的搜索树, 而且缺乏具有启发性的可靠的评价函数,同时没有明确的搜索结束标志。所以直 到在计算机围棋博弈中,蒙特卡罗方法被递归应用在搜索树的建立过程并取得了 很好的效果,才使得蒙特卡罗方法真正成为人们关注的焦点。 MCTS是一种通过在决策空间中随机抽取样本并根据结果构建搜索树,从而 在给定域中找到最佳决策的方法。它把所研究的问题用连续决策树的方法表示出 来,这在人工智能(AI)领域(特别是游戏和规划问题)产生了深远的影响。MCTS 的优点在于:是一种实时统计算法,通常计算量越大越能得到更好的效果,并且 可用于先验知识很少或者没有的情况。MCTS方法可以快速地专注于搜索空间中 最有价值的部分,能使用很少的先验知识为智能体提供决策,所以在像计算机围 棋这类具有巨大搜索空间的环境中的应用上能取得非常好的效果。 基于MCTS 能处理大规模环境问题的优势,本文将MCTS算法应用于建立

动态系统预测状态表示(Predictive State Representations,PSR)模型[2]和高维数

据特征选择中,借此解决两者都存在的先验知识少,待处理数据维度高等问题。

(16)

基于蒙特卡罗树搜索的预测状态表示模型获取及特征选择研究 2 1.1.2预测状态表示模型 对于动态系统,无论是对其做预测,规划或者是追踪,都需要先建立其模型。 所以,对动态系统建模是科学研究和工程实践领域中常见的、具有很大挑战性的 问题[3][4]。现有的动态系统建模方法有:局部可观测马尔科夫决策过程(Partially

Observation Markov Decision Process,POMDP)、马尔科夫决策过程(Markov

Decision Process,MDP)、隐马尔科夫模型(Hidden Markov Models,HMM)、马

尔科夫链(Markov Chains,MC)、预测状态表示(Predictive State Representations,

PSR)等。与其他建模方法相比,PSR模型具有模型易于学习、表达能力更强且 需要更少的先验知识等优点[5],所以可以有效地为局部可观测动态系统建模。 PSR使用一组称为检验(检验可用一个完全可观测的动作-观测对序列描述) 的未来事件来表示状态,进而建立动态系统模型。因此如何发现用来表示状态的 那组检验,成为 PSR 方法建模过程中的重要问题之一。然而,用于发现这些检 验的搜索空间非常大,特别是对于大规模系统,未来可能发生的事件是无限多的。 到目前为止,仍然没有能高效发现这些检验的算法,尚有的两种解决发现检验的 主要方法,一种是传统的迭代方法[6],迭代算法由于计算的复杂度高,只能适用 于小规模系统;另一种方法通过指定一个非常大的检验集合,使其包含足够多子 集,例如谱学习方法[7]和压缩感知方法[3]。然而,很多情况下只能获取有限的训 练数据,这使得对大规模的检验集合的概率估计可能不太准确,导致难以获取准 确的 PSR 模型。即使能获取足够的训练数据,由于检验集合太大,也会带来许 多高维矩阵的操作,使得计算成本太高。 本文针对 PSR 建模过程中能用于表示状态的那组检验集合的发现方法进行 研究。MCTS能应用于处理大规模系统决策问题,并受此启发,本文提出了运用 MCTS 算法来发现 PSR 建模过程中能用于表示状态的那组检验集合。为此,本 文提出了以下方案来解决这个问题: (1)将PSR建模过程中的发现检验核问题转化为顺序决策问题的形式。 (2)提出了模型熵的概念,用模型熵值来衡量模型的准确性。 (3)通过使用模型熵作为评估函数,将MCTS用于解决上述顺序决策问题。 1.1.3特征选择

厦门大学博硕士论文摘要库

(17)

Degree papers are in the “Xiamen University Electronic Theses and Dissertations Database”. Full texts are available in the following ways:

1. If your library is a CALIS member libraries, please log on http://etd.calis.edu.cn/ and submit requests online, or consult the interlibrary loan department in your library.

2. For users of non-CALIS member libraries, please mail to etd@xmu.edu.cn for delivery details.

Xiamen University Electronic Theses and Dissertations Database”. Full http://etd.calis.edu.cn/ and submit

References

Related documents

Figure 9-12c The Right Knee Joint Medial condyle Medial meniscus Posterior cruciate ligament Tibial collateral ligament Anterior cruciate ligament Fibular collateral

To do so, the student should complete the study plan for the master program, state the reasons for replacing compulsory courses and submit the plan and explanation to the

During grass cutting activities on the airfield, egrets are normally in the vicinity of the grass cutter. As far as practicable, Aerodrome/Approach Control will inform pilots of

Weighted (blank squares) and unweighted (filled squares) study estimates and their 95% CIs and pooled estimates (diamonds) and their 95% CIs are shown for proportions of MSM in

For example, Table 3 shows that for unemployment both the test with WCE-DM and test the with WCE-B and standard asymptotics reject at 10% significance level the null of equal

In line with the House of Representatives' request, we have verified whether a wider application of open standards and open source software would offer advantages in terms of

In order to provide the empirical evidence that supports the notion of decoupling, an up-to-date analysis of Cape Town‟s resource flows would be conducted

In addition, we find a distinct causal flow from the yield on long-term government bonds to the SARB policy rate with momentum equilibrium adjustment