第二章神经网络控制

神经网络控制的研究始于20世纪60年代，1960年，widrow和Hoff首先把神经网络用于控制系统。 Kilmer和McCulloch提出了KMB神经网络模型，并在“阿波罗”登月计划中应用取得良好的效果。1964年，widrow等用神经网络对小车倒立摆系统控制取得了成功。70年代神经网络研究处于低谷，所以神经网络控制没有再发展。在80年代后期开始，神经网络控制随着形势发展至重受到重视．但大多数集中在自适应控制方法上。目前，正朝智能控制深度的方向发展。

神经网络控制可以分为监视控制，逆控制，神经适应控制，实用反向传播控制和适应评价控制等。

在智能控制系统中，最重要的有两点。一点是和知识基有关的推理机型，另—点是随环境变化的适应能力。一般而言．推理是以符号为元素执行的．而客观世界中的信号是数值，为了理解过程的状态．需要实施数值数据到符号数据的映射，这就要把数值数据进行分类。

另外，对过程的控制需要自适应控制器。神经网络的分类功能和学习能力使到它可以有效地用于智能控制系统。
神经网络用于控制系统是“物尽其用”的必然结果。目前，神经网络在各种控制系统的应用及典型例子如表2—1所示。

表2-1 神经网络控制概况

控制方法

神经网络

典型例子

自适应线性控制

Hopfield

ARTⅡ

Chi等(1990)

Zak(1990)

Kumar,Gucz(1990)

自适应非线性控制

Kohonen

CMAC

Goldberg等(1998)

Bassi，Beckey(1989)

Sanner,Akin(1990)

Ungar等(1990)

Graf等(1988)

Martinez等(1988)

Atkenson等(1989)

2．1 神经网络控制系统的结构

神经网络的非线性，学习功能，并行处理和综合能力，使到它十分适用于智能控制：神经网络控制系统的形式很多。英国Glasgow大学K.J.Hunt等神经网络控制系统分为监视控制、直接逆控制、模型参考控制、内部模型控制、预测控制、适应控制等。IEEE神经网络协会出版刊物主席Toshio Fukuda教授和“神经计算应用手册”作者P.J.Werbos则把神经网络控制系统主要分成如下五大类：

1．监视控制(Supervised Control)

2．逆控制(Inverse Control)

3．神经适应控制(Neural Adaptive Control)

4．实用反问传播控制(Back—propagation of Utility)

5．适应评价控制(Adaptive Critics)

根据这五大类的划分情况，神经网络控制系统有五类不同的结构；而且，神经网络在控制系统中的位置和功能有所不向．学习方法也相异。

2.1.1监视控制系统

用神经网络模拟人的作用而组成的控制器去对被控对象执行控制称为监视控制。在很多情况中，人们可以根据对象的输出状态而提供恰当的控制信号，从而实现良好的控制；也即是说人们在系统中能执行反馈控制作用。往往在这种情况中，无法取得对象的分析模型；也即是说，用标准的控制技术无法设计出合适的控制器。
由子交替逼近的专家系统可以用于提供知识表达和控制形式；所以．神经网络可以用于模拟人的作用的控制器中。监视控制系统的结构如图2—1中所示。从图中可知：神经网络的功能在于取代人的控制作用。

图2-1 监视控制系统的结构

在监视控制系统中，神经网络需要脱机进行训练。训练时是采用一系列示教数据的，这些数据是人们执行人工控制时的输入输出数据。输入数据一般是传感器所检测出的数据，输出数据则是人所确定的数据。也就是说，神经网络的学习是执行传感输入到人工控制作用的影射。这种控制在机器人控制等领域中有相当大的作用。

2.1.2 逆控制系统

逆控制系统有时也称直接逆控制系统。在逆控制系统中，如果被控对象的模型用F表示，那么，神经网络所构成的控制器的模型则是F^-1，也即是说是一个逆模型。逆控制系统的结构如图2—2所示。

图2-2 逆控制系统的结构

如果被控对象的模型可以表示为F

y=F(u) (2.1)

那么，逆控制系统中神经网络控制器的模型则为F^-1：

u=F^-1(y) (2.2)

在实际上，被控对象可以是一个未知的系统；在被控对象输入端加入u*，则其输出就会产生y*。用y*作为输人，u*作为输出去对神经网络进行训练．则得到的神经网络就是被控对象的逆模型。在训练时，神经网络的实际输出用u’表示。则用(u'-u*)这个偏差可以控制网络的训练过程。

一般来说，为了获取良好的逆动力学性能．通常在训练神经网络时所取值的范围比实际对象的输入输出数据的取值范围要大一些。

在逆控制系统，神经网络直接连在控制回路作为控制器用。则控制效果严重地依赖于控制器对对象逆向模型的真实程度。由于这种系统缺少反馈环节；所以，其鲁棒性严迈不足。对于要求有—定鲁棒性的应用目的，这种控制系统则存在问题。

一般而言．通过在线学习可以在一定程度克服其鲁棒性不好的问题。在允许在线学习的情况中．在线学习可以调整神经网络的参数．使神经网络对逆模型的真实度提高。直接逆控制在机器人中应用较为广泛。

2．1．3 神经适应控制系统

神经适应控制是把神经网络用于传统适应控制方法而产生的新的控制方法。

神经适应控制有两种基本形式。一种是模型参考适应控制，一种自校正调节器。

神经网络模型参考适应控制系统的结构如图2—3所示。它由参考模型M，非线性对象P，神经网络N_c，神经网络N_i等四个主要环节组成。

神经网络模型参考适应控制简称NMRAC(Neural Model Reference Adaptive Control)．在系统结构中，参考模型M是期望模型，其输出y_m是期望输出。参考模型M由下式描述：

M={r(t),y_m(t)} (2.3)

图2-3 神经网络模型参考适应控制系统的结构

神经网络Ni是非线性对象P的辩识器。它主要是利用对象P当前和以前时刻的输入输出数据来预报下一时刻对象的输出。预报输出Y_p和对象输出y_p的伯差e_i反映了预报的准确度：

(2.4)

神经网络N_c是控制器。它根据自身输出，对象输出和给定信号r而产生下时刻的控制信号u。N_c通常是N_i对对象辨识之后所得到的对象逆模型。

NMRAC控制的目的在于产生一个恰当的控制信号u(k)，使对象输出y_p和参考模型的输出y_m的偏差小于给定误差值c，即

	(2.5)
y_p和y_m的偏差用e_c来表示，可以写下式：
e_c(k)=y_p(k)-y_m(k)	(2.6)

如果e_c＝0．则说控制结果和期望值一样。在NMRAC控制系统中，首先对辨识器Ni进行训练，预报偏差e_i用于训练N_i。如果学习之后，N_i能精确地描述对象P，并P的逆模型存在；那么，则有Ni输出y_p(k+1)：

(2.7)

设参考模型为

y_m(k+1)=h[y_m(k),y_m(k-1),......y_m(k-s)]+r(k) (2.8)

则有逆模型

以ym(k+1)取代yp(k+1)，代入式(2．9)有

u(k)=g^-1{h[y_m(k),y_m(k-1),......,y_m(k-s)]+r(k)-f[y_p(k),y_p(k-1),......,y_p(k-n)]}-g'[u(k-1),......,u(k-m)] (2.10)

为了构成控制器，用对象输出y_p取代式(2．10)中的参考模型输出y_m，有

u(k)=g^-1{h[y_p(k),y_p(k-1),......,y_p(k-s)]+r(k)-f[y_p(k),y_p(k-1),......,y_p(k-n)]}-g'[u(k-1),......,u(k-m)] (2.11)

用式(2．11)就可以组成神经网络控制器Ne。显然，控制器Nc的输入由三部分组成，即是给定r(t)，对象输出yp(t)和控制器的输出u(t)。

如果对象P的逆模型难以用式(2．9)表示，那么．可以用辨识器Ni的输出和参考模型M输出的偏差；或者对象输出和参考模型的偏差ec＝yp(k)—ym(k)对神经网络Nc进行训练．从而最终确定Nc。

神经网络自校正控制简称NSTC(Neural Self-Tuning Control)。在这种控制方式中，神经网络是一个自校正调节器。

设对象模型和式(2．7)式同，则有

y_p(k+1)=f[y_p(k),y_p(k-1),......,y_p(k-n)]+g[u(k),u(k-1),......,u(k-m)] (2.12)

如果对象的逆模型存在，则得

u(k)＝g^-1{y_p(k+1)-f[y_p(k),y_p(k-1),......y_p(k-n)]}-g'[u(k-1),......,u(k-m)] (2.13)

在g-1[·]和g’[·]未知时，可以采用两个神经网络通过学习来逼近。则所得的神经网
络控制器就是一个自校正控制器。这个系统就是NSTC系统。在系统中，要求y_p(k+1)向I(k+1)逼近，故而上式(2.13)可写成：

u(k)=g^-1{r(k+1)-f[y_p(k),y_p(k-1),......,y_p(k-n)]}-g'[u(k-1),......,u(k-m)] (2.14)

NSTC系统的结构如图2—4所示。很明显

图2-4 NSTC系统的结构

神经网络控制器Nc是出实现g‘和g功能的两个网络组成的。学习训练时，用偏差信
号e_p_。

e_p=r(k+1)-y_p(k+1)

来描述神经网络对逆模型的逼近程度。

2．1．4 实用反向传播控制和适应评价控制

实用反向传播控制和适应评价控制是用神经网络实现最优控制的通用方法。这两种方法有着不同的思想。

一、实用反向传播(Back-propagation of utility)控制

实用反向传播是依时间反向传播的一种扩展算法。由Werbos提出的依时间反向传播
(Back—Propagation through time)是一种通常用于训练循环网络的算法。在其基础上发展的
实用反向传搅在控制系统上可以形成间接逆控制系统。这种系统如图2—5所示。
在这种系统中，一般是在逆模型神经网络执行误差反向传播时，其最后一层误差是由正
模型神经网络的误差反传过来的。很明显，在控制系统中，对象的正向模型Ni的作用是进
行误差回传。在实际应用中．这种方法存在—些问题；既然，反向传播的信号是通过正向模
型的；所以，实用反向传播算法需要一个良好的模型。但是．要用神经网络建立一个好的模
型并非—件容易的事。

图2-5 实用反向传播控制

实用反向传播在目前要很透彻描述还存在一定困难；但是，它毕业是—种具有多方面应用潜力的方法。

二、适应评价控制

适应评价(Adaptive Critics)概念是增强学习(Reinforcement Learning)的扩充方法。增强学习是Barto等人提出来的；它用两个神经网络执行工作。适应评价控制的结构如图2-6所示。

图2-6 适应评价网络

适应评价的学习机构由一个联想搜索单元ASE(Associative Search Element)和一个适应评价单元(Adaptive Critic Element)组成。在学习时，ASE在增强反馈的影响下通过搜索求取输入与输出的相联关系；ACE构成比增强反馈单独可以提供的更丰富的信息评价函数。在这种学习算法中，ASE是作用网络；ACE是评价网络；并且无需被控过程的模型。

这种由两个网络组成的适应评价算法已经在很多小的控制问题上取得了很好的效果。但是，由于评价的输出J用于表示总效果，也即表示评价结果；而评价结果不足以确定作用网络在学习中寻优的方向。所以，在大的控制问题还有各种困难。

和实用反向传播一样，适应评价在目前还存在不少困难；但是它仍是一种有潜力的方法。