Если это достигнуто, то управление протекает по алгоритмам второго и третьего типов.
ВТОРОЙ тип алгоритмов управления показан на рис. 2.
Входной поток информации, попадая в систему, прежде всего загружается в её память. Преобразователь информации, вырабатывающий управленческое решение, осуществляет выборку информации из памяти, соотнося накопленную памятью информацию с непрерывно поступающей информацией. Управленческое решение вырабатывается по существу на основе всей информации памяти, вследствие чего система сохраняет в управлении устойчивую ориентацию на цели долгосрочной перспективы. Она оказывается способной их достичь потому, что не теряет долгосрочных целей в процессе выработки и осуществления управленческих решений в потоке текущей информации. Отфильтровывая на основе информации памяти дестабилизирующую высокочастотную составляющую всевозможной «суеты», подчиняясь которой в алгоритмах первого типа, система теряет цели долгосрочной перспективы и уклоняется от них в процессе управления, управляясь в русле алгоритмов третьего типа, система сохраняет устойчивость работы.
Алгоритм управления, на основе включения потока текущей информации в память системы
Тем не менее, при непосредственной загрузке в память поступающей текущей информации возможны поражения содержимого памяти и её структурной организации, аналогичные по своему характеру поражениям компьютерными вирусами файловой системы жёсткого диска и информации файлов, в ней хранящихся. Они могут затрагивать как базы данных, так и алгоритмы, на основе которых преобразователь информации вырабатывает управленческое решение.
Иными словами, необходима защита памяти, — из которой преобразователь черпает необходимую информацию в процессе выработки управленческого решения. Это приводит к алгоритму третьего типа.
ТРЕТИЙ тип алгоритмов управления показан на рис. 3.
Алгоритм управления с защитой памяти системы от накопления недостоверной информации
В нём всё происходит, как и во втором типе, но перед загрузкой в память входного потока информации он пропускается через алгоритм-сторож, которые выявляет недостоверную и сомнительную информацию, в том числе и попытки прямого и косвенного (опосредованного) управления извне, для того, чтобы выработка управленческого решения исходила бы только на информации, признанной достоверной. В тех случаях, когда возникают затруднения с определением качества информации, алгоритм — сторож памяти — помещает её в специализированную область памяти, показанную на рис. 3 блоком, названным «Карантин», для последующего выяснения её достоверности. Алгоритм, показанный на рис. 3, предполагает, что блок под названием «Преобразователь информации» обладает в системе наивысшими полномочиями. Потому он может перемещать информацию из «Карантина» в область нормальной «Памяти» и изменять «Алгоритм — сторож памяти» по мере накопления системой опыта взаимодействия со средой, что требует в процессе управления переоценки содержимого памяти по категориям «достоверно», «ложно», «сомнительно», «не определённо».
Бросающаяся в глаза разница в поведении систем, управляющихся на основе алгоритмов первого типа и алгоритмов второго и третьего типов, состоит в том, что изменение входного информационного потока в алгоритмах первого типа вызывает немедленное (по отношению к быстродействию «Преобразователя информации») изменение управления; в алгоритмах второго и третьего типа изменение входного потока информации может вообще не вызвать никакого видимого изменения в управлении либо может вызвать изменения в управлении спустя какое-то, подчас весьма продолжительное, время. Если же в алгоритм выработки управленческого решения включается прогноз поведения системы (используется схема «предиктор-корректор»), то изменение управления может упреждать изменение потока входной информации. Однако, несмотря на такое извне видимое безразличие в поведении системы по отношению ко входному потоку информации, в алгоритмах второго и третьего типов входная информация не игнорируется. В сопоставлении их с алгоритмами первого типа в них она обрабатывается иначе: так, чтобы она была подчинённой достижению целей долгосрочной перспективы или, чтобы на её основе выявилась невозможность достижения системой ранее определённой для управления ею перспективы [56].
Алгоритмы третьего типа из числа описанных обладают наивысшей помехоустойчивостью как по отношению высокочастотным шумам среды и собственным шумам системы, так и по отношению к попыткам управления системой извне, направленным на то, чтобы подчинить себе управление на основе деятельности её собственного преобразователя информации или исключить его из процесса управления.
Вынужденность перехода в управлении от алгоритма третьего типа к алгоритму первого типа под давлением обстоятельств должна рассматриваться как чрезвычайная ситуация, аварийный режим управления, в котором первоприоритетной задачей управления является выявление внутренних резервов системы и резервов внешних обстоятельств, использование которых позволяет восстановить нормальное управление по алгоритму третьего типа.
Только это позволяет реализовать запас устойчивости системы, поддерживая в течение некоторого времени управление по алгоритмам первого типа. При принципиальном отказе перейти от алгоритмов управления первого типа к алгоритмам управления третьего типа, запас устойчивости системы необратимо исчерпывается. По существу такая стратегия управления является гарантированным переносом необратимой катастрофы в будущее. Эта стратегия достаточно часто находит своё выражение в общеизвестной фразе: «Некогда тут думать и обсуждать? — работать надо: сами видите, какие обстоятельства сложились». Но приверженность этой стратегии приводит к тому, что катастрофа неизбежно наступает, если обстоятельства не изменяются сами собой. Этого, как известно, не бывает, поскольку обстоятельства изменяются под воздействием того или иного управления.
Когда заведомо недостоверная информация в суперсистеме отсутствует либо в ней господствуют алгоритмы управления третьего типа, эффективность которых достаточна, то (в случае освоения потенциала быстродействия и пропускной способности каналов информационного обмена) все структуры в иерархической лестнице — от элемента до суперсистемы — становятся субъективно неустойчивыми. Субъективная неустойчивость понимается в том смысле, что, если структура, несущая какую-то информацию и алгоритмику, сталкивается с непомерным для неё давлением среды, то исходя из повышения качества управления суперсистемой в целом, может оказаться выгоднее перераспределить информационно-алгоритмическую нагрузку элементов суперсистемы. Это под силу только для соборного интеллекта, мощного внешнего управления и иерархически Наивысшего управления.
Поскольку неопределённое внешнее управление может быть и агрессивным по отношению к суперсистеме и её элементам, то вопрос о различении источников внешних информационных потоков в процессе самоуправления суперсистемы — вопрос № 1 всегда.
13.8. Взаимно вложенные суперсистемы с виртуальной структурой
Когда суперсистема выходит в режим устойчивого самоуправления ею со стороны соборного интеллекта, различающего иерархически Наивысшее управление от внешних информационных вторжений и обеспечивающего эту способность и на уровне организации составляющих его интеллектов, она осваивает потенциал развития в кратчайшее время. Изнутри суперсистемы это состояние воспринимается как отсутствие конфликтов самоуправления элементов суперсистемы и их объединений и максимальный уровень защищенности от давления среды, через которую протекает иерархически высшее объемлющее управление.
Общность в процессе самоуправления элементов информационно-алгоритмической и интеллектуальной базы [57] суперсистемы, в сочетании с господством интеллектуальных схем управления предиктор-корректор на уровне суперсистемы в целом и вложенных в неё иерархических уровнях, делают несущественной мгновенную её структурно-иерархическую упорядоченность, стирают различие между структурным и бесструктурным управлением и процесс видится как взаимная вложенность гибких (виртуальных) структур в общесуперсистемной схеме предиктор-корректор соборного интеллекта.
Повторное обращение к вероятностной памяти с одним и тем же вопросом на этом этапе будет давать в одинаковой обстановке всё меньше разбросов ответов. Но это будет не шаблонность автомата, соответствующего уровню фундаментальной части информационного обеспечения, а оптимальное в некотором смысле решение в данных условиях при данном уровне развития суперсистемы. И то, что воспринимается как “шаблонность решений”, может быть целевым отказом от решений, уступающих оптимальному в данных условиях внешней обстановки и при достигнутом внутреннем уровне развития.
По завершении освоения потенциала развития суперсистема может служить одной из основ для следующего шага эволюции.
После введения понятия взаимная вложенность суперсистем изложение достаточно общей теории управления вряд ли может быть чем-либо иным, кроме как своего рода «описанием устройства и принципов работы оргaна». Для того, чтобы быть органистом, знать устройство данного инструмента необходимо, но нужна ещё техника игры, репертуар, вкус, в основе чего лежит потенциал развития музыканта, чей организм в свою очередь является взаимным вложением суперсистем, построенных на клетках, физических полях, информационных и энергетических потоках. Если же не знать «устройства оргaна» и не играть на нём, то кто-то на “рояле в кустах” будет играть препротивные “пьесы”, от которых некуда будет деться.
Это означает, что необходимо не только воспринимать поток событий жизни своими чувствами и вниманием, но и выработать систему образно-логических представлений о процессах управления как таковых. Мы живём в такое время, когда это проще всего сделать на основе инструмента, получившего название «метод динамического программирования».
14. Метод динамического программирования как алгоритмическое выражение достаточно общей теории управления
В изложении существа метода динамического программирования мы опираемся на книгу “Курс теории автоматического управления” (автор Палю де Ла Барьер: французское издание 1966 г., русское издание — “Машиностроение”, 1973 г.), хотя и не повторяем его изложения. Отдельные положения взяты из курса “Исследование операций” Ю.П.Зайченко (Киев, “Вища школа”, 1979 г.).
Метод динамического программирования работоспособен, если формальная интерпретация реальной задачи позволяет выполнить следующие условия:
1. Рассматриваемая задача может быть представлена как N—шаговый процесс, описываемый соотношением:
X = f(X U, n), где n — номер одного из множества возможных состояний системы, в которое она переходит по завершении n—ного шага; X — вектор состояния системы, принадлежащий упомянутому n—ному множеству; U— управление, выработанное на шаге n (шаговое управление), переводящее систему из возможного её состояния в n—ном множестве в одно из состояний (n + 1)-го множества. Чтобы это представить наглядно, следует обратиться к рис. 4, о котором речь пойдет далее.
2. Структура задачи не должна изменяться при изменении расчетного количества шагов N.
3. Размерность пространства параметров, которыми описывается состояние системы, не должна изменяться в зависимости от количества шагов N.
4. Выбор управления на любом из шагов не должен отрицать выбора управления на предыдущих шагах. Иными словами, оптимальный выбор управления в любом из возможных состояний должен определяться параметрами рассматриваемого состояния, а не параметрами процесса, в ходе которого система пришла в рассматриваемое состояние.
Чисто формально, если одному состоянию соответствуют разные предыстории его возникновения, влияющие на последующий выбор оптимального управления, то метод позволяет включить описания предысторий в вектор состояния, что ведёт к увеличению размерности вектора состояния системы. После этой операции то, что до неё описывалось как одно состояние, становится множеством состояний, отличающихся одно от других компонентами вектора состояния, описывающими предысторию процесса.
5. Критерий оптимального выбора последовательности шаговых управлений Uи соответствующей траектории в пространстве формальных параметров имеет вид:
V = V(X, U) + V(X, U) + …+ V(X, U) + V(X).
Критерий V принято называть полным выигрышем, а входящие в него слагаемые — шаговыми выигрышами. В задаче требуется найти последовательность шаговых управленийU и траекторию, которым соответствует максимальный из возможных полных выигрышей. По своему существу полный “выигрыш” V — мера качества управления процессом в целом. Шаговые выигрыши, хотя и входят в меру качества управления процессом в целом, но в общем случае не являются мерами качества управления на соответствующих им шагах, поскольку метод предназначен для оптимизации управления процессом в целом, а эффектные шаговые управления с большим шаговым выигрышем, но лежащие вне оптимальной траектории, интереса не представляют. Структура метода не запрещает при необходимости на каждом шаге употреблять критерий определения шагового выигрыша V, отличный от критериев, принятых на других шагах.
С индексом n — указателем-определителем множеств возможных векторов состояния — в реальных задачах может быть связан некий изменяющийся параметр, например: время, пройденный путь, уровень мощности, мера расходования некоего ресурса и т.п. То есть метод применим не только для оптимизации управления процессами, длящимися во времени, но и к задачам оптимизации многовариантного одномоментного или нечувствительного ко времени решения, если такого рода “безвременные”, “непроцессные” задачи допускают их многошаговую интерпретацию.
Теперь обратимся к рис. 4 — рис. 6, повторяющим взаимно связанные рис. 40, 41, 42 из курса теории автоматического управления П. де Ла Барьера.
???? Рис. 4. К существу метода динамического программирования. Матрица возможностей.
На рис. 4 показаны начальное состояние системы — «0» и множества её возможных последующих состояний — «1», «2», «3», а также возможные переходы из каждого возможного состояния в другие возможные состояния. Всё это вместе похоже на карту настольной детской игры, по которой перемещаются фишки: каждому переходу-шагу соответствует свой шаговый выигрыш, а в завершающем процесс третьем множестве — каждому из состояний системы придана его оценка, помещенная в прямоугольнике. Принципиальное отличие от игры в том, что гадание о выборе пути, употребляемое в детской игре, на основе бросания костей или вращения волчка и т.п., в реальном управлении недопустимо, поскольку это — передача целесообразного управления тем силам, которые способны управлять выпадением костей, вращением волчка и т.п., т.е. тем, для кого избранный в игре «генератор случайностей» — достаточно (по отношению к их целям) управляемое устройство.
Если выбирать оптимальное управление на первом шаге, то необходимо предвидеть все его последствия на последующих шагах. Поэтому описание алгоритма метода динамического программирования часто начинают с описания выбора управления на последнем шаге, ведущем в одно из завершающих процесс состояний. При этом ссылаются на «педагогическую практику», которая свидетельствует, что аргументация при описании алгоритма от завершающего состояния к начальному состоянию легче воспринимается, поскольку опирается на как бы уже сложившиеся к началу рассматриваемого шага условия, в то время как возможные завершения процесса также определены.
???? Рис. 5. К существу метода динамического программирования. Анализ переходов.
В соответствии с этим на рис. 5 анализируются возможные переходы в завершающее множество состояний «3» из каждого возможного состояния в ему предшествующем множестве состояний «2», будто бы весь предшествующий путь уже пройден и осталось последним выбором оптимального шагового управления завершить весь процесс. При этом для каждого из состояний во множестве «2» определяются всеполные выигрыши как сумма = «оценка перехода» + «оценка завершающего состояния». Во множестве «2» из полученных для каждого из состояний, в нём возможных полных выигрышей, определяется и запоминается максимальный полный выигрыш и соответствующий ему переход (фрагмент траектории). Максимальный полный выигрыш для каждого из состояний во множестве «2» взят в прямоугольную рамку, а соответствующий ему переход отмечен стрелкой. Таких оптимальных переходов из одного состояния в другие, которым соответствует одно и то же значение полного выигрыша, в принципе может оказаться и несколько. В этом случае все они в методе неразличимы и эквивалентны один другому в смысле построенного критерия оптимальности выбора траектории в пространстве параметров, которыми описывается система.
После этого множество «2», предшествовавшее завершающему процесс множеству «3», можно рассматривать в качестве завершающего, поскольку известны оценки каждого из его возможных состояний (максимальные полные выигрыши) и дальнейшая оптимизация последовательности шаговых управлений и выбор оптимальной траектории могут быть проведены только на ещё не рассмотренных множествах, предшествующих множеству «2» в оптимизируемом процессе (т.е. на множествах «0» и «1»).