Чтобы заученное поведение надежно закрепилось, вовсе не нужно подкреплять его каждый раз. Наоборот, очень важно не подкреплять поведение на регулярной основе, а использовать подкрепление лишь от случая к случаю, случайно и непредсказуемо.
Психологи называют это вариативным режимом подкрепления. Вариативный режим намного более эффективно поддерживает поведение, чем постоянный и предсказуемый. Один психолог объяснил мне это так. Если вы купили новую машину, которая резво трогается с места, и в один прекрасный момент она почему-то не завелась, вы несколько раз попробуете повернуть ключ, но потом поймете, что что-то сломалось, и позвоните механику. Поворачивание ключа в отсутствие ожидаемого немедленного подкрепления быстро прекращается. Если же у вас старая машина, которая почти никогда не заводится с первой попытки, и для того, чтобы ее завести, требуется длительное время, вы будете поворачивать ключ снова и снова. Поворачивание ключа длительно подкреплялось в вариативном режиме. И поэтому это прочно закрепленное поведение.
Если я буду давать дельфину рыбу за каждый прыжок, животное станет прыгать невысоко и вяло – лишь бы получить рыбу и отделаться от меня. Если я прекращу давать рыбу, дельфин быстро перестанет прыгать. Но можно поступить иначе. Дельфин научился прыгать за рыбу. Теперь я начинаю подкреплять первый, третий и последующие прыжки случайным образом. Тогда желательное поведение закрепится более прочно. Не получивший вознаграждения дельфин станет прыгать более часто, надеясь вытянуть счастливый билет, а энергичность прыжков может даже возрасти. Это позволит мне избирательно подкреплять лучшие прыжки. Используя вариативный режим, я сформирую требуемое поведение.
Но даже профессиональные дрессировщики не всегда правильно используют вариативный режим положительного подкрепления. Понять и принять эту концепцию бывает нелегко.
Мы понимаем, что не нужно наказывать за неправильное поведение, если это поведение прекратилось. Но мы не понимаем, что необязательно и даже нежелательно вознаграждать правильное поведение постоянно.
Стремясь закрепить дисциплину животного с помощью положительного подкрепления, мы оказываемся менее уверенными в себе.
Привлекательность вариативного режима лежит в основе всех азартных игр. Если бы каждый раз, когда вы опускали мелкую монетку в игровой автомат, вам выпадала монетка более крупного достоинства, вы быстро заскучали бы. Да, вы обогатитесь, но вам будет скучно. Люди любят игровые автоматы именно потому, что предсказать результат практически невозможно. Вы можете ничего не выиграть, выиграть маленькую сумму или получить огромный выигрыш. Невозможно понять, в какой момент будет получено подкрепление (это может случиться даже в самый первый раз). Почему некоторые люди впадают в игровую зависимость, а некоторые – нет, это другой вопрос. Но для тех, кто попался на крючок, привлекательным является именно вариативный режим подкрепления.
Чем дольше сохраняется вариативный режим, тем прочнее он закрепляет поведение. Но длительность режима работает против вас в тех случаях, когда вы стремитесь устранить определенный стандарт поведения.
Неподкрепленное поведение угасает само собой. Но если поведение время от времени подкрепляется, пусть даже спорадически – одна сигарета, одна рюмка, одна уступка капризному ребенку или нудному партнеру, – оно не угаснет, а, напротив, прочно закрепится.
И добьетесь вы такого нежелательного результата с помощью длительного вариативного режима. Так человек, бросивший курить и случайно позволивший себе одну сигарету, может снова превратиться в отъявленного курильщика за одну минуту.
У каждого из нас есть знакомые, которые почему-то продолжают жить с супругами или любовниками, хотя те относятся к ним несправедливо. Мы привыкли считать, что такое случается только с женщинами, которые влюбляются в грубых, невнимательных, эгоистичных и даже жестоких людей. Но это происходит и с мужчинами. Мы все знаем таких людей. Даже после развода или расставания с неподходящим партнером они ухитряются найти себе нового точно такого же.
Являются ли эти люди по каким-то глубинным психологическим причинам постоянными жертвами? Возможно. Но не являются ли они жертвами длительного вариативного режима? Вступив в отношения с обаятельным, сексуальным, веселым и внимательным человеком, который со временем превращается в настоящего монстра, хотя время от времени все же проявляет свою хорошую сторону, вы живете надеждой на те редкие моменты, когда вам удается получить столь желанное положительное подкрепление: обаяние, сексуальность, внимание и заботу.
С точки зрения здравого смысла это кажется странным, но с точки зрения дрессировщика, все абсолютно ясно. Чем более редкими и непредсказуемыми будут такие моменты, тем более сильное воздействие они окажут на вас и тем прочнее укрепится поведение. Более того, легко понять, почему человек, когда-то находившийся в таких отношениях, стремится вступить в них вновь. Отношения с нормальным партнером, который почти всегда дружелюбен и нежен, кажутся ему скучными. Ему недостает редких, долгожданных и оттого гораздо более сильных эмоций, связанных с вариативным подкреплением.
А теперь взглянем на то же состояние с точки зрения манипулятора: «Она/он будет у меня из рук есть и делать все, что я захочу, только ради моего комфорта, пока я буду давать ей/ему то, чего она/он хочет… иногда». Так сутенеры держат в ежовых рукавицах своих проституток. Это действительно очень мощное средство, но стоит жертве понять, что «обаяние» действует только по причине редкости и случайности своего проявления, как она или он тут же смогут выйти из такого рода отношений и найти себе нормального партнера.
Исключения из правила вариативного подкрепления
Не следует прибегать к вариативному режиму в процессе закрепления конкретного поведения, когда поведение связано с решением определенных задач или выполнением тестов путем выбора.
В процессе обучения послушанию собакам предлагают выбрать из массы различных предметов те, которые держали в руках их хозяева. Каждый раз, когда собака сделает правильный выбор, ее нужно хвалить, чтобы она знала, что нужно делать в следующий раз. В тестах на различение – например, при выборе более высокого из двух звуков – ученик должен получать подкрепление при каждом правильном ответе. Только так он будет понимать, какой вопрос ему задан. (Разумеется, в такой ситуации нужно использовать условное подкрепление.) Разгадывая кроссворд или собирая пазл, мы получаем подкрепление своим правильным предположениям, поскольку только они «подходят» к данному месту. Если бы при собирании пазла в любом месте можно было использовать разные фрагменты, то вы не получили бы положительного подкрепления верного выбора. А это и есть обратная связь, которая необходима в большинстве ситуаций выбора путем проб и ошибок.
Долговременные программы поведения
Кроме вариативных режимов можно установить также фиксированный режим подкрепления, при котором субъект ради получения подкрепления должен работать в течение определенного периода времени или определенное количество раз продемонстрировать желательное поведение.
Например, я могут заставить дельфина прыгать шесть раз подряд, используя подкрепление только при каждом шестом прыжке. Очень скоро дельфин усвоит, что от него требуется. Проблема с фиксированным режимом заключается в том, что более ранние проявления желательного поведения не подкрепляются, поэтому они будут выполняться с минимальными усилиями. В случае с дельфиньими прыжками можно быть уверенным, что первые пять будут довольно посредственными, а по-настоящему качественным только последний, за которым последует подкрепление.
Такой эффект фиксированного режима, по-видимому, влияет на выполнение множества человеческих задач – например, на сборочном конвейере. Для того чтобы получить подкрепление, необходимо проработать определенное количество времени. Но, поскольку подкрепление поступает по фиксированному режиму и не зависит от качества работы, человек, естественно, стремится выполнять минимальный объем работы, достаточный лишь для сохранения рабочего места. В начале рабочего периода показатели могут быть особенно плохими. Выплаты по пятницам – это фиксированное подкрепление, которое приводит к «черному понедельнику».
При работе с дельфинами случайное подкрепление первого или второго прыжка наряду с шестым помогает закрепить поведение. При работе с людьми различные виды поощрительных бонусов или иные подкрепления (премии, к примеру) самым прямым образом связаны с качеством и количеством продукции. Нарушение синхронности обычного подкрепления оказывается весьма эффективным.
С помощью фиксированного или вариативного режимов можно выработать невероятно длинные поведенческие цепочки. Цыпленка можно приучить сто и более раз нажимать на кнопку ради единственного зерна кукурузы. В человеческом обществе мы встречаемся с массой примеров отложенных поощрений. Один психолог как-то пошутил, что самый длительный период неподкрепляемого поведения – это обучение в школе.
В долговременных режимах иногда возникает так называемая точка невозврата. Для цыпленка это определяется обменными процессами: когда на нажатие кнопки он начинает тратить больше энергии, чем может восстановить при получении зернышка, поведение начинает угасать – цена работы падает так низко, что ее просто становится незачем делать. Такое сплошь и рядом происходит с людьми.
При очень длительных интервалах между подкреплениями происходит и еще одно явление, а именно, замедленный старт. В начале процесса цыпленок нажимает на кнопку с одинаковой частотой, поскольку каждое нажатие приближает его к желанному подкреплению. Но исследователи заметили, что по мере увеличения промежутка между подкреплениями цыпленок начинает поведенческую цепочку все позже и позже.
Такое явление называют отсроченным началом поведения с долговременной программой, и оно очень хорошо знакомо всем людям. Когда нам предстоит длительная работа – заполнение налоговой декларации или уборка в гараже, – мы придумываем для себя массу оправданий для того, чтобы не приступать к ней прямо сейчас. Иногда даже написание письма является для нас долговременной программой. Стоит нам начать, и мы справляемся с задачей вполне неплохо. Но, боже мой, до чего же трудно заставить себя сесть к столу и начать писать!
Джеймсу Терберу было так трудно начинать статью, что он порой обманывал жену, которая (что и неудивительно) заставляла его писать, потому что только так они могли оплатить арендную плату за жилье. Тербер уходил в свой кабинет и целое утро лежал на диване, держа книгу в одной руке, а другой рукой случайным образом нажимая на кнопки пишущей машинки. Желание отсрочить неприятный момент начала длительной работы оказывается гораздо сильнее перспективы получения положительного денежного подкрепления. А постукивание по клавишам пишущей машинки избавляло Тербера от отрицательного подкрепления, то есть от упреков жены.
Для того чтобы преодолеть это явление, необходимо установить подкрепление за начало работы. В работе с дельфинами я, к примеру, использовала случайное подкрепление за первый или второй прыжок из серии в шесть прыжков. Тот же прием я довольно эффективно применяла в аутотренинге. В течение нескольких лет я училась в вечернем институте. Занятия проходили один-два раза в неделю. Три часа уходило на занятия, и два часа я тратила на дорогу. Около пяти часов вечера я всегда испытывала ужасный соблазн не ходить. Но потом я обнаружила, что, если разбить дорогу на пять шагов – дорога до станции метро, ожидание поезда, пересадка, автобус до университета и подъем по лестнице до класса – и подкреплять завершение каждого шага маленьким кусочком шоколада, который я любила, но обычно не ела, то будет гораздо проще выбраться из дома. За несколько недель я научилась проделывать весь путь и без шоколада, и без внутренней борьбы.
Суеверия: случайное подкрепление
В реальной жизни подкрепления происходят сплошь и рядом. Зачастую это просто совпадения. Биолог, изучавший поведение ястребов, заметил, что стоит ястребу поймать мышь под каким-то кустом, в течение недели он будет каждый день прилетать к этому кусту. Вероятность того, что он пролетит над этим конкретным местом, значительно повышается. Достаточно найти в мусорном ящике двадцатидолларовую банкноту, и, я уверена, на следующий день вам не удастся пройти мимо, не бросив на него пристального взгляда.
Случайное подкрепление оказалось благотворным для ястреба. В действительности, поведение животных настолько эволюционировало, что каждый вид извлекает пользу из любого полученного подкрепления. Хотя многие подкрепления оказываются случайными, они все же оказывают сильнейшее влияние на поведение. Когда поведение не связано с последствиями подкрепления, но субъект все же поступает так, как необходимо для получения подкрепления, ученые называют его поведение суеверным.
Для примера рассмотрим привычку грызть карандаш. Если во время экзамена вы случайно прикусили кончик карандаша, а потом нашли правильный ответ или вас посетила хорошая идея, подкрепление может повлиять на поведение: хорошая идея пришла, когда вы грызли карандаш, таким образом, привычка получила подкрепление. Когда я училась в колледже, у меня не было ни одного неизгрызенного карандаша. Во время сложных экзаменов я порой даже перекусывала карандаши пополам. Я была абсолютно уверена, что привычка грызть карандаш помогает мне думать. Конечно, на самом деле это было не так. Налицо было случайно обусловленное поведение.
То же самое относится к привычке надевать определенную одежду или выполнять определенный ритуал, приступая к выполнению некоторой задачи. Я видела одного бейсболиста, который каждый раз выполнял сложную последовательность из девяти движений, когда был готов к удару. Он прикасался к кепке, прикладывал мяч к перчатке, натягивал кепку на лоб, тер ухо, сдвигал кепку назад, переминался с ноги на ногу и так далее. В напряженный момент он мог повторить все девять движений дважды и при этом никогда не менял их порядок. Последовательность проходила очень быстро – комментаторы никогда не обращали на нее внимание, – однако она являла собой идеальный пример суеверного поведения.
Суеверное поведение часто проявляется в дрессировке животных. Животное может реагировать на критерий, который вы устанавливать не собирались, но случайно подкрепляли настолько часто, что он стал условным. Например, животное может вести себя так, словно для получения подкрепления ему достаточно находиться в определенном месте или сидеть неким конкретным образом. Достаточно перенести занятие в другое место, и поведение таинственным образом нарушается, а вам остается только гадать, почему же это произошло. Было бы разумно в тот момент, когда поведение уже частично усвоено, повторять его в разных ситуациях, даже если они не кажутся вам важными. Таким образом, вы сможете минимизировать вероятность возникновения случайного обусловливания, которое может помешать вам в будущем.
Самое главное – следить за развитием случайных временных связей. И животные, и люди обладают очень четким ощущением временных интервалов. В этом я убедилась, когда дрессировала двух белух прыгать по сигналу (движению руки). Случайно присутствовавший при тренировке ученый с секундомером сообщил мне, что дельфины прыгают каждые двадцать девять секунд. И действительно, даже когда я не давала команды, они прыгали через двадцать девять секунд. Совершенно случайно получилось так, что я отдавала команду через регулярные промежутки времени, и животные привыкли к такому режиму. Они вовсе не опирались на ту информацию, которую должны были бы использовать, по моему мнению.
Многие дрессировщики старой школы находятся в настоящем плену суеверного мышления и поведения. Мне говорили, что дельфины предпочитают, чтобы люди, работающие с ними, были одеты в белое, что мулов нужно бить, что медведи не любят женщин и так далее. Точно такими же бывают школьные учителя, убежденные в том, что на пятиклассников, к примеру, нужно кричать и что завоевать уважение можно только с помощью наказаний. Такие учителя находятся в плену традиций. Они должны поступать совершенно одинаково, потому что не могут отделить по-настоящему эффективные методы от методов суеверных.