Носили ли обсуждения осмысленный характер?
Можно ли считать процедуру справедливой?
По общему мнению, новая процедура оказалась не хуже прежней. Может показаться, что это пиррова победа, но я лично воспринял это с огромным облегчением. Ведь ответы гуглеров, участвовавших в опросе, подтвердили то, что мы подозревали и так: 41-балльная система была лишь иллюзией точности.
Большинство гуглеров признали, что часто невозможно определить разницу в рейтингах в пределах одной десятой балла. Например, не удалось достичь консенсуса в различиях между 3,1 и 3,2. По словам сотрудницы нашей лаборатории по человеческим ресурсам и инновациям (People and Innovation Lab) Меган Хат, «возникала ситуация, когда рейтинги нельзя было считать ни надежными, ни валидными. Одному и тому же человеку с одной и той же производительностью можно было поставить как 3,2, так и 3,3, в зависимости от оценщика и группы калибровки. Это и означает ненадежность рейтинга. А если человек получает 3,3, когда на самом деле его результат не выше 3,2, то рейтинг тоже нельзя считать валидным, поскольку он не отражает реального положения дел».
Получается, рейтинги на самом деле, как говорила Меган, «группировались с ошибкой занижения или завышения». Мы должны были говорить: «Джим, твой рейтинг на уровне где-то между 3,3 и 3,5». Но на практике выходило иное. Менеджеры брали получившееся число и приписывали ему фактическое значение. Так, если кто-то показал результат между 3,3 и 3,5, менеджер мог решить, что это означает повышение производительности, хотя на самом деле человек работал на прежнем уровне. Представьте себе, насколько хуже будет, если ваш рейтинг упал, а вам говорят, что вы стали хуже работать, когда на самом деле имеет место ошибка измерений.
А потом произошло кое-что любопытное. Мы разбили 6200 гуглеров по восьми различным группам внутри компании. Но было решено разделить три из них общей численностью более 1000 человек еще на пять дополнительных категорий. Например, одна из групп получила три подкатегории в каждой категории, и звездным гуглерам стали присваивать рейтинги «великолепно в высокой степени», «великолепно в средней степени» и «великолепно в низкой степени». На графике ниже показано итоговое распределение рейтингов, хотя я свел все подкатегории в пять основных, чтобы четче была видна разница между двумя подходами. В группе А пять категорий, в группе Б — пятнадцать.
Средние рейтинги в группах А и Б
По группе Б, несмотря на большее количество категорий эффективности, которые, как мы надеялись, должны были сильнее высветить разницу между сотрудниками, на деле различий получилось гораздо меньше, чем в группе А. В группе А 5% получили оценку «великолепно», а в группе В — только 1%. При этом обе команды в целом работали с одинаковой эффективностью. Они вносили сравнимый вклад в дело Google, и люди в обеих командах обладали равными качествами. Просто за счет добавления лишних рейтинговых категорий, из которых можно было выбрать, сотрудники группы Б неосознанно, непреднамеренно и некорректно решили, что среди них почти нет «суперзвезд». Сами того не желая, они исключили 80% лучших работников (4 из 5) из высшей рейтинговой категории.
Сейчас вся Google перешла на пятибалльную шкалу. В конце 2013 г. все еще было на стадии эксперимента, но первые результаты обнадеживали. Во-первых, сотрудники получали более последовательную обратную связь вместо туманных различий между 3,2 и 3,3. Во-вторых, результатом стал более широкий разброс оценок. Когда мы сократили категории производительности, менеджеры начали активнее давать оценки с краев шкалы. Несмотря на недоказанность результатов академических исследований на тему систем оценки производительности и нейтральные отзывы самих гуглеров, мы решили, что пять категорий лучше множества, по крайней мере по двум вышеназванным причинам.
К середине 2014 г. мы наблюдали еще больше положительных результатов. Мы решили, что различные должности предоставляют разные возможности воздействия. Если вы инженер, то ваш новый продукт принесет пользу сотне или миллиарду человек. Если вы рекрутер, то, как бы вы ни старались, вам не хватит времени, чтобы повлиять на миллиард человек. Когда мы перестали указывать, как именно следует присуждать рейтинги рабочей эффективности, сформировались четыре разные схемы, которые лучше отражали реальные показатели производительности команд и сотрудников.
Кроме того, мы заметили, что менеджеры вдвое активнее стали присуждать рейтинги с краев шкалы. Тот факт, что больше сотрудников стали получать высший рейтинг, лучше отражал ситуацию (когда дочитаете до главы 10, узнаете, почему это так). А сократив по возможности в размерах «клеймо позора», связанное с пребыванием в нижней категории эффективности, мы упростили менеджерам возможность завязывать прямой, неравнодушный диалог с отстающими о том, как исправить ситуацию.
После долгих дебатов и страхов по поводу перемен мы заменили «непрецизионную» и затратную рейтинговую систему абсолютно новой, которая была и проще, и точнее, требуя при этом столько же времени на калибровку результатов. Ну, честно говоря, дебаты и страхи есть до сих пор! Мы над этим работаем. Но нам уже удалось увидеть, что люди более комфортно себя чувствуют при новой системе и выше ее оценивают.
Я делюсь здесь с вами этим нововведением, так сказать, в режиме бета-версии, точно так же как мы выпускаем продукты, которые уже могут принести гораздо больше пользы, чем существующие, но которые еще не на 100% совершенны.
И все-таки необходимо отметить, что вопрос о том, сколько рейтинговых категорий вы будете использовать, не самый важный, пусть даже гуглеры принимали его так близко к сердцу. Не нужно предлагать 15 с лишним рейтинговых ярлыков. А вот три или шесть — в самый раз. Считайте, я на вашей стороне.
Как обеспечить справедливый подход
Но у оценки производительности есть душа, и имя ее — калибровка. Справедливо будет заявить, что без нее наша процедура оценки была бы гораздо менее справедливой, эффективной и убедительной. Я уверен, именно благодаря калибровке гуглеры стали вдвое довольнее нашей рейтинговой системой, чем сотрудники в других компаниях своими.
Так что же это?
Отличие рейтинговой системы Google было (и есть) в том, что решение принимает не только непосредственный руководитель. Он присуждает сотруднику примерный рейтинг (скажем, «превосходит ожидания»), основываясь на великолепных результатах OKR, но с учетом и прочих факторов — скажем, количества проведенных собеседований или смягчающих обстоятельств вроде экономического кризиса, который влияет на прибыли[63]. Прежде чем этот примерный рейтинг получит статус итогового, группа менеджеров соберется вместе и рассмотрит все примерные рейтинги сотрудников в ходе процедуры, которую мы именуем калибровкой.
Калибровка — лишняя стадия в процессе, однако она крайне важна для обеспечения справедливости. Оценки менеджеров сравниваются с оценками, которые присуждают менеджеры аналогичных команд, а потом все менеджеры коллективно рассматривают показатели сотрудников. Собирается группа в количестве 5 или 10 менеджеров, выносит на общее обсуждение результаты своих сотрудников (50–1000), рассматривает их и совместно утверждает справедливые рейтинги. Это позволяет нам устранить давление на менеджеров со стороны подчиненных, которое может исказить оценки. Кроме того, при этом конечные результаты отражают общие ожидания по части рабочей эффективности, так как менеджеры зачастую имеют разные ожидания относительно своих подчиненных и поэтому интерпретируют стандарты рабочей эффективности в собственном стиле, не лишенном идиосинкразии. Помните школьные годы — у одних учителей было легко получить хорошую оценку, а у других… Калибровка устраняет предвзятость, побуждая менеджеров обосновывать свои решения друг перед другом. Кроме того, она усиливает у сотрудников ощущение справедливого подхода114.
Воздействие калибровки на присуждение людям рейтингов по природе своей не отличается от стимула, заставляющего рекрутеров сравнивать заметки после собеседований с кандидатами. Цель одна: устранить источники личной необъективности. Даже в небольшой компании вы получите лучшие результаты при довольных сотрудниках, если оценки будут присуждаться в ходе группового обсуждения, а не по воле одного-единственного руководителя.
Но даже с калибровкой менеджеры, участвующие в групповых обсуждениях, могут принимать дурные решения. Когда мы оцениваем других, то незаметно совершаем ошибки, которые свойственны процессу принятия решений. Например, это ошибка новизны, когда вы переоцениваете недавний опыт только потому, что он еще свеж у вас в памяти. Если я провел с кем-то замечательную встречу на этой неделе, а на следующей участвую в калибровочной сессии, где рассматривается его кандидатура, то это наверняка повлияет на мою оценку, потому что я буду бессознательно опираться на недавний позитивный опыт взаимодействия. Мы постарались решить эту проблему, начиная большинство калибровочных заседаний с общего сообщения, посвященного самым распространенным ошибкам, которые свойственны оценщикам, и тому, как их избегать. Пример приведен ниже.
Каждое калибровочное заседание мы начинали с рассмотрения ошибок. Участвуя в заседаниях, я имел возможность заметить, что для устранения многих ошибок достаточно привлечь внимание менеджеров к этому явлению — пусть всего на секунду. Не менее важно и то, что такой подход помогал сформировать языковые и культурные нормы, предотвращающие указанные отклонения. Сегодня на калибровочном заседании часто можно услышать, как кто-то прерывает разговор фразой: «Минутку. Это ошибка предвзятости. Нужно рассмотреть результативность за весь период, а не только за прошлую неделю».
Вы, наверное, уже ощутили, что даже сократив периодичность аттестации сотрудников и упростив рейтинговую шкалу, мы по-прежнему тратим немало времени на эту процедуру. Чтобы присудить примерные рейтинги команде, кликая на окошки меню в нашей программе управления производительностью, понадобится всего 10–30 минут; но калибровочная сессия может занять часа три или даже больше. Не каждого обсуждают лично. Удается сэкономить время, обеспечив «калибровку самих калибраторов». Это делается так: берут для сравнения отдельных сотрудников, которые известны не только своему руководству, и используют их как точку отсчета или эталон. Калибраторы также обращают внимание на распределение рейтингов в разных командах — не чтобы добиться единообразия, а чтобы понять, почему в некоторых командах есть отличия. Например, одна команда может быть сильнее другой. Тогда большая часть времени посвящается рассмотрению случаев, которые по какой-то причине выделяются на фоне большинства, например необычно быстрый рост или падение производительности, крупные отклонения в рабочих результатах или рейтинги на границах шкалы эффективности.
Рекомендации по процессу калибровки, основанной на фактах
Сохранить данные калибровки семи типичных форм сознания
Когнитивное искажение / групповая динамика
Описание
Пример
Эффект единорога
Когда общее восхитительное или, напротив, ужасное впечатление о ком-то затемняет суждение на основе новых данных, которые указывают на обратное
Том всегда такой.
Некоторые проблемы этого квартала.
Он всегда звезда
Эффект новизны
Склонность помнить несколько последних поступков и придавать им непропорционально большое значение
У Тома ужасные пара недель. Он не может работать.
Ничего не сделано
Фундаментальная ошибка атрибуции
Обращение слишком большого внимания на «способность» личности и недостаточного — на ситуацию/контекст, повлиявшие на результативность, или наоборот
Том провалил этот проект.
У него недостаточно жесткий менеджер. Он классный, исключительный и заслуживает более высокой оценки.
Том провалил этот проект.
Докажите мне, что он не может работать.
Где мы нашли этого человека?
Центральная тенденция
«Играть беспроигрышно», ставя рейтинг ближе к среднему
Ну, 3,7 — высокая оценка, как насчет 3,2?
Вы по-прежнему даете оценку «превосходит ожидания»?
Тенденция оценивать вероятность по наличию примеров
Склонность принимать то, что легче всего приходит на ум, за то, что приходит на ум чаще
Помню, первый раз я думал, что никогда меня так быстро не повышали. Он фанат своего дела
Выдержка из раздаточного материала перед калибровочными обсуждениями © Google, Inc.
Многие компании вообще отказываются от рейтинговой системы, так почему же мы ее по-прежнему используем?
Думаю, все дело в справедливости.
Рейтинги — инструменты, средства, упрощающие менеджерам процесс принятия решений об оплате и карьерном продвижении. Я как сотрудник хочу, чтобы со мной обращались справедливо. Я не против, чтобы кто-то получал больше меня, если он работает больше. Но если кто-то работает не больше моего, а получает намного больше, я буду несчастен. А рейтинговая система для того и существует, чтобы я не волновался на этот счет. Еще она означает, что если кто-то проделал исключительную работу, то его будет судить по заслугам не только собственный руководитель, но и целая группа других на калибровочном заседании, и они вместе разработают и введут справедливый стандарт в масштабах компании. Кроме того, рейтинги упрощают продвижение. Как менеджер я могу верить, если мне говорят, что некто с оценкой «намного выше ожиданий» работает превосходно, — и неважно, занимает ли он вакансию в подразделениях Chrome, Glass или группе продаж. Как сотрудник я верю, что людей продвигают на основании их достоинств, а не внутренней политики. В маленьких командах всего этого не требуется — вы и так знаете, кто чего стоит. Но если штат вашей организации перевалил за несколько сотен, то сотрудники будут уютнее себя чувствовать, доверяя надежной системе, а не отдельным руководителям. И не потому, что те обязательно плохи или предвзяты. Просто рейтинговая процедура плюс калибровка во многом устраняют и то и другое.
Избегайте защитного поведения и мотивируйте стремление учиться с помощью простого фокуса
Но на одном справедливом присуждении рейтингов далеко не уедешь. Как менеджер вы стремитесь сообщить подчиненным не только каких результатов они добились, но и как добиваться большего в будущем. Встает вопрос: каков самый эффективный способ донести до людей эти два сообщения?
Отвечаем: в рамках двух индивидуальных обсуждений.
Ключ к личностному росту — внутренняя мотивация, но традиционные системы оценки производительности могут разрушить ее. Почти все стремятся расти и совершенствоваться. На этом основаны традиционные модели ученичества. Неопытный работник желает учиться. А проще всего для этого объединить его с более опытным партнером, который будет обучать мастерству. Помните, как вы начали учиться ездить на велосипеде, или плавать, или водить машину? Стремление к мастерству, достижениям — могущественный стимул.
Но введите внешние мотиваторы, такие как обещание продвижения или повышения, — и желание и способность учиться начнут сходить на нет. В 1971 г. Эдвард Деси и Ричард Райан из Рочестерского университета привели несколько людей в лабораторию115. Каждому дали несколько кусочков пластмассовой трехмерной головоломки, которой можно придать «миллионы разных форм». В течение каждого из трех периодов длительностью в час участники опыта должны были воспроизвести четыре разные формы на основе данных им чертежей. Если кому-то не удавалось выполнить одно задание из четырех за 13 минут, экспериментатор подходил и помогал, доказывая, что все загадки решаемы. Справа лежали рисунки с другими возможными формами, а слева — последние выпуски New Yorker, Time и (помните, это было в 1970-х!) Playboy. Экспериментатор сидел в лаборатории вместе с участниками, за исключением восьмиминутного перерыва в середине каждого часового периода, когда он извинялся и выходил якобы для оценки результатов. При этом он говорил участникам: «Я уйду на несколько минут. Делайте что хотите, пока меня не будет». На самом деле именно этот момент был ключевым во всем эксперименте. Продолжат ли участники заниматься головоломками, когда останутся без надзора?
Члены контрольной группы потратили около 3,5 минуты (213 и 205 секунд) на каждую головоломку во время первых двух «безнадзорных» перерывов и четыре минуты (241 секунду) во время последнего. Участники экспериментальной группы во время первого перерыва потратили на головоломку в среднем четыре минуты (248 секунд). Перед началом второго часа им говорили, что они получат доллар за каждую собранную фигуру. С этим дополнительным стимулом участники тратили более пяти минут (313 секунд) на головоломку, то есть на 26% больше времени, чем в течение первого часового периода. Перед началом третьего часа им говорили, что денег хватило только на первый раунд, так что больше долларов не будет. Время, потраченное на каждую головоломку, упало до менее трех с половиной минут (198 секунд), то есть на 20% меньше, чем в первом раунде, и на 37% меньше, чем в раунде с оплатой.
Это было одно из первых, небольшое исследование, но оно показало как могущество мотивации, так и расхолаживающий эффект ее устранения. Деси и Райан сделали вывод, что ввод внешнего вознаграждения побудил людей относиться к заданию иначе, поскольку исчезла внутренняя мотивация.
Далее ученые утверждали, что внутренняя мотивация служит стимулом не только для повышения производительности, но и для улучшения личных результатов с точки зрения жизненной активности, самоуважения и благополучия116. В рабочей среде, где сотрудники имеют больше свободы, открывается возможность естественной внутренней мотивации, что, в свою очередь, повышает ощущение самостоятельности и личных способностей.