Карьера продакт-менеджера. Все что нужно знать для успешной работы в технологической компании - Баваро Джеки 10 стр.


Это касается и A/B-тестов. Проверять варианты А и В нужно так долго, пока не появится уверенность в правильности выбора, но не затягивать их настолько, чтобы нельзя было принять решение или испробовать другие варианты.

Итак, как долго должен длиться эксперимент? Сколько людей должны увидеть варианты А и В, прежде чем мы сможем определиться с выбором? Проводить эксперимент нужно до тех пор, пока результат не приобретет статистическую значимость для метрик успеха, то есть пока не станет ясно, что случайное возникновение изменений в показателях маловероятно.

Чтобы определить статистическую значимость, можно вычислить одну из следующих величин: доверительный интервал (confidence interval) или p-значение (p-value). Обе они помогают понять, является ли результат статистически существенным, но доверительный интервал дает дополнительную информацию о диапазоне возможных значений.


Доверительный интервал

Предположим, что мы хотим узнать средний рост учащихся в школе. Чем больше детей мы измерим, тем ближе наши расчеты будут к фактическому среднему значению. Допустим, мы измерили рост 50 случайных учеников, и с вероятностью в 95 % (стандартное значение, используемое большинством компаний) получили доверительный интервал от 122 до 132 сантиметров. Это значит, что с вероятностью в 95 % фактический средний рост если бы мы измерили рост всех учеников в школе составляет от 122 до 132 сантиметров[34]. Однако все еще существует вероятность в 5 %, что мы ошибаемся, и средний рост выше или ниже этого диапазона.

Конечно, для PM рост пользователей не важен. PM занимаются обновлением приложений и хотят знать, помогли внесенные изменения или нет, и насколько.

Если эксперимент с вероятностью в 95 % показывает доверительный интервал количества зарегистрированных пользователей в 1012 %, это означает, что вариант B увеличил количество новых регистраций на 1012 %. Отлично! Если бы вместо этого он показывал диапазон от 12 до 10 %, это был бы провал.

Часто доверительный интервал охватывает сразу отрицательные и положительные значения, а также ноль, например от 4 до 3 %. Это значит, что нам неизвестно, привело ли изменение продукта к росту или снижению показателей. Поскольку доверительный интервал включает в себя ноль, изменение может дать как отрицательный результат потерю до 4 %, так и положительный прирост до 3 %.

Если помимо имеющихся в вашем распоряжении данных у вас есть причины полагать, что изменение будет успешным (например, оно понравилось пользователям из бета-группы), то вы можете принять потерю в 4 % как приемлемую и запустить обновление продукта.



Итоговое значение доверительного интервала может означать успех, провал или быть нейтральным. По мере сбора большего количества данных в ходе эксперимента границы доверительного интервала будут сжиматься, и мы сможем увидеть, что эксперимент покажет 12 % успеха.


Чем дольше длится эксперимент, тем сильнее уменьшается доверительный интервал (то есть диапазон сокращается, и мы получаем более точную информацию об ожидаемом воздействии изменений). Если к концу эксперимента интервал равен 12 %, это означает, что с вероятностью в 95 % тестируемые изменения улучшат показатели на 12 %. Это можно считать успехом.


P-значения

Другой вид расчетов, о которых вы могли слышать, это вычисление р-значения. Оно отражает вероятность получения результатов эксперимента при проигрышном или нейтральном изменении метрик. Большинство компаний в качестве порогового значения используют 0,05 (5 %), что соотносится с 95 % доверительной вероятности.

Доверительный интервал и р-значение напрямую связаны. Если р-значение ниже 0,05, нижний предел доверительного интервала при вероятности в 95 % будет выше нуля. Большинство PM предпочитают работать с доверительным интервалом, так как он дает больше информации о наилучшем и наихудшем сценарии событий.


Остерегайтесь p-хакинга

Применять пороговое значение 5 % нужно аккуратно, иначе это вызовет некоторые проблемы.

Предположим, что в результате А/В-тестирования редизайна приложения выяснилось, что с вероятностью в 95 % произошел рост использования чата. Наверняка это что-то значит, верно?

И да, и нет. Если мы на 95 % уверены, что к такому росту привел именно новый дизайн, все равно остается 5 % вероятности того, что наблюдаемое изменение было случайным.

Теперь представьте, что мы пытаемся оценить потенциальное воздействие нововведений на десятки функций: чат, профили пользователей, поиск, группы, события, экспорт данных и т. д. Установив возможный порог ошибки в 5 %, мы, скорее всего, увидим воздействие на одну из десятков функций с вероятностью в 95 %[35].

Это так называемый p-хакинг (p-hacking)  попытка выудить нужные вам значения и связи из общего объема данных. Если долго мучиться, что-нибудь получится. Просто случайно (см. «P-хакинг на примере комикса xkcd» на с. 73).

Что же делать? Действуйте методично.

Во-первых, заранее решите, что вы хотите измерить, зафиксируйте эти переменные как свою цель и не пытайтесь отследить воздействие на множество факторов сразу.

Во-вторых, если вы все-таки обнаружите что-то выходящее за рамки вашего исследования, просто отбросьте эти данные. Это не значит, что вы должны их проигнорировать. Просто отложите. Повторите эксперимент с самого начала. Если вы снова получите тот же результат, значит, вы все делаете правильно (вероятно!).


СТАТИСТИКА И ЭКСПЕРИМЕНТЫ

Теперь, когда вы начали разбираться в статистике, подумайте, какое значение она имеет для экспериментов.

 Чтобы получить более точную информацию о влиянии обновлений на метрики, эксперимент следует проводить дольше. Если вам нужен рост показателя, скажем, на 1 %, потребуется провести довольно длительный эксперимент. Выявить улучшение на 50 % можно намного быстрее. Поработайте со своим специалистом по обработке данных, чтобы определить, реально ли получить изменения метрик с нужной вам точностью.

 Игнорируйте изменения тех показателей, которые не являются статистически значимыми, особенно если вы предварительно не фиксировали их как свою цель. Вы всегда будете получать улучшение или ухудшение каких-то показателей, которое происходит по чистой случайности.

 Чем больше экспериментов вы проводите или чем больше показателей отслеживаете, тем выше вероятность того, что вы получите аномальный результат показатель, который будет выглядеть как статистически значимый успех или провал, но на самом деле будет нейтральным. Это означает, что не нужно проводить кучу случайных экспериментов просто так. Иначе вы потеряете возможность определить, какое изменение точно сработало.

 Намного легче заметить изменение локальных метрик (например, количества кликов по кнопке), чем показателей успеха (таких как удержание пользователей). Планируйте эксперименты так, чтобы узнать что-то ценное, даже если ключевые показатели успеха при этом не изменятся.

Основные выводы

 Ключевые показатели успеха продукта являются проявлением стратегии: одни продукты ориентированы на то, чтобы завоевать долю рынка, в то время как другие нацелены на повышение прибыльности. Для каких-то продуктов успехом считается их использование раз в месяц, а для иных несколько раз в день. Убедитесь, что отслеживаемые вами метрики согласуются с предполагаемой стратегией.

 Используйте данные в дополнение к информации о пользователях: результаты исследования пользователей дают богатую и подробную картину, но при этом могут упускать из виду реальные проблемы, которые возникают нечасто или по невнимательности пользователей. Отслеживание показателей и изучение данных о пользователях отличный способ понять, как люди действуют в той или иной ситуации на самом деле.

 Активно работайте с данными: убедитесь, что в вашем продукте ведется журнал действий пользователей, и регулярно его просматривайте. Изучайте данные, старайтесь найти новые возможности для развития продукта. Задавайте вопросы, проявляйте любопытство.

 Проводите эксперименты, но не злоупотребляйте ими: эксперименты отлично подходят для выявления серьезных ожидаемых изменений. Но нельзя проверять сразу сотню идей в надежде, что какая-то из них сработает. Проведение множества хаотичных экспериментов значительно увеличивает шансы получить ложноположительный результат.

P-хакинг на примере комикса XKCD




Публикуется с разрешения неизменно потрясающих xkcd (https://xkcd.com/882/).

Глава 6

Аналитический подход к решению задач

Преимуществом программы Google для подготовки APM было то, что я могла воспользоваться возможностями за пределами моей зоны комфорта. Плохо, что я была вынуждена это сделать.

Так было и с моим переходом на другую должность. Всегда считалось, что для человека, который хочет работать в команде Google Search, важны сильные аналитические навыки. А я сомневалась, что они вообще у меня есть. В прошлом аналитические вопросы давались мне очень тяжело. Честно сказать, тогда я все еще была не в форме после собеседования на должность в консалтинге, где меня попросили вывести новые возможности получения прибыли на основе набора электронных таблиц. Скажу лишь, что все прошло не очень хорошо.

Тем не менее я продолжила ротацию. Ведь невозможно чего-то добиться, если не пытаться, верно? Надежда умирает последней!

Оказалось, что мои опасения были беспочвенными. Я не только преуспела в команде Google Search, но и заработала репутацию человека как раз с отличными аналитическими способностями. Хотя это не значит, что я стала экспертом по электронным таблицам или умею мгновенно извлекать смысл из числовых показателей.

Просто я была упорной и стремилась понять, что есть что. Я действовала из любопытства и не могла успокоиться, пока в моей голове не выстроилась четкая модель программы. Я просматривала тысячи случайных поисковых запросов, чтобы понять, на какие из них следует выдавать изображения, а затем разработала фреймворк, в котором объяснила, зачем и как это реализовать. Я изучала результаты дневниковых исследований, чтобы выяснить, чего на самом деле хотят люди, когда ищут рестораны. Я перепроверяла точность сотен местных объявлений, после того как поняла, что даже если веб-адрес указан правильно, номер телефона или физический адрес могут быть ошибочными.

Примечания

1

Для краткости мы будем использовать аббревиатуру PM (от англ. product manager).  Примеч. ред.

2

Asana мобильное и веб-приложение для управления проектами в командах.  Примеч. ред.

3

Roadmap (букв. «дорожная карта»)  стратегический план работы над проектом, разбитый на этапы со сроками их выполнения.  Примеч. ред.

4

Эрикссон А., Пул Р. «Максимум. Как достичь личного совершенства с помощью современных научных открытий».

5

Технический долг накопившиеся (как правило, из-за спешки) проблемы и недоработки в программном коде или архитектуре.  Примеч. ред.

6

Смотрите раздел «Приоритизируйте конкурирующие цели по принципу сбалансированного портфеля» на с. 227, чтобы сразу перейти к этому решению.

7

Помните, что получение более высокой должности (например, вице-президента) возможно только при наличии бизнес-потребности в человеке такого уровня.

8

Лакман Макдауэлл Г., Баваро Дж. «Карьера менеджера IT-проекта. Как устроиться на работу в ведущую технологическую компанию». Санкт-Петербург, издательство «Питер».

9

Техлид (Tech Lead, от technical leader)  технический руководитель проекта.  Примеч. ред.

10

Более детальная разбивка на этапы соответствует модели Double Diamond («Двойной алмаз») Совета по дизайну Великобритании (UK Design Council): https://www.designcouncil.org.uk/news-opinion/what-framework-innovation-design-councils-evolved-double-diamond.

11

Марти Каган (Marty Cagan) называет это «непрерывным исследованием и запуском» (Continuous Discovery and Delivery) или «параллельной гибкой разработкой» (Dual Track Agile): https://svpg.com/continuousdiscovery/.

12

Дизайн-спринт это отличный пошаговый метод проведения всех этапов исследования продукта: https://www.gv.com/sprint/.

13

Вайтбординг (букв. «рисование на белой доске»)  совместное использование виртуальной интерактивной доски или реальной белой доски для обмена идеями.  Примеч. ред.

14

Догфудинг (от фразы «Eating your own dogfood»  «Есть собственную собачью еду»)  практика, при которой сотрудники компании используют собственный продукт, чтобы выявить недоработки. По одной из версий, это выражение появилось после выхода рекламы собачьего корма, где знаменитый актер дал его своим питомцам, тем самым показав, что верит в высокое качество продукта.  Примеч. ред.

15

Невозможно определить эффективность работы PM отдельно от команды. На практике, чтобы оценить его вклад в конечный результат, руководители ориентируются на отзывы коллег.

16

Английская идиома «to compare apples with oranges» («сравнивать яблоки с апельсинами») означает выбор между двумя несопоставимыми вещами.  Примеч. ред.

17

CEO (Chief Executive Officer)  генеральный/исполнительный директор, президент компании.  Примеч. ред.

18

Некоторым не нравится термин «пользователь» из-за его обезличенности, но мы используем его в нашей книге, поскольку такие замены, как «клиенты», «читатели» или «участники», применимы не ко всем продуктам.

19

Речь идет о методе JTBD (jobs to be done), который позволяет выяснить, какие задачи ваш продукт будет решать для клиента.  Примеч. пер.

20

Подробнее об этом читайте здесь: http://www.zendesk.com/blog/new-employees-answer-support-tickets/.

21

Узнать больше об идее JTBD можно по ссылке https://medium.com/make-us-proud/jobs-to-be-done-framework-748c761797a8.

22

Приводятся с разрешения https://www.nngroup.com/articles/ten-usability-heuristics.

23

В частности, около 8 % мужчин и 0,5 % женщин страдают красно-зеленым дальтонизмом (то есть испытывают трудности с различением красного и зеленого цветов). Этот признак передается по Х-хромосоме и является рецессивным признаком.

24

Известным примером использования такого дизайна стали овощечистки с широкими удобными ручками от OXO. Изначально их разрабатывали для людей, больных артритом. Но позже выяснилось, что удобные ручки нравятся всем.

25

Качественные исследования дают описательные данные, а количественные числовые.

26

Фокус-группы не используются, поскольку они не рекомендуются для исследования продукта.

27

Для получения дополнительной информации см. https://www.nngroup.com/articles/how-many-test-users/.

28

Порог сам по себе может ничего не значить, но праздник в честь его преодоления может укрепить моральный дух команды.

29

NPS (Net Promoter Score)  индекс потребительской лояльности. Рассчитывается на основании ответов на вопрос: «Насколько высока вероятность того, что вы порекомендуете этот продукт?»

30

Сезонность важная часть моделирования. Например, во многих отраслях темпы роста значительно снижаются в летний период или во время праздников. Поэтому нужно сравнивать текущие показатели с контрольными показателями предыдущего года, чтобы не спутать сезонные перепады с изменениями, на которые влияете вы.

31

Активные инвесторы это не относящиеся к компании люди, которые покупают значительную долю ее акций, чтобы влиять на ее управление. Они оказывают давление на руководство и требуют внесения изменений, которые, по их мнению, приведут к росту стоимости акций.

Назад Дальше