50. Ошибки сбора данных. Контроль качества собираемых данных
При сборе данных существуют погрешности, которые называются вневыборочными ошибками . Они включают: выбор неправильных компонентов выборки для проведения интервью; неучет мнения тех, кто отказался давать интервью или не оказался дома; неверные оценки, даваемые интервьюируемыми сознательно. Возможна фальсификация предоставленных данных со стороны интервьюера. Ошибки могут производить и добросовестные интервьюеры при переписывании составленных сведений их анкет. Разница от ошибок выборки, вневыборочные ошибки не могут быть измерены. Поэтому значительным является: заблаговременно выяснить вероятные причины вневыборочных ошибок и предпринять надлежащие меры по их предотвращению.
Одним из критериев выбора определенного подхода к сбору данных является величина вневыборочной ошибки, которая включает в свой состав :
1) все типы ошибок, при которых ответили не все респонденты;
2) ошибки сбора данных;
3) ошибки обращения с приобретенными данными;
4) ошибки анализа составленных данных;
5) ошибки интерпретации приобретенных результатов.
Бывают ошибки, определенные неясным выявлением проблем, использованием неоднозначных терминов и т. п.
Вневыборочные ошибки классифицируются на ошибки лиц, осуществляющих сбор данных, и респондентов. Кроме того, вневыборочные ошибки подразделяются на преднамеренные и на непреднамеренные.
Преднамеренные ошибки лица, собирающего информацию, случаются, когда оно намеренно нарушает установленные исследователем требования к сбору данных. Известны виды преднамеренных ошибок респондентов. Первый вид обусловлен умением респондента фальсифицировать свои ответы вследствие определенного замешательства, нежелания отвечать на индивидуальные вопросы, из-за подозрения, что интервьюер преследует какие-то свои цели.
Второй вид обусловлен отказом респондента отвечать на вопросы из-за своей занятости, нежелания открывать личные аспекты своей жизни, предубежденности к опросам.
Контроль за преднамеренными ошибками интервьюеров ведется двумя методами :
1) надзор за их работой;
2) проверка реализованной работы.
Надзор осуществляется с помощью тайного подключения к телефонной линии, по которой берется интервью. При устном интервьюировании интервьюера может сопровождать проверяющее лицо.
Цель проверки проведенного опроса заключается в выявлении случаев дезинформации и фальсификации со стороны интервьюеров.
Существуют три типа ошибок , определенных нежеланием респондента отвечать на вопросы: из-за несогласия вообще участвовать в обследовании; из-за прекращения участия и из-за несогласия отвечать на определенные вопросы.
51. Анализ данных
Первый этап анализа – перевод "сырых" данных в обдуманную информацию, введение в компьютер, проверка на предмет ошибок, кодирование, представление в матричной форме (табулирование). Данный процесс называется преобразованием исходных данных.
Далее проводится статистический анализ , т. е. рассчитываются средние величины, частоты, корреляционные и регрессионные соотношения, проводится анализ трендов. Основные виды статистического анализа:
1) дескриптивный анализ. В его основе лежит применение двух групп статистических мер:
а) "центральной тенденции", или мер, которые характеризуют типичного респондента или типичный ответ;
б) вариации, или меры, которые определяют схожесть или несхожесть респондентов или ответов;
2) выводной анализ применяется в статистических процедурах (например, проверка гипотез) для обобщения полученных результатов на всю совокупность;
3) анализ различий. Используется для поиска степени реального различия в поведении двух групп (двух рыночных сегментов), реакции на одну и ту же рекламу и т. п.;
4) анализ связей. Используют для определения систематических связей (их направленности и силы) переменных. Например, предметом анализа может быть определение того, как повышение затрат на рекламу изменяет рост сбыта;
5) предсказательный анализ. Используется для прогнозирования развития событий в будущем. Например, путем анализа временных рядов.
Понимание принципов анализа данных необходимо по нескольким причинам :
1) дает возможность получать нужную информацию;
2) позволяет специалисту избежать ошибочных суждений и заключений;
3) дает опыт, который позволяет интерпретировать и понимать результаты анализа, проведенного другими;
4) знание больших возможностей методов анализа данных может положительно повлиять на качество разработки задач исследования.
Анализ данных может в значительной степени способствовать получению полезных знаний, однако он не допускает некачественного планирования маркетинговых исследований. Если цель исследования не определена соответствующим образом, вопросы исследования нерелевантные, гипотезы не могут быть проверены или являются бессмысленными, то на исследование придется потратить большое количество денег.
Полученные в результате опроса необработанные данные должны пройти предварительную подготовку, прежде чем для их анализа можно будет использовать статистические методы. Качество результатов, полученных посредством использования статистических методов, и их последующая интерпретация в значительной степени будут зависеть от того, насколько хорошо были подготовлены данные для анализа.
52. Редактирование данных
Задача редактирования данных заключается в том, чтобы правильно выявить пропуски, неоднозначности и неточности в ответах. Редактирование должно осуществляться как самим интервьюером и его руководителем в ходе сбора данных, так и аналитиком непосредственно перед их анализом. Среди проблем, которые должны выявляться, можно перечислить следующие :
1) ошибки интервьюера. Часто допускаемая ошибка – интервьюер не предоставил респонденту необходимые инструкции;
2) пропуски. Респондент не ответил на какой-либо вопрос – преднамеренно или из-за неспособности ответить;
3) неоднозначности. Ответ оказался неприемлемым или нечетким (непонятно, в каком из квадратиков поставлен значок при выборе из нескольких вариантов);
4) непоследовательность. Иногда нарушена логика в последовательности ответов (респондент, который является адвокатом, может отметить квадратик, показывающий, что он не окончил среднюю школу);
5) недостаток сотрудничества. Если анкета длинная и содержит сотни вопросов, респондент может "взбунтоваться" и отметить один и тот же вариант в длинной серии вопросов;
6) не соответствующий требованиям респондент, который попал в выборку (если выборка состоит только из женщин старше 18 лет, все остальные должны быть исключены).
Для решения подобных проблем существует несколько вариантов действий. Лучше всего попытаться еще раз связаться с респондентом, особенно если вопросы, о которых идет речь, очень важны. Следующий вариант – просто не учитывать данную анкету (если очевидно, что респондент либо не понял, как отвечать на анкету, либо не пожелал сотрудничать).
Менее экстремальный вариант – исключить лишь проблемные вопросы, сохранив баланс остальных: респонденты могут пропускать некоторые вопросы, связанные с возрастом или доходом, при этом нормально отвечая на остальные. В той части анализа, которая связана с доходом или возрастом, будут учитываться лишь те респонденты, которые на эти вопросы ответили, однако для остального анализа можно использовать данные, полученные от всех участников. Еще один подход – кодировать все не соответствующие требованиям или пропущенные ответы как "не знаю" или "нет мнения". Такая методика может упростить анализ данных без существенных искажений в их интерпретации.
Характерным для процесса редактирования является то, что оценивается работа интервьюера и ему даются соответствующие наставления. Если интервьюер постоянно допускает одну и ту же ошибку, то это выявляется в процессе редактирования.
53. Кодирование
Вопрос может быть закрытым или открытым, соответственно – кодирование вопросов с закрытым ответом и кодирование вопросов с открытым ответом.
Кодирование вопросов с закрытым ответом – достаточно простой процесс, поскольку в данном случае обсуждаются конкретные варианты ответов. В таблице для краткого описания каждого вопроса предусмотрен отдельный столбец, а диапазон допустимых значений предоставляет основную информацию по тому, какие значения могут соответствовать тому или иному вопросу.
После того как значения ответов введены в компьютерный файл, для получения необходимой информации можно использовать компьютерную статистическую программу. Однако перед тем как проводить анализ данных, их проверят на предмет выявления ошибок, которые могли произойти в процессе ввода. После того как ошибки устранены, можно проводить статистическую корректировку данных.
Открытые вопросы – это вопросы с произвольным вариантом ответов, поэтому они очень полезны в поисковых исследованиях.
Кодирование вопросов с открытым ответом значительно сложнее. Вообще недостатком открытых вопросов является большая зависимость ответов от объективности и опыта интервьюера.
Обычно составляют длинный список возможных ответов, после чего каждому ответу респондента ставят в соответствие один из элементов этого списка. Если ответ респондента не соответствует ни одному из элементов списка, эта операция требует субъективного решения.
К недостаткам открытых вопросов относятся также сложность и дороговизна кодирования ответов, так как процедуры кодирования предусматривают обобщение ответов в таком формате, который может быть доступным только для статистического анализа и интерпретации. Таким образом, открытые вопросы как бы увеличивают значимость мнения респондентов, более ясно выражающих свои мысли. Открытые вопросы также не очень удобны при использовании самостоятельно заполняемых анкет (почта, CAPI, электронная почта, Internet), так как письменные ответы короче по сравнению с устными.
Чтобы избежать некоторых недостатков открытых вопросов, используют предварительное кодирование.
Ожидаемые ответы записываются в формате вопросов с выбором ответов, хотя вопросы представляются как открытые. Основываясь на ответе респондента, интервьюер выбирает соответствующую категорию. Этот подход используется, когда респондент быстро формулирует ответ и легко может представить возможные варианты ответов, так как их количество ограничено. Например, этот подход успешно применяется и в исследовании на промышленном рынке.
54. Статистическая корректировка данных
Существует много способов корректировки, которые применяют для анализа данных. Наиболее часто используемые процедуры статистической корректировки данных :
1) присвоение весов. Это процедура, при которой каждому ответу в базе данных приписывается число в соответствии с некоторым заранее определенным правилом. Наиболее часто присвоение весов проводится для того, чтобы сделать данные по выборке репрезентативными по некоторым характеристикам. Категориям респондентов, недостаточно представленным в выборке, присваивают больший вес, а тем, кого оказалось слишком много, – меньший. Присвоение весов производится для того, чтобы увеличить или уменьшить в выборке число случаев, соответствующих определенным характеристикам; для придания большей важности ответам респондентов с определенными характеристиками. Присвоение весов нужно использовать с осторожностью, вести записи о проведении процедуры и включать информацию в отчет об исследовательском проекте;
2) переопределение переменных – процедура, при которой существующие данные модифицируются таким образом, чтобы создать новые переменные, или несколько переменных объединяются с целью уменьшения их общего числа.
Фиктивные переменные широко используются для переопределения переменных, имеющих категории ответов. Их также называют двоичными, дихотомическими или качественными переменными. Общее правило их использования выглядит так: если существуют "т" уровней качественной переменной, для их определения используются "т-1" фиктивных переменных. Причина, по которой используются "т-1" уровней (или категорий), являются независимыми, а информация по "т"-му уровню может быть получена по остальным "т-1" фиктивным переменным. Пример: продукт можно купить либо в течение первой, либо в течение второй половины года (качественная переменная с двумя уровнями). Поэтому время покупки может быть представлено в виде всего одной фиктивной переменной, которая будет принимать значение "1" в случае, если продукт был приобретен в течение первой половины года, и "0" – если в течение второй;
3) преобразование шкалы – еще одна широко используемая процедура статистической корректировки данных. Преобразование шкалы предполагает изменения значений шкалы для обеспечения совместимости с другими шкалами. В одном и том же исследовании для измерения различных переменных могут использоваться различные шкалы. Таким образом, сопоставление полученных по разным шкалам значений было бы бессмысленным. Даже если для всех переменных используется одна и та же шкала, разные респонденты могут использовать ее по-разному.
55. Преобразование данных
После сбора данных нужно их преобразовать, т. е. привести к более сокращенному виду, удобному для анализа и обладающему достаточными для заказчика сведениями. Обычно закодированные конечные сведения имеют вид матрицы, столбцы которой содержат ответы на разнообразные вопросы анкеты, а ряды – респондентов или изучаемые ситуации. Преобразование заключается в отображении данных матрицы на языке ограниченного числа мер, характеризующих собранные сведения. Табулирование позволяет исследователю разобраться в значении составленных данных. Одновременный анализ категорий опрашиваемых получает название перекрестной табуляции .
Исследователь, проводя преобразование, пытается найти взаимосвязь среди полученных данных и в то же время достигнуть наиболее высокого уровня обобщения.
Существуют функции преобразования данных :
1) обобщение;
2) определение концепции (концептуализация);
3) перевод результатов статистического анализа на понятный для менеджера язык (коммуникация);
4) определение степени соответствия полученных результатов всей совокупности (экстраполяция).
Из-за неспособности человека рассматривать большие размеры информации необходимо исходные собранные данные изобразить в удобном для понимания виде, т. е. их нужно обобщить, сформулировать через числовые рамки по использованию общепринятых параметров.
Большинство статистических мер основано на конкретных гипотезах. Такие гипотезы устанавливают базу анализа собранных данных. Концептуализация сориентирована на оценку итогов обобщения. Слабый разброс оценок конкретной марки продукта формирует у исследователя одно мнение (концепцию), сильный – другое.
Коммуникация предполагает при интерпретации приобретенной информации применение понятных для заказчика категорий. Если для него понятна такая статистическая мера, как мода, то она применяется при изображении полученных результатов, если нет, то итоги отображают на общедоступном языке.
Экстраполяция (распространение выявленных в анализе рядов динамики закономерности развития изучаемого предмета на будущее) в данном случае предполагает определение, в какой степени данные выборки можно обобщить на всю совокупность.
56. Виды статистического анализа. Статистический вывод
Выделяют пять ключевых видов статистического анализа , применяемых при проведении маркетинговых исследований:
1) дескриптивный;
2) выводной;
3) предсказательный;
4) анализ различий и связей.
Данные виды анализа применяются как по отдельности, так и вместе.
Дескриптивный анализ заключается в применении двух групп статистических мер:
1) "центральной тенденции", или мер, которые характеризуют типичного респондента или типичный ответ (средняя величина, мода, медиана);
2) мер вариации, или мер, описывающих степень схожести или несхожести респондентов или ответов относительно "типичных" респондентов или ответов (распределение частот, размах вариации и среднее квадратическое отклонение).
Выделяют и другие описательные меры, например меры асимметрии (насколько найденные кривые распределения отличаются от нормальных кривых распределения). В связи с тем, что они используются нечасто, не представляют особого интереса для заказчика.
Выводной анализ – это анализ, в основе которого лежит применение статистических процедур с целью синтеза приобретенных результатов на всю совокупность. Вывод – вид логического анализа, обеспечивающий получение общих сведений о всей совокупности с помощью наблюдений за малой группой единиц данной совокупности. В основе статистического вывода лежит статистический анализ результатов выборочных исследований. Этот вид вывода ориентирован на оценку параметров совокупности в целом. В данном случае результаты выборочных исследований считаются только отправной точкой для определения общих выводов. Например, автомобилестроительная компания провела два независимых исследования для того, чтобы установить степень удовлетворенности потребителей своими автомобилями. Первая выборка состояла из 100 потребителей, купивших данную модель в течение полугода. Вторая выборка включала 1000 потребителей. В ходе телефонного интервьюирования респондентам задавали вопрос: "Довольны или не довольны вы купленной вами моделью автомобиля?" Первый опрос составил 30 % неудовлетворенных, второй – 35 %.
Анализ различий используется для сопоставления итогов исследования двух групп для установления степени реального отличия в их поведении, в реакции на одну и ту же рекламу и т. п. Анализ связей направлен на установление систематических связей переменных. Определение как увеличение затрат на рекламу воздействует на повышение сбыта. Предсказательный анализ применяется в целях прогнозирования формирования событий в будущем, например путем анализа временных рядов.
Статистический вывод – процесс получения обобщений относительно генеральных совокупностей на основе данных выборки.