Пропустить общее меню / Skip Global Navigation

+7 (495) 229-56-11  Квадрат SPSS  info@predictive.ru

Делимся опытом. Простые правила анализа данных

Статистики шутят. Интерпретация уровня значимости.

Источник: xkcd.com

Статистики шутят. Как «правильно» интерпретировать уровень значимости статистики критерия (p-value)

Перевод (сверху вниз):
- Высоко значимо
- Значимо
- Эх, надо пересчитать…
- На границе значимости
- Предположительно значимо (на уровне p<0,1)
- А давайте подробнее рассмотрим одну подгруппу…

Предметом постоянного профессионального интереса и беспокойства специалистов по статистическому анализу данных, моделированию, data mining, являются вопросы достаточно высокого порядка:

  •   Правильно ли выбрана статистическая модель?
  •   Не нарушены ли связанные с ней допущения?
  •   Достигнута ли приемлемая точность прогноза, и как ее можно улучшить?

В понимании многих потребителей результатов анализа своеобразным «знаком качества» исследования является непременное получение статистически значимых (significant) результатов. В погоне за «правильным» уровнем p-value, статистической значимостью, порой теряется понимание того, что эти результаты означают.

В этом кратком обзоре, который составлен по мотивам статьи Kristin L. Sainani. Avoiding Careless Errors: Know Your Data // PM&R, Vol. 5, 228-229, March 2013, мы хотели бы привлечь Ваше внимание к нескольким простым правилам анализа данных, следование которым (словно в соответствии с законом Парето «20/80»!) может сделать для успеха Вашего исследования больше, чем решение десятков сложнейших методологических вопросов.

1. Работайте с единой версией данных

В любом проекте, который длится дольше, чем 1 день, существование разных версий данных (в Вашей почте, на рабочем компьютере или ноутбуке, на «флэшке», а также в почте, компьютере и на флэшке у Ваших коллег) становится головной болью. Порой это приводит к тому, что часть анализа выполняется с одной версией файла, а часть – с другой. Открывая данные для анализа, Вы не всегда можете быть уверенны в том, что это – та же версия, с которой работают сейчас Ваши коллеги, или та же версия, в которую Вы месяц назад внесли важные исправления.

Очень полезно иметь централизованную базу данных или, по крайней мере, единый репозиторий файлов с четкой отметкой версии данных. Резервируйте полные копии данных, но, вместе с тем, избегайте создания фрагментарных копий. Например, не нужно создавать разные файлы, если Вы отдельно обрабатываете записи по мужчинам и по женщинам: для этого достаточно наложить на данные временный фильтр в статистическом пакете.

2. Избегайте ручных преобразований данных

Ручной ввод ответственен за какой-то процент ошибок в данных, но для многих исследований он неизбежен. Хуже, если вслед за ним начинаются ручные преобразования данных. Если Вы ловите себя на том, что вручную (на калькуляторе, или в электронной таблице) вычисляете возраст испытуемого на основе его даты рождения, или преобразуете сантиметры в метры, или группируете переменную дохода в интервалы, остановитесь и задумайтесь. Такого рода преобразования должны выполняться средствами синтаксиса статистической программы: только тогда они будут а) задокументированы, б) проверяемы, в) воспроизводимы (например, при поступлении новых данных). Никогда не стоит делать за компьютер работу, с которой он справляется лучше Вас!

3. Не анализируйте данные в электронной таблице

Мы не говорим здесь о естественных ограничениях в наборе статистических методов в универсальных процессорах электронных таблиц (например, в Excel) в сравнении с профессиональными статистическими пакетами. Многим исследователям, особенно для выполнения простых аналитических задач, кажется естественным использование Excel. Однако анализ в Excel дает слишком много «свободы» в организации данных (которая в данном случае работает во вред), сопряжен с копированием фрагментов данных, перемещением строк и столбцов, изменением диапазонов данных в формулах и другими верными способами наделать ошибок. Мы любим Excel и используем его каждый день. Но позаботьтесь о том, чтобы, когда дело дойдет до статистического анализа, Вашим первым шагом был импорт данных из Excel в профессиональный статистический пакет. В какой именно? О, у нас есть для Вас веские доводы в пользу наших решений на базе IBM SPSS Statistics! Однако будем объективны: если хотите, Вы можете рассмотреть и пару других пакетов, которые справляются со статистическим анализом почти также хорошо, как IBM SPSS Statistics.

4. Изучите данные прежде, чем строить модели и делать заключения

Относительная простота анализа данных в профессиональных инструментах порой приводит к тому, что исследователь, что называется, «сразу переходит к десерту». Так, если целью работы является построение объясняющей модели, то возникает большой соблазн с этой модели и начать.

Поддавшись такому настрою, исследователь рискует так и не узнать, что в определенной группе наблюдений значения целевой переменной по какой-то причине не заполнены, у пациента №2347 уровень артериального давления превышает все мыслимые пределы (вероятно, в результате ошибки ввода данных), а один из потенциальных факторов в модели на самом деле является константой.

Изучение простейших графических распределений отдельных переменных (гистограмм, столбиковых диаграмм), проверка количества наблюдений, расчет средних и доверительных интервалов, минимумов и максимумов может рассказать очень много о Ваших данных, и об ошибках в них. Изучить простые парные связи между переменными также очень полезно. Ожидаемы ли полученные статистики? Нет ли необходимости перепроверить отдельные фрагменты данных? Есть ли в данных выбросы, и как они скажутся на дальнейшем анализе? Знание базовых свойств исходных данных позволит Вам в будущем более уверенно интерпретировать результаты более сложных методов.

5. Проверяйте количество наблюдений, участвующих в анализе

Одной из проблем многомерного статистического анализа (а таким, в общем-то, можно считать любой анализ, где участвует более 1 переменной, и в особенности это касается регрессий, факторного, кластерного анализа), является так называемое «проклятье размерности». Оно проявляется в стремительном сокращении общего количества включенных в анализ наблюдений (респондентов, клиентов, пациентов, испытуемых), если в данных встречаются пропущенные значения в разных переменных модели. Так, из-за того, что пропуски в относительно небольшом количестве встречаются то здесь, то там, в построении модели легко может участвовать 70, 50 или 20% от общего числа наблюдений. Ведь обычно в анализ по умолчанию включаются те наблюдения, которые не имеют пропусков ни в одной из переменных. Порой такой «отсев» не является просто случайным. Как-то мы участвовали в построении модели для диагностики бактериальных инфекций по данным анализа крови. Анализ был взят при поступлении, а клинический диагноз установлен позднее. Очень быстро выяснилось, что количество назначаемых исследований в обучающих данных сильно зависит от состояния пациента при поступлении (клинических признаков заболевания) и подозрений лечащего врача. Таким образом, «просто» исключив из построения модели часть пациентов с пропущенными данными по ряду исследований, мы сместили бы выборку в сторону более тяжелых случаев, и такая модель оказалась бы неприменима ко всем больным, поступившим с температурой.

6. Проверяйте простую арифметику и сверяйтесь со здравым смыслом

Бывает так, что в отчет или статью попадают технические ошибки, связанные, например, с тем, что значение статистики было взято не из той строки таблицы, или приведенная статистика относится не ко всем данным, а к какой-то подгруппе. Такие неточности иногда можно заметить в ходе самопроверки, сопоставив между собой очевидные факты и призвав на помощь здравый смысл. Совпадает ли значение статистики, приведенное в таблице, с ее представлением на графике? Не выходит ли средняя сумма заказа в группе заказов до 10 000 руб. за верхнюю границу этого диапазона? Kristin L. Sainani приводит в своей работе пример, когда ей пришлось рецензировать статью, где в группе из 10 пациентов «78% отметили улучшение».

Чтобы заметить такие вопиющие ошибки, не нужно иметь высшее математическое образование. В свою очередь, наличие таких ошибок может быть признаком более серьезных проблем, которым следует уделить внимание: неразбериха с данными, плохая организация исследования или недостаток статистической экспертизы.

 

Есть полезные приемы работы в IBM SPSS Statistics, которыми Вы готовы поделиться? Напишите нам!

Читайте также:

IBM SPSS для вузов

 

Ближайшие учебные курсы

26–28 марта - Углубленные методы маркетинговых исследований

1–2 апреля - Построение карт восприятия

4 апреля - Введение в IBM SPSS Conjoint

9–10 апреля - Введение в IBM SPSS Decision Trees

15–17 апреля - Анализ и прогнозирование временных рядов с помощью IBM SPSS Forecasting

22–23 апреля - Введение в IBM SPSS Statistics

 
 

Регистрируйтесь