Комментарий психолога это грех
ОБЩИЙ КОММЕНТАРИЙ статья
Фронт. Psychol., 27 сентября 2017 | https://doi.org/10.3389/fpsyg.2017.01715
Комментарий: Отвращение психологической науки к нулю
Хосе Д. Пересгонзалес 1 * , Долорес Фриас-Наварро 2 и Хуан Паскуаль-Льобелл 2
1 бизнес-школа, Университет Мэсси, Палмерстон-Норт, Новая Зеландия
2 Кафедра методологии поведенческих наук, Университет Валенсии, Валенсия, Испания
Комментарий
к отвращению психологической науки к нулю
авторы Heene, M., и Ferguson, CJ (2017). Психологическая наука под пристальным вниманием: недавние проблемы и предлагаемые решения, ред. С.О. Лилиенфельд и И.Д. Уолдман (Чичестер: John Wiley & Sons), 34–52 .
Хин и Фергюсон (2017) внесли важные эпистемологические, этические и дидактические идеи в дискуссию о проверке значимости нулевой гипотезы, главными из которых являются идеи о фальсификационизме, статистической силе, сомнительной статистической практике и предвзятости публикации. Каким бы важным ни был этот вклад, авторы не смогли полностью разрешить четыре недоразумения, которые мы хотели бы прояснить.
Одна путаница заключается в том, что нулевую гипотезу (H 0 ) приравнивают к случайности, когда «случайность» действительно присутствует в выборке. Мы действительно можем прочесть три различных случая случайности в тексте: связанные с образцом на страницах 36 (пробное исполнение) и 37; связана с альтернативной гипотезой (H A ) на стр. 41 («меньше вероятность наблюдать средние различия… далеко от истины… средняя разница 0,7»); и ассоциируется с H 0 по всему тексту, начиная со страницы 36. На самом деле H 0 просто заявляет о невлиянии на популяцию (H 0 : Δ = 0), в то время как H A заявляет о постоянном эффекте (например, H A: Δ = 0,7), соответствующие распределения предполагают случайную вариацию выборки в обоих случаях. Именно в (случайной) выборке находится «случайность», так как случайно мы можем выбрать выборку, которая показывает данный эффект (например, δ = 0,3), когда истинный эффект в популяции равен «0» (H 0 ) или «0,7» (H A ). Тесты Frequentist оценивают только вероятность получения наблюдаемого эффекта выборки при H 0, в то время как байесовская статистика также оценивает вероятность такого эффекта при H A (например, Rouder et al., 2009 ). Следовательно, p -значение сообщает не о гипотезе случайности, а о вероятности данных при H 0 ( Fisher, 1954 ).
Вторая проблема путает мощность с отсутствием истинных эффектов, что явно выражено на стр. 42, но также предлагается при обсуждении размеров выборки по всему тексту (стр. 36 и далее). Основной аргумент состоит в том, что большие размеры выборки позволяют достичь статистической значимости, так что нельзя упустить истинный эффект - что в то же время изображается как неэтичное, например, стр. 36, и смехотворные, например, стр. 44. В действительности, «мы не можем манипулировать размерами эффекта популяции» (стр. 41), поскольку они считаются постоянными в популяции (например, H A: Δ = 0,7), и значительный результат при мощности 50% не будет пропущен при мощности 80%. Как показано на рисунках 3.1A, C Хина и Фергюсона, мощность просто перемещает стойки ворот на реальной линии, уменьшая ошибку типа II (β), в то время как больший размер выборки также уменьшает стандартную ошибку. При перемещении стоек ворот меньшие (случайно) выборочные эффекты связываются с H A , что является правильной ассоциацией до тех пор, пока существует истинный эффект популяции. Таким образом, сила существует не для предотвращения пропущенных эффектов из-за небольшого размера выборки, а для того, чтобы иметь возможность обосновать, можем ли мы правдоподобно принять H 0, когда результаты не значимы ( Neyman, 1955 ; Cohen, 1988 ).
Третий вопрос касается фальсификационизма (стр. 35–37), который, по мнению авторов, невозможен в психологии, потому что мы никогда не принимаем H 0 , а только отвергаем его или не можем отвергнуть. В действительности частотные тесты логически основаны на modus tollens , допустимой форме аргумента для фальсификации утверждений ( Perezgonzalez, 2017a ). H 0 - это просто противоположность нашей исследовательской гипотезе, и отрицание H 0 позволяет нам подтвердить последнюю. Следовательно, частотные тесты являются в высшей степени фальсификационными, пытаясь опровергнуть H 0 с помощью аргументов редукции ( p , α; Mayo, 2017 ). Действительно, H 0даже не обязательно должен быть «нулем» в генеральной совокупности: мы могли бы идеально заменить фактическое значение нашей H A , чтобы мы могли доказать ложность теории со значительным результатом («сильный» тест, предложенный Meehl, 1997 ).
Четвертая проблема заключается в том, всегда ли мы должны быть в позиции принятия H 0 (что-то обсуждается на страницах 36–37). Это не обязательно так. Простое тестирование H 0 для отказа от него подходит, когда мы заинтересованы только в том, чтобы узнать о нашей исследовательской гипотезе (например, оказывает ли лечение эффект? - Perezgonzalez, 2016 ). В таком контексте H 0 предоставляет точную статистическую гипотезу для проведения теста, и, поскольку фактический параметр (Δ) неизвестен, он обеспечивает информативную ценность только через его отклонение ( Fisher, 1954 ), H 0 действует просто как «соломинка». человек »( Кортина и Данлэп, 1997). Это тестирование процедура была разработана не только в контексте малых образцов ( Fisher, 1954 ) , но отсутствие конкретного Н А исключает контроль ошибок типа II и мощности. ( Дальнейшим шагом может быть оценка эффектов, гарантированных согласно H 0 - Майо и Спанос, 2006 - или контроль размера выборки с помощью анализа чувствительности - Пересгонзалес, 2017b ).
Если мы хотим иметь возможность принимать H 0 , то мы заявляем, что мы также заинтересованы в возможном прекращении нашего вмешательства (то есть, если лечение не дает эффекта, мы хотим убедиться, что оно похоже на плацебо; Пересгонзалес, 2016 ). Это тестирование похоже на тестирование Фишера, но требует активного контроля над серьезностью, с которой должна проверяться альтернативная гипотеза (в идеале, ≥80% мощности; Neyman, 1955 ; Cohen, 1988 ). Такой контроль обязательно означает больше информации - точную альтернативную гипотезу (например, H A : μ 1 - μ 2 = 0,7, по сравнению с H 0 : μ 1 - μ 2 = 0) и указанную ошибку типа II для HA (например, β = 0,20) - чтобы можно было управлять мощностью теста (при заданных α, β и N ). Этот подход не только позволяет принять H 0, но также показывает, что мощность актуальна только для этой цели, а не для отклонения H 0 . Такой и аналогичные подходы также стали доступны после тестов значимости Фишера (например, Neyman and Pearson, 1928 ; Jeffreys, 1939 ).
В заключение, частотные подходы имеют дело только с вероятностью данных при H 0 [p (D | H 0 )]. Если мы хотим сказать что-нибудь о (апостериорной) вероятности гипотез, то необходим байесовский подход, чтобы подтвердить, какая гипотеза наиболее вероятна с учетом правдоподобия данных и априорных вероятностей самих гипотез ( Jeffreys, 1961). ; Гельман и др., 2013 ).
Вклад авторов
JDP инициировал и подготовил общий комментарий. DF и JP предоставили теоретические основы и отзывы. Все авторы одобрили окончательный вариант рукописи для подачи.
Заявление о конфликте интересов
Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могут быть истолкованы как потенциальный конфликт интересов.
использованная литература
Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук, 2-е изд . Нью-Йорк, Нью-Йорк: Психология Пресс.
Кортина, Дж. М., и Данлэп, В. П. (1997). О логике и цели тестирования значимости. Psychol. Методы 2, 161–172. DOI: 10.1037 / 1082-989X.2.2.161
CrossRef Полный текст | Google Scholar
Фишер, Р.А. (1954). Статистические методы для научных работников, 12-е изд. Эдинбург: Оливер и Бойд.
Гельман, А., Карлин, Дж. Б., Стерн, Х.С., Дансон, Д. Б., Вехтари, А., и Рубин, Д. Б. (2013). Байесовский анализ данных, 3-е изд . Бока-Ратон, Флорида: CRC Press.
Google Scholar
Хин, М., и Фергюсон, CJ (2017). «Отвращение психологической науки к нулю и то, почему многие вещи, которые вы считаете истинными, не соответствуют действительности», в « Психологическая наука под пристальным вниманием: недавние проблемы и предлагаемые решения» , ред. С.О. Лилиенфельд и И.Д. Уолдман (Чичестер: John Wiley & Sons) , 34–52.
Google Scholar
Джеффрис, Х. (1939). Теория вероятностей. Оксфорд: Clarendon Press.
Джеффрис, Х. (1961). Теория вероятностей, 3-е изд. Оксфорд: Clarendon Press.
Google Scholar
Мэйо, Д.Г. (2017). Если вы видите «пиление конечностей» в логике p-Value, значит, вы теряете край аргументов Reductio [запись в веб-журнале] . Доступно в Интернете по адресу: https://errorstatistics.com/2017/04/15/if-youre-seeing-limb-sawing-in-p-value-logic-youre-sawing-off-the-limbs-of-reductio- аргументы / .
Мэйо, Д.Г., и Спанос, А. (2006). Жесткие испытания как основная концепция индукционной философии Неймана-Пирсона. Br. J. Philos. Sci. 57, 323–357. DOI: 10.1093 / bjps / axl003
CrossRef Полный текст | Google Scholar
Миль, ЧП (1997). «Проблема в эпистемологии, а не в статистике: замените тесты значимости доверительными интервалами и количественно оцените точность рискованных численных прогнозов» в книге « Что, если бы не было тестов значимости?». редакторы Л.Л. Харлоу, С.А. Мулайк и Дж. Х. Стейгер (Махвах: Эрлбаум), 393–425.
Google Scholar
Нейман, Дж. (1955). Проблема индуктивного вывода. Commun. Pure Appl. Математика. 8, 13–45. DOI: 10.1002 / cpa.3160080103
CrossRef Полный текст | Google Scholar
Нейман, Дж., И Пирсон, Е.С. (1928). Об использовании и интерпретации определенных критериев испытаний для статистических выводов: часть I. Biometrika 20A, 175–240. DOI: 10.2307 / 2331945
CrossRef Полный текст | Google Scholar
Пересгонзалес, JD (2016). Комментарий: как байесовские факторы меняют научную практику. Фронт. Psychol. 7: 1504. DOI: 10.3389 / fpsyg.2016.01504
PubMed Аннотация | CrossRef Полный текст | Google Scholar
Пересгонзалес, JD (2017a). Комментарий: необходимость проверки байесовских гипотез в психологической науке. Фронт. Psychol. 8: 1434. DOI: 10.3389 / fpsyg.2017.01434
PubMed Аннотация | CrossRef Полный текст | Google Scholar
Пересгонзалес, JD (2017b). Статистическая чувствительность для поведенческих наук . Доступно в Интернете по адресу: https://osf.io/preprints/psyarxiv/qd3gu .
Rouder, JN, Speckman, PL, Sun, D., Morey, RD, and Iverson, G. (2009). Байесовские t-тесты для принятия и отклонения нулевой гипотезы. Психон. Бык. Ред. 16, 225–237. DOI: 10.3758 / PBR.16.2.225
PubMed Аннотация | CrossRef Полный текст | Google Scholar
Ключевые слова: проверка данных, проверка гипотез, проверка значимости нулевой гипотезы, величина эффекта, фальсификационизм, статистика.
Образец цитирования: Пересгонзалес Дж. Д., Фриас-Наварро Д. и Паскуаль-Льобелл Дж. (2017) Комментарий: Отвращение психологической науки к нулю. Фронт. Psychol . 8: 1715. DOI: 10.3389 / fpsyg.2017.01715
Поступило: 30 мая 2017 г .; Принята в печать: 19 сентября 2017 г .;
Опубликовано: 27 сентября 2017 г.
Отредактировано:
Ханнес Шретер , Немецкий институт образования взрослых (LG), Германия
Рассмотрено:
Даниэль Братцке , Тюбингенский университет, Германия
[5]. Текст взят из Википедии.