статистична обробка даних

Заїка Сергій · Суб квітня 16, 2011 12:03 pm

Все наверняка сталкивались с проблемами быстрой стат. обработки данных, но не всегда знают о возможностях подручных программ, в т.ч. MS-EXCEL. Так как пришлось потратить некоторое время на разборки, делюсь с дорогими коллегами, чтобы они не повторяли мои ошибки.

Несколько слов о расчёте t-критерия Стьюдента в MS-EXCEL.

Функция ТТЕСТ требует выбрать тип теста:
1 Парный,
2 Двухвыборочный с равными дисперсиями (для зависимых выборок),
3 Двухвыборочный с неравными дисперсиями (для независимых выборок).

Чтобы определить тип для двух выборок требуется выполнить ФТЕСТ (f-критерий Фишера). Выбираем уровень значимости 0,95. Если результат ФТЕСТ будет больше 0,05, то дисперсии равны (ТТЕСТ тип 2); если результат ФТЕСТ будет меньше 0,05, то дисперсии различны (ТТЕСТ тип 3) при заданном уровне значимости. Результат ТТЕСТа следует вычесть из 100 – это и будет уровень вероятности, не приближенный, как если бы использовались таблицы, а точный. Удачи!

opossum · Суб квітня 23, 2011 4:11 pm

Лично мое мнение: эксель не годится для статистической обработки. Закроем глаза на то, что у нас врядли есть его лицензионная версия. Пусть он остается хорошей программой для хранения массивов данных.

Есть отличный вариант для статистики - PAST (http://folk.uio.no/ohammer/past/). Бесплатный, для установки не нужны админские права, занимает до смешного мало места (3.8Мб) и предназначена ИМЕННО для стат.анализа. Возможностей очень много! В ПАСТе есть подсказки, какую именно гипотезу тестировали (о том, что средние одинаковы, или распределение нормально.... и др.). Конечно, есть минус - программа только на английском.

И еще. Сергей, что это значит?

Результат ТТЕСТа следует вычесть из 100 – это и будет уровень вероятности

Уровень вероятности чего? Того что средние значения выборок одинаковы???? И почему вычитать надо из ста?

И как на счет принятого в данном исследовании уровня значимости? Если, допустим, эксель по ТТЕСТу показывает 0,05864 - то я должна согласиться с тем, что средние моих выборок одинаковые или нет (если для меня очень важно чтобы ошибка не превышала 1%, т.е. 0,01)?

Маша Гхазали

zag · Суб квітня 23, 2011 4:57 pm

Думаю, что вычитание из 100 - это остаток вероятности. если вероятность сохранения нуль-гипотезы - 5% (0,05), то вероятность ее опровержения - 95 % (0,95; 100-5=95). эксель, конечно, создан не для статобратобки, но она там в ряде случаев удобна. я, напр., прямо в экселе считаю коэф. корреляции, показатели разнообразия, базовую статистику (дисперчии и пр., а также коэф. отличий на основе дисперсий). а эта "ваша" програмка - лицензионная? дайте ссылку для скачки.

кстати, о статистике. недавно мне прислали интересную фразу об СПСС: "Социологи в России делятся на тех, кто думает, что социология - это забота о благе народа и тех, кто знает SPSS. Первые глупы, вторые скучны."....

opossum · Суб квітня 23, 2011 6:37 pm

ссылка есть в тексте моего сообщения.
лицензионная - нет. она бесплатная, постоянно дополняемая.
у нее, конечно, есть создатели и ссылка на них желательна при ее использовании.
на сайте все написано: http://www.nhm.uio.no/norges/past/download.html

Придираясь к буквам сообщения Сергея, (100 - 0,***), где 0,*** - результат ТТЕСТа. Это не имеет смысла. Или человек не разобрался, или сделал глупую ошибку. И, вообще, зачем чего-то вычитать? Что непонятного: ту вероятность, которую получили, сравниваем с уровнем значимости; если она больше уровня значимости, то нулевую гипотезу принимаем, меньше - опровергаем.

Я еще досмотрела: что за путаница в зависимых и независимых выборках, когда речь идет о гомо- и гетероскедастичности?!

Полезные советы надо внимательно давать. И нести ответственность за стаи тупиков, которые это прочитают и потом будут шокировать своим "знанием".

Заїка Сергій · Суб травня 14, 2011 1:40 pm

И как на счет принятого в данном исследовании уровня значимости?
Если, допустим, эксель по ТТЕСТу показывает 0,05864 - то я должна согласиться с тем, что средние моих выборок одинаковые или нет (если для меня очень важно чтобы ошибка не превышала 1%, т.е. 0,01)?

Это значит:

критическое значение вероятности того, что средние не отличаются 0,05864 (такой уровень вероятности списывается на действие случайных факторов) при принятом уровне значимости 0,01 О-гипотеза о равности средних подтверждается (так как 0,01<0,05864, т.е. укладывается в "случайные факторы") Уровень значимости подбирается каждым исследователем совершенно произвольно "на свой страх и риск". Практика показала, что в биологических исследованиях наиболее достоверные результаты могут быть получены при ур.зн. 0,01 и 0,05, т.к. действие изучаемых факторов в таком случае охватывает 99% и 95% площади нормального распределения соответственно, оставляя на долю ошибки (действия случайных факторов) не более 1% и 5%. На самом деле уровней значимости больше чем в соответствующей таблице.

поэтому, Exel да и, к слову сказать, PAST возвращают критическое значение вероятности действия случайных факторов (при котором О-гипотеза о равности средних подтверждается). Если мы хотим отбросить О-гипотезу, то наш (произвольно выбранный) уровень значимости должен превышать критический (тогда действие неучтенных-случайных факторов будет перекрываться действием нашего-нужного фактора, разумеется, доказательства выводов при этом "чем дальше тем больше" теряют силу). Вот откуда " вычесть из 100". Геометрическая площадь нормального распределения принимается за 100%, тогда действие случайных факторов (вероятность) будет составлять некий % от этой площади: при уровне значимости 0,01 - 1%. В нашем примере сл. ф-ры составляют 5,8%, что заставляет принять О-гипотезу. Соответственно действие неслучайных факторов охватывает 94% и отбросить О-гипотезу можно на уровне значимости 0,06. Значимо это или нет могут показать повторные исследования.

ТЕРІОЛОГІЧНА ШКОЛА