Статистические данные принято сейчас разделять на непрерывные, дискретные (тяжесть состояния, стадия болезни и т.д.) и категориальные («да» или «нет», «+» или «-», мужской или женский). До сих пор ведутся споры, какие именно данные к какому виду относить. В медицинских исследованиях чаще всего имеют дело с непрерывными данными. Если эти данные правильно собраны, т. е. различаются только по степени выраженности данного признака и совпадают по всем другим признакам, то эти данные характеризуются нормальным (гауссовым) распределением плотности вероятности значений изучаемого признака и не имеют «выбросов» (отдельных резко отличающихся значений изучаемого признака ). График нормального распределения имеет «колоколообразную» форму и характеризуется только двумя величинами – математическое ожидание (арифметическое среднее)
а и стандартное отклонение
s (
s^(2) называется дисперсией). Максимум такого графика (плотность вероятности математического ожидания) равен 1/
s√(2π). Математическое ожидание
а определяет положение графика вдоль оси абсцисс, стандартное отклонение
s определяет «сжатость» такого графика. Таким образом, если у двух или нескольких рядов данных значения
а и
s совпадают, то и графики плотности вероятности этих рядов также совпадают, т. е. эти ряды данных не отличаются друг от друга.
Если проанализировать суть дискретных и категориальных данных, то обнаружится, что каждому дискретному значению или каждой категории соответствует своё нормальное распределение непрерывных данных, но с незначительным стандартным отклонением. (У категориальных данных стандартное отклонение крайне мало, т. е. графики нормального распределения для каждой категории очень «сжаты», но оно существует. Например, мужчины различаются по уровню мужских половых гормонов, а женщины различаются по уровню женских половых гормонов, кроме того существуют нарушения нормального полового кариотипа и результаты специального лечения). Таким образом, любые данные изначально являются непрерывными, и только потом они искусственно подразделяются на дискретные и категориальные для удобства изучения.
Сейчас в медицинских исследованиях широко пользуются величиной «достоверности»
р. При этом считается, что если
р<0,05, то различия достоверны, т. е. вероятность того, что различия являются случайными составляет менее 5%. Но это также означает, что 1 из 20 таких выводов является ложным. Значение
р=0,05 для установления достоверности принято произвольно и совершенно ничем не обосновано.
Установим значения показателей рядов данных, которые позволят достоверно различать эти ряды друг от друга. При этом число значений изучаемого признака в контрольном ряду данных должно быть не меньше числа
N значений изучаемого признака в опытном ряду данных, т. е. число объектов изучения в контроле должно быть не меньше числа объектов изучения в опыте. Как было сказано выше, ряды данных совпадают, если совпадают значения их показателей
а и
s. Именно в выраженности этого совпадения (или отличия) и заключается достоверность отличия опытного ряда данных от контрольного.
Пусть
ак и
sк – показатели контрольного ряда,
ао и
sо – показатели опытного ряда. Тогда если
|
ао -
ак|/
ао > 1/
Nи |
sо -
sк|/
sо > 1/
N,
то различия между опытным и контрольным рядами достоверны. (Напомним, что
N – это число объектов изучения в опытном ряду). Если хотя бы одно из этих неравенств нарушается, то различия между опытным и контрольным рядами случайны.
Только такое определение достоверности различия опытного и контрольного рядов данных позволяет надёжно установить реальность тех или иных медицинских явлений и их взаимосвязи.