Термин «шанс» пришёл из азартных игр и означает отношение числа выигрышей к числу проигрышей или, другими словами, отношение числа случаев, когда событие наступило, к числу случаев, когда оно не наступило.
Расчёт отношения шансов
Расчёт отношения шансов для набора данных несложен: необходимо построить таблицу сопряжённости так, чтобы в первой строке стояла группа испытуемых, а в первом столбце — фактор риска.
Рассмотрим первый пример
Представьте, что Вы решили провести обследование мутации в гене X, предположительно вызывающего некую болезнь. Вы проанализировали гены однородных групп заболевших и здоровых и нашли, что распределение мутаций выглядит так (табл. 1):
Таблица 1.
Наличие мутации | Отсутствие мутации | Всего | |
Группа заболевших | A = 332 | B = 164 | 496 |
Контрольная группа (оставшиеся здоровыми) | C = 230 | D = 262 | 492 |
Всего | 562 | 426 | 988 |
Сначала необходимо вычислить вероятность воздействия факторов риска (в данном случае, наличия мутации) в группе заболевших и в группе оставшихся здоровыми. Шанс того, что фактор риска есть в этих группах, рассчитывается так:
Шанс найти мутацию в группе заболевших = (A x (A + B))/(B x (A + B)) = A/B = 332/164 = 2.0244
Шанс найти мутацию в контрольной группе = (C x (C + D))/(D x (C + D)) = C/D = 230/262 = 0.8779
Затем следует найти OR путём деления шансов найти мутацию в группе заболевших и в контрольной группе:
OR = 2.0244/0.8779 = 2.306
Если свести все эти действия в одну формулу, то получим
OR = (A/B)/(C/D) = (А x D)/(В х С) = (332×262)/(164×230) = 2.306
... и это именно та формула, которая используется для определения OR.
Рассмотрим второй пример
Предположим, что в выборке из 100 мужчин 90 пили вино в предыдущую неделю, а в выборке из 100 женщин только 20 пили вино в тот же период (табл. 2).
Таблица 2.
Пили | Не пили | Всего | |
Мужчины | A = 90 | B = 10 | 100 |
Женщины | C = 20 | D = 80 | 100 |
Всего | 110 | 90 | 200 |
Шанс мужчины быть в группе пивших вино 90:10 или 9:1, в то время как шанс женщины быть в группе пивших только 20:80 или 1:4 (0.25:1). Отношение шансов, таким образом, 9/0.25 = 36 показывает, что мужчины склонны гораздо чаще пить вино, чем женщины.
Расчет OR (воздействия фактора риска) является хорошим инструментом, но поскольку он основан на выборке, то он является не более чем оценкой. Точность этой оценки отчасти зависит от размера выборки, и, в целом, чем больше выборка, тем правдоподобнее оценка (хотя следует с большой осторожностью подходить к интерпретации OR в исследованиях с огромными размерами выборки). По этой причине кроме расчёта OR обычно вычисляют и стандартное отклонение (SE) с доверительным интервалом (p) 95%.
Есть несколько различных способов расчёта SE при заданном p для отношения шансов. Приведём один из них:
при p = 95% ln(SE) = 1.96(1/A + 1/B + 1/C + 1/D)^0.5
Для первого примера:
при p = 95% ln(SE) = 1.96(1/332 + 1/164 + 1/230 + 1/262)^0.5 = 0.25760567, соответственно
OR ± SE = от e^0.57790875 до e^0.25760567 или от 1.7823073 до 2.9835686
Для второго примера:
при p = 95% ln(SE) = 1.96(1/90 + 1/10 + 1/20 + 1/80)^0.5 = 0.817
OR ± SE = 36 ± 2.26
В этих примерах доверительный интервал составляет 95%, но если нужно воспользоваться другой шириной доверительного интервала, то следует заменить 1.96 в уравнении соответствующим стандартным для нормального распределения значением.
Интерпретация отношения шансов
Предполагаемый фактор риска является значимым (т. е. с большой вероятностью вызовет наступление события, напр. болезнь), если OR больше единицы.
Следует иметь в виду, что само по себе значение OR нечувствительно к размеру выборки (напр., если во втором примере мы используем вдесятеро меньшие значения, то тоже получим OR = 36), однако от размера выборки зависит размер стандартного отклонения (так, во втором примере при вдесятеро меньших значениях мы вместо 2.26 получим SE = 13, т. е. ошибка измерения составит 37%).
Примечания
1. Этот материал является вольным переводом странички http://slack.ser.man.ac.uk/theory/association_odds.html с добавлением примера из http://en.wikipedia.org/wiki/Odds_ratio
2. В доступной форме эти вопросы изложены в Британском медицинском журнале за 2000 г.
3. Ошибки, возникающие при некритичном применении OR, рассмотрены в статье http://www.jstor.org/pss/3582428
4. Cм. тж. материал «Odds ratio. Отношение шансов и логистическая регрессия» Александра Виноградова.
5 коментарів:
Мы благодарим к. м. н. Александра Харламова за высказанные им замечания, существенно улучшившие этот материал.
Спасибо за статью.
Мне очень важно было знать, что это кому-то пригодилось. Спасибо!
Формула для расчета доверительного интервала неверная
https://en.wikipedia.org/wiki/Odds_ratio
Спасибо огромное за материал. Просто и понятно.
Дописати коментар