В социологии, экономике и эпидемиологии существуют такие переменные, которые могут принимать только два значения: да – нет, купил – не купил, заболел – не заболел. В ряде случаев, в таком же виде можно представить и другие характеристики, напр. возраст до 25 – 25 и старше.
Если одна из таких переменных (её ещё называют
объясняемой) зависит от других факторов (
объясняющих переменных), то можно построить уравнение, коэффициенты которого будут свидетельствовать о вероятности для объясняемой переменной принять одно из двух альтернативных значений.
Такое уравнение называется бинарной логистической регрессией.
p(y) = b0+b1*x1+b2*x2+ ... + bn*xn (*)
bi = ln(ORi)
ORi = ebi (**)
Вычисление либо параметров этого уравнения, либо соответствующих им отношений шансов и составляет сугубо математическую часть работы.
В самом простейшем случае, когда объясняющая переменная одна и принимает только два значения, всё сводится к вычислению отношения шансов по простейшей таблице 2×2:
OR = (A / B) / (C / D),
где A, B, C, D — соответственно количества респондентов в таблице (они не должны равняться нулю):
| | Фактор (объясняющая переменная) |
| | действовал | не действовал |
Событие (объясняемая переменная) | произошло | A | C |
не произошло | B | D |
Конечно, такие простые ситуации чрезвычайно редки: как правило, объясняемая переменная зависит от нескольких параметров. Например, ответ на вопрос, купит ли человек компьютер, зависит не только от его уровня дохода, но и от возраста (при одинаково высоком доходе люди старше 60 лет существенно реже могут нуждаться в компьютере), профессии (скажем, учёные и офисные работники чаще чем грузчики будут нуждаться в компьютере), места жительства (обитатели крупных городов с развитой инфраструктурой компьютерных магазинов чаще становятся покупателями компьютеров, чем жители малых городов и сёл).
Ситуация усложняется ещё и тем, что объясняющие переменные могут зависеть друг от друга. Например, среди жителей малых городов и сёл реже встречаются учёные и офисные работники, может быть более весома доля старшего поколения (вузы расположены в крупных городах и соответственно туда едет молодёжь учиться) и ниже уровень доходов у большинства населения.
Именно поэтому использование бинарной логистической регрессии (собственно, как и любого другого метода) не сводится только к выполнению вычислений. Важную роль играет построение модели (какие объясняющие переменные включать в уравнение), осмысление результатов анализа, корректировка исходного уравнения и формулирование выводов.
Что касается интерпретации результатов, то она похожа на интерпретацию значений OR: если их диапазон при заданном доверительном интервале не включает в себя единицу, то рассматриваемый фактор значимо влияет на объясняемую переменную.
Практический пример
Рассмотрим общий алгоритм работы с данными. Примером послужат сведения о клиентах проекта «Сеть», выполнявшегося в трёх областях Украины в 2009–2010 гг. при финансовой поддержке Федерального министерства здравоохранения Германии, организации «Коннект Плюс» и Центра «Наш мир».
Проект охватил 2331 мужчин, имеющих сексуальные отношения с мужчинами. Каждому из них социальный работник (перед тем, как выдать контакты дружественных специалистов, презервативы и смазку для анального секса) рассказывал о проекте, его целях и задачах, а также заполнял (с согласия клиента) небольшую анкету: возраст, семейное положение, кто из окружающих знает о гомо- или бисексуальной ориентации клиента, предпочитаемые им способы знакомства и общения с другими МСМ, а также востребованность услуг проекта. Ряд процедур был направлен на исключение дублировавшихся у разных социальных работников клиентов и на проверку достоверности зафиксированной информации.
0. Формулировка гипотезы
Указанная выше информация была необходима для оценки хода выполнения проектных задач. Тем не менее на её основе можно попытаться проверить гипотезу о связи виртуального и реального пространств гомосексуальной субкультуры: существует мнение, что те мужчины, которые избегают гомосексуальной тусовки (плешка, гей-клуб, приватные вечеринки на квартирах), преимущественно ищут контактов через виртуальные средства коммуникации (интернет, телетекст, объявления). Иными словами, среди тех, кто пользуется телетекстом и интернетом, будет меньше доля ходящих, к примеру, на плешку, чем среди не пользующихся этими виртуальными средствами.
Опросник содержал два пункта, с помощью которых соцработники выясняли характер связей клиента с местным ЛГБТ/МСМ/ЖСЖ-сообществом:
— «Контакты с темой» с вариантами «не контактирует», «тематический клуб», «вечеринки у друзей из темы», «плешка» (можно было указать или на отсутствие контактов, или выбрать все подходящие из оставшихся).
— «Как знакомится с другими геями» с вариантами «через Интернет», «в тематическом клубе», «на плешке», «через друзей», «через телетекст», «другое» (можно было указать все подходящие варианты или не указывать ничего).
— «Как был установлен контакт?» с вариантами «через интернет», «в гей-клубе», «на плешке», «через друзей», «в гей-организации», «через телетекст», «другое» (социальный работник должен был отметить только один подходящий вариант).
Очевидно, что за исключением интернета и телетекста все эти пункты описывают те или иные сообщества, которые делают возможными установление социальных связей разного плана, в том числе поиск партнёра, и которые структурируют пространство города (из проведённых качественных исследований известно, что в современных украинских городах (за исключением, пожалуй, Киева) в силу неразвитости инфраструктуры местных ЛГБТ-сообществ плешка, группы друзей и, в меньшей степени, клуб функционируют как единое пространство).
В отличие от этого, интернет и телетекст являются лишь механизмами, опосредующими первый контакт двух незнакомых людей, сводящими к минимуму воможные риски нежелательного раскрытия конфиденциальной для человека информации. Их пользователи могут обладать какими-то общими характеристиками, но эти люди являются скорее совокупностью, чем сообществом.
Именно поэтому, на этапе обработки была создана новая переменная, описывающая принадлежность респондента к четырём сообществам (тематический клуб, круг «друзей по теме» и плешка. Напр., если респондент хотя бы в одном из указанных трёх пунктов получал отметку возле плешки, то в этой новой переменной он обозначался как имеющий отношение к сообществу плешки.
1. Выбор объясняемой переменной (следует как можно более понятно описать, что именно мы считаем событием)
Исходя из гипотезы, событием мы будем считать принадлежность клиента к совокупности пользователей телетекста (т. е. либо клиент упомянул телетекст среди своих обычных способов знакомства с другими МСМ, либо с ним был установлен контакт с помощью телетекста).
2. Выбор объясняющих переменных и построение модели
Гипотеза связывает большую вероятность наступления события («клиент пользуется телетекстом») и отрицание клиентом своей принадлежности к не-виртуальным гомосексуальным сообществам. Следовательно, уравнение регрессии должно связывать пользование телетекстом и принадлежность к сообществам плешки и групп друзей (для простоты изложения мы исключаем посетителей гей-клубов — их немного).
3. Расчёты с R
Мои данные содержатся под именем network2010. Присоединим их:
> attach(network2010)
Расчёт логистической регресии по уравнению (*) производится командой glm():
> summary(glm(teletext~cruising+parties, family=binomial))
teletext — имя объясняемой переменной, cruising, parties — соответствующие имена объясняющих переменных, family=binomial — аргумент, указывающий программе на то, что нас интересует именно бинарная регрессия.
В ответ машина выдаёт:
Call:
glm(formula = teletext ~ cruising + parties, family = binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.4623 −0.8461 0.9171 0.9171 1.7049
Coefficients: | | | | |
| Estimate | Std. Error | z value | Pr(>|z|) |
(Intercept) | -1.1872 | 0.1624 | -7.310 | *** |
cruising(«да») | 1.4917 | 0.1137 | 13.121 | *** |
parties(«да») | 0.3440 | 0.1543 | 2.229 | * |
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2163.8 on 1560 degrees of freedom
Residual deviance: 1970.4 on 1557 degrees of freedom
(770 observations deleted due to missingness)
AIC: 1978.4
Number of Fisher Scoring iterations: 4
Цифры рядом с объясняющими переменными — это соответствующие коэффициенты bi и их стандартное отклонение.
Пересечение с осью ординат (intercept) даёт при экспоненцировании отношение рисков наступления события в том случае, когда отсутствуют какие-либо факторы.
Значения Pr(>|z|) характеризуют вероятность того, что коэффициенты bi равны нулю (чем меньше эта вероятность, тем лучше, ведь если коэффициент при объясняющей переменной равен нулю, то эта переменная не вносит никакого вклада в объясняемую). Справа находится колонка, содержащая астериксы (*), указывающие на значимость переменных (линия снизу, названная «Signif. Codes», даёт расшифровку этим значениям: три астерикса (***) означают, что p-value находится между 0 и 0.001, два (**) — между 0.001 и 0.01, один (*) — между 0.01 и 0.05 , точка (.) — между 0.05 и 0.1, а пробел — p-value принимает значения между 0.1 и 1.0).
Коэффициенты b можно, конечно, вручную пересчитать в OR по уравнению (**), но лучше поручить это компьютеру. Для этого установим и подключим необходимую библиотеку. При наличии интернета введём в терминал R:
> install.packages(epicalc)
> library(epicalc)
Теперь мы можем просто написать:
> logistic.display(glm(teletext~cruising+parties, family=binomial), decimal=1)
аргумент decimal=1 указывает R, что результаты следует показать с точностью до одной десятой.
В ответ машина выдаёт:
Logistic regression predicting teletext
| crude OR(95%CI) | adj. OR(95%CI) | P(Wald's test) | P(LR-test) |
cruising: («да») vs («нет») | 4.3 (3.5, 5.4) | 4.4 (3.6, 5.6) | < 0.001 | < 0.001 |
parties: («да») vs («нет») | 1.4 (1.1, 1.9) | 1.4 (1.0, 1.9) | 0.03 | 0.03 |
Log-likelihood = −985.217
No. of observations = 1561
AIC value = 1978.434
Отношения шансов объясняющих переменных подгоняются (are adjusted) друг к другу. «Сырые» (crude) OR программа рассчитывает так, как если бы каждая объясняющая переменная была единственной. Поскольку в нашем случае «подогнанные» OR не сильно отличаются от «сырых», то это значит, что объясняющие переменные являются независимыми друг от друга.
4. Интерпретация полученных результатов
Обе объясняющих переменные (принадлежность к сообществу плешки и к «группам друзей») являются дихотомичными. Соответственно, отношение шансов для переменной «плешка» (cruising) сравнивает тех, кто её посещает, и тех, кто туда не ходит. То же самое относится и к переменной «группы друзей» (parties).
OR для «плешки» составляет 4.4, при этом интервал значений не включает единицу (от 3.6 до 5.6). Это значит, что принадлежность к сообществу плешки связана с использованием телетекста для знакомств с другими МСМ — те, кто ходит на плешку, более чем в четыре раза чаще тех, кто на плешку не ходит, пользуются телетекстом.
В отличие от плешки, интервал значений OR для «групп друзей» единицу включает (от 1.0 до 1.9), т. е. в отношении телетекста не обнаруживается существенных различий между теми МСМ, которые поддерживают контакты с другими МСМ через «группы друзей», и теми, кто предпочитает другие способы общения.
Гипотетическим пояснением этим результатам может с нашей точки зрения служить то, что плешка представляет собой значительно более публичное пространство, чем группа друзей — на плешку может прийти всякий и она предполагает значительную анонимность случайного секса. В отличие от неё «группа друзей», собирающаяся на квартире, хотя и может включать в себя людей, приведённых с плешки, является всё же пространством личным — туда попадают только те, кто «вписывается» в требования как хозяина квартиры, так и его хороших знакомых.
Соответственно, мужчины, идущие на встречу с незнакомцем после непродолжительной беседы по телефону (в телетексте публикуются смс-объявления с указанием номера мобильного телефона, с которого они были посланы), действуют аналогично тому, как они вели бы себя на плешке: пришёл — увидел — поимел :) Иными словами, секс как следствие объявления в телетексте, точно также как секс при знакомстве в туалете, не предполагает знакомства.
В отношении же выдвинутой гипотезы («те мужчины, которые избегают гомосексуальной тусовки, преимущественно ищут контактов через виртуальные средства коммуникации») можно сказать, что эти результаты её не подтверждают.
Следовательно, телетекст может служить вспомогательным к аутрич-работе на плешках средством в установлении контакта с целевой аудиторией МСМ-ориентированных ВИЧ-профилактических проектов, но он не даёт качественно иной группы клиентов для социальной работы специализированных объединений граждан.
Использованные источники
1. Virasakdi Chongsuvivatwong. Analysis of Epidemiological Data Using R and Epicalc [Электронный ресурс] / Epidemiology Unit Prince of Songkla University, THAILAND. — 316 p. — Режим доступа: http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf
2. Teetor P. R Cookbook. — O’Reilly Media, Inc., 2011. — 416 p.
3. Logos T. Simple logistic regression on qualitative dichotomic variables [Электронный ресурс]. — Режим доступа: http://www.r-bloggers.com/simple-logistic-regression-on-qualitative-dichotomic-variables/
Автор: Максим КАСЯНЧУК
Читать далее