9 июл. 2009 г.

R, OpenOffice, языки описания графов и социальные сети

В последнее время у нас накопилось много данных о структуре социальных сетей. Во всех случаях эти массивы достаточно велики и требуют машинной обработки. В этом посте я хочу поделиться сугубо технологическими приёмами работы с массивами сетевых данных.



1. Предварительные сведения
1.1. Для статистического анализа социальных сетей есть много разных программ. Мы пользуемся, в основном, R и — на подготовительном этапе — Open Office’ом. В R эти вычисления реализованы в пакете sna (Social Network Analysis), подробнее о котором можно почитать здесь. После того, как он загружен и установлен, подключение его в командной строке R выполняется рутинной командой

> library('sna')

1.2. Одной из красивостей, из предоставляемых пакетом sna, является возможность нарисовать свою сеть. Предположим, что наши данные содержатся в матрице network (о том, как её создать, см. ниже).

> gplot(network)

Если нужно сохранить эту картинку, то процедура такова

> png('network.png')
> gplot(network)
> dev.off()


Подробнее о команде png() см. во встроенной помощи R

> help('png')

1.3. Ввод готовой матрицы смежности (adjacency matrix) или социоматрицы из табличного редактора (напр. Calc’a или Excel’я) в R не отличается от рутинных процедур

а) сначала нужно выделить и скопировать в буфер саму матрицу;
б) ввести в командной строке R

> network=read.table('clipboard')

(важно, чтобы в заголовках строк и столбцов не было кириллицы).

2. Формирование массива сетевых данных.
2.1. Существует, по крайней мере, два способа описания сетевых данных: матрица смежности и текстовое описание (его разновидностями являются языки gdl и dgl).

Матрица смежности позволяет напрямую вычислить ряд основных параметров социальной сети, но её создание в случае больших сетей очень трудоёмко. Описание сети на формализированном языке программирования, близком к человеческому, существенно легче, но не даёт возможности сразу получать статистики — описание сети нужно как-то перевести в матрицу смежности.

В связи с этим я попросил нашего программиста Сашу Остапенко написать макрос, который бы переводил описание сети с gdl в матрицу смежности.

*************************
REM ***** BASIC *****

Sub Main

Dim i As Integer, j As Integer, k As Integer, l As Integer, n As Integer, m As Integer
Dim nodes(1) As String, edges(1,1) As Integer
Dim r As Integer, t As Integer
Dim Doc As Object, Sheet As Object, Cell As Object
Dim str As String, strn(1) As String

Doc=StarDesktop.CurrentComponent
Sheet=Doc.Sheets(0)
Cell=Sheet.getCellByPosition(0,0)
str=Cell.getString

i=0 : r=0

Do While Left(str,1)<>"}"
If Left(str,5)="node:" Then
r=r+1
End If
i=i+1
Cell=Sheet.getCellByPosition(0,i)
str=Cell.getString
Loop

t=i

ReDim nodes(r-1)
ReDim edges(r-1,r-1)

For i=0 to r-1
For j=0 to r-1
edges(i,j)=0
Next j
Next i

j=0

For i=0 To t
Cell=Sheet.getCellByPosition(0,i)
str=Cell.getString
If Left(str,5)="node:" Then
k=InStr(str,chr(34))
l=InStr(k+1,str,chr(34))
nodes(j)=Mid(str,k+1,l-k-1)
j=j+1
End If
Next i

j=0

For i=0 To t
Cell=Sheet.getCellByPosition(0,i)
str=Cell.getString
If Left(str,5)="edge:" Then
k=InStr(str,"source: ")
l=InStr(str,"target: ")
strn(0)=Mid(str,k+9,InStr(k+9,str,chr(34))-k-9)
strn(1)=Mid(str,l+9,InStr(l+9,str,chr(34))-l-9)
For j=0 to r-1
Select Case nodes(j)
Case strn(0): m=j
Case strn(1): n=j
End Select
Next j

edges(m,n)=1
' edges(n,m)=1
End If

Next i

k=0 : l=0
Sheet = Doc.createInstance("com.sun.star.sheet.Spreadsheet")
Doc.Sheets.insertByName("Матрица смежности", Sheet)
Sheet = Doc.Sheets.getByName("Матрица смежности")

For i=0 to r-1
Cell=Sheet.getCellByPosition(i+1,0)
Cell.String = nodes(i)
Cell=Sheet.getCellByPosition(0,i+1)
Cell.String = nodes(i)
Next i

For i=0 to r-1
For j=0 to r-1
Cell=Sheet.getCellByPosition(i+1,j+1)
Cell.Value=edges(i,j)
Next j
Next i

MsgBox "Готово! Автор макроса Александр Остапенко, 2009"
End Sub
*************************


Примечание: этот макрос даёт на выходе матрицу смежности ориентированного графа. Если же требуется граф неориентированный, то нужно раскомментировать строчку

edges(n,m)=1

2.2. В отличие от коммерческого языка gdl, описание графа на языке dgl (т.е. файл с расширением .dot) можно напрямую экспортировать в R, для чего в составе пакета sna предусмотрена команда read.dot

>network=read.dot('~/network.dot')


Читать далее

5 июл. 2009 г.

Результаты операционного исследования "Экспериментальное изучение эффективности привлечения клиентов в МСМ-проекты через социальные онлайн-сети"

Доклад на рабочей встрече МСМ-проектов, финансируемых МБФ "Международный Альянс по ВИЧ/СПИДу в Украине", 2-4 июля 2009 г.




Уважаемые коллеги,

прежде чем я начну рассказывать об основных результатах, я хочу выразить благодарность тем людям, которые активно участвовали в этом исследовании: Марине Варбан, Анне Довбах, Мирославе Дебелюк, Святославу Шеремету, а также членам региональных команд из Киева, Одессы, Донецка и Харькова.

В социологии крайне редко появляются работы собственно экспериментальные, т.е. такие, когда исследователь изменяет один параметр системы, оставляя неизменными прочие, и смотрит, что получается. Эта работа — из этих редкостей, поэтому имеет она не только прикладное значение быть основой принятия управленческого решения, но и ценна в академическом ключе.

Для чего всё это делалось?

Как вы знаете, чтобы победить эпидемию, нужно охватить профилактикой определённую и достаточно большую долю людей — в этом случае инфекция не сможет распространяться. В случае ВИЧ минимальный, по расчётам ВОЗ, охват должен быть не ниже 60% особенно уязвимых популяций. Украине пока далеко до таких объёмов, поэтому остро стоит задача сделать так, чтобы в ВИЧ-профилактические проекты общественных организаций приходило как можно большее число людей. Увы, в нашем случае, группа МСМ есть группа скрытая и наученная годами и даже столетиями гонений не высовываться. Кроме того, что завоевать её доверие непросто, весьма нетривиальной представляется и проблема даже простой передачи информации о том, что там-то и сям-то можно получить специфические услуги.

Мы не будем здесь подробно останавливаться на описании того, как это делалось до сих пор. Важно, что используемые пока способы хоть и работают, но не дают по ряду причин желаемого охвата целевой группы услугами. Поэтому встаёт задача разработать и апробировать иные способы.

Самое первое, что приходит на ум современному человеку — воспользоваться помощью интернета, а точнее сайтов знакомств. Собственно, наше исследование и было посвящено проверке того, насколько эта идея пригодна практически.


Любое исследование должно подтверждать или опровергать какие-то предположения, гипотезы. Без них оно — не более, чем удовлетворение праздного любопытства.

Таких предположений мы сделали три.


Первая гипотеза вытекает из теории «сетевого общества» М. Кастельса, в рамках которой сформулированы законы его существования: а) сетевая структура состоит из узлов (технических, информационных, социальных и т.п.), б) обмен информацией между двумя точками, когда они выступают узлами одной социальной структуры, будет интенсивнее, чем тогда, когда они не принадлежат одной сети.

Забегая вперёд, скажу, что это полностью подтвердилось — если у организации, предоставляющей какие-то услуги для МСМ, есть активные представители в числе пользователей сайта знакомств, то другие пользователи этого сайта будут охотнее обращаться в эту организацию.

Вторая связана с тем, что в крупных городах охват населения интернет-услугами выше, соответственно у МСМ из крупных городов есть больше возможностей пользоваться услугами сайтов знакомств (напр., по результатам недавнего опроса 816 МСМ Киева, Винницы и Черновцов, проведённого организацией «Гей-альянс», в сельских регионах 39% опрошенных не пользуются Интернетом, тогда как в Киеве МСМ, не пользующиеся Интернетом, составили 30%).

Эта гипотеза скорее не подтвердилась, но т.к. общее количество привлечённых во время реализации этого проекта МСМ невелико (об этом — ниже), то мы предпочитаем не быть категоричными в ответе на этот вопрос.

Как же исследование было реализовано?

Вначале координатор исследования со стороны Заказчика (МБФ «Международный Альянс по ВИЧ/СПИДу в Украине») Марина Варбан договорилась с владельцем одного из русскоязычных сайтов знакомств для геев и бисексуалов о том, чтобы разослать пользователям из четырёх избранных областей (Киевской, Харьковской, Одесской и Донецкой) с промежутком в две недели сообщения с информацией о действующих в этих областях МСМ-сервисных проектах.


Первое сообщение было нейтральным:

Мы можем разминуться в толпе прохожих, и не заметить друг друга.
Мы можем жить на одной лестничной площадке и не знать друг друга.
Мы можем работать в одном офисе и ни разу не заговорить друг с другом.
Мир одиночек.
Это скучно…
Это грустно…
Это неправильно!

Мы хотим изменений.
Приходи!


(контактные данные организаций для пользователей из разных областей, естественно, отличались). Оно рассылалось от имени администрации сайта и рядовой пользователь (потенциальный клиент) не мог отреагировать привычным ему образом (т.е. написать что-то в ответ).

Текст второго сообщения содержал перечень услуг, оказываемых МСМ-сервисным проектом:

У нас собираются отличные парни. У нас ты можешь БЕСПЛАТНО пройти обследование на ВИЧ, болезни, передающиеся половым путем, получить консультацию юриста, психолога или врача. Еще мы БЕСПЛАТНО раздаем презервативы и лубриканты.

А деньги ты сможешь потратить на что-то другое.


Второе сообщение рассылалось со специально созданного каждой местной организацией профайла, на котором была указана по крайней мере минимально-необходимая контактная информация. Рядовой пользователь сайта знакомств уже мог писать в ответ: задавать вопросы, выражать эмоции и получать отклик от сотрудников организации.

Чтобы увеличить аудиторию потенциальных клиентов МСМ-проектов, текст второго сообщения был несколько раз размещён на досках объявлений date.bluesystem.ru в соответствующих регионах.

Результаты рассылок фиксировались двумя способами. Для обращений по телефону и через профайл организации каждая организация завела специальный журнал. Визиты потенциального клиента в офис организации фиксировались социальным работником, который проводил опрос пришедшего по анкете, а также знакомил человека с работой своей организации.


Параллельно с полевым этапом (рассылка сообщений и фиксацией откликов на них) проводился этап кабинетного исследования, во время которого была сформирована репрезентативная рандомизированная выборка 760 профайлов пользователей Qguys.ru из четырёх изучаемых регионов.

Оказалось, что лишь треть зарегистрированных пользователей Qguys.ru могли оперативно знакомиться с рассылаемой информацией о действующих МСМ-сервисных проектах.


Из этой трети какая-то часть людей может воспринять сообщение как спам или не захотеть общаться с неизвестной организацией или группой. Таким образом, результативность разосланной информации не может быть слишком высокой из-за действия описанных факторов. В то же время, можно надеяться, что отклики потенциальных клиентов растянутся на продолжительное время — сразу откликнутся или не откликнутся те, кто часто бывает на своём профайле, позже — те, кто бывает редко.

Рассмотрим соотношение числа посланных сообщений и откликов пользователей на них.

Таблица 1.
РегионСообщенияОтклики
посланные (число профайлов)полученные (число «живых» профайлов)на первое (по телефону)на второе (через профайл организации)личные визиты в организацию
Все регионы1886450936321935
Киев и область917524773111214
Донецк и область14944036392
Одесса и область17294675335
Харьков и область1468396213514


В первой строке приведены суммарные по всем регионам данные. Видно, что разрыв между количеством посланных сообщений и откликов на них огромен. Отчасти это поясняется тем, что реализация исследования пришлась на майские праздники и начало периода летних отпусков, поэтому мы полагаем, что отклики на рассылку будут длиться, по крайней мере, ещё полгода.

Кабинетное исследование дало нам "нулевую точку" — социодемографический и идентичностный портрет пользователя Qguys.ru. Подробно он будет описан в Отчёте, а на слайде представлены самые основные данные.


Возраст пользователей простирается от 18 до 78 лет, средний возраст — 28 лет, модальный — 26 лет. Треть пользователей состояла на момент регистрации профайла в официальном гетеросексуальном браке или пребывала в неофициальном гетеросексуальном сожительстве, у одной десятой есть дети. У 38% есть однополый партнёр. Важно также, что половина тех, у кого есть однополый партнёр, есть ещё и жена или сожительница. Почти две трети пользователей Qguys.ru идентифицировали себя как «геи», остальные — преимущественно как «бисексуалы». В среднем одна десятая пользователей занимается или готова заняться сексом за деньги.

Отклики на рассылку через профайл организации, звонки потенциальных клиентов по телефону и анкетирование пришедших людей в организации дал нам три списка потребностей.


В звонках по телефону доминирует информационный запрос: узнать о деятельности организации захотели 58% позвонивших. На втором месте стоит желание потенциальных клиентов познакомиться и поучаствовать в группах встреч, т.е. тем или иным способом расширить круг общения с себе подобными.

В откликах через профайл организации главное место принадлежит отсутствию интереса к разосланной информации: это и негативное (блокировка профайла организации, требования "больше не спамить" — 11% откликов) и дежурная благодарность за сообщение без дальнейшего развития диалога.



Людей, которые пришли лично, было немного — 35 человек. Поэтому их потребности мы просто проранжировали в порядке убывания частоты упоминания.


Видно, что на первом месте стоят консультации специалистов, второе место занимает "халява" - получить что-то бесплатное, тогда как желание знакомиться (стабильно занимавшее второе место в предыдущих списках потребностей) — почти в самом конце.

Таким образом, основные результаты операционного исследования:

Разработан и апробирован способ привлечения клиентов в МСМ-сервисные проекты с использованием сайтов знакомств. Показано, что использование социальных онлайн-сетей для привлечения клиентов в МСМ-сервисные проекты малоэффективно — рассылка приглашений с информацией об услугах проектов через профайлы сайтов знакомств существенно не увеличивает посещаемость тех организаций, чьи контактные данные указаны в информационных сообщениях.

Качественно выявлен эффект мультипликации информационных потоков: посланные информационные сообщения спровоцировали обращения потенциальных клиентов на личные профайлы сотрудников МСМ-сервисных проектов, размещённые на других сайтах знакомств (в частности, входящих в систему Mamba (love.gay.ru, love.mail.ru, facelink.ru и т. п.). Таким образом, можно утверждать, что проявился эффект социальной сети: люди, не имеющие профайла на одном сайте знакомств, узнают от своих знакомых, которые имеют там профайл, рассылаемую информацию и обращаются к тем, кто причастен к организации-источнику сообщения, с уточняющими вопросами.

Изучены потребности МСМ, откликнувшихся на информационное сообщение. Показано, что наиболее востребованы (в порядке уменьшения приоритета) услуги психолога, консультации специалистов-медиков, бесплатные презервативы и лубриканты, бесплатное тестирование и обследование на сифилис и другие ИППП, бесплатное лечение сифилиса и других ИППП, вечеринки/дискотеки и другие развлекательные мероприятия, возможность знакомиться и проводить время вместе с такими же людьми, бытовые услуги (прачечная, душ, ночлег и др.), бесплатное тестирование на ВИЧ. Опрошенные клиенты не испытывают потребности в консультациях по преодолению наркотической зависимости, бесплатном обследовании на гепатит-Б, телефоне доверия и в услугах спортивных тренажёров.

На материале рандомизированной выборки 760 профайлов пользователей сайта знакомств Qguys.ru изучены характеристики МСМ, являющихся членами этой онлайн-сети.


Читать далее