Big Data, технологии машинного обучения и боты в борьбе за человеческий капитал
Анонс
Томский государственный университет поделился опытом нестандартного приема в инвайтинге, который позволил получить абитуриентов с высоким потенциалом.

На нашей конференции по digital маркетингу Томский государственный университет поделился опытом нестандартного приема в инвайтинге, который позволил получить абитуриентов с высоким потенциалом. Используя технологии машинного обучения и работу с большими данными, по цифровым следам в социальной сети ВКонтакте ученые ТГУ определили 9000 одаренных детей и пригласили их в вуз.
  
Доклад на конференции делал Артем Фещенко – (ТГУ) Разработчик методов анализа данных социального профиля В Контакте.

Речь пойдет об абитуриентах, которые поступают на высшее образование. Несколько слов о том, в какой конкурентной ситуации сегодня находится вузы, в том числе Томский государственный университет.
Вуз участник программы 5-100 с высокими амбициями попасть в 100 лучших. Сейчас это, примерно, 300 позиция. И основной капитал человеческий. Большая ставка на привлечение талантов. Поэтому умение распознать в своей целевой аудитории одаренных детей, способность их привлечь в качестве студентов в ТГУ, удержать, и вырастить из них ученых с мировым именем – это одна из новых задач, которую мы пытались решать.

Если посмотреть на анализ конкурентной среды, то для нас очевидны были 4 проблемы:

  • Борьба за абитуриентов с высоким потенциалом (таланты, soft-skills)
  • Стереотипное поведение высокобальников. Подают заявки в столичные вузы
  • ЕГЭ и победы на олимпиадах не являются точными индикаторами талантливости
  • Традиционный рекрутинг сильно ограничен в пространстве 
Основная проблема в том, что такие признаки как креативность, лидерские качества и другие мета навыки или soft-skills, к сожалению, не отражаются в формальных метриках. Достоверных данных о том, что из себя представляет ребенок, кроме баллов ЕГЭ и участия в олимпиадах, университет не мог нигде получить.
Мы попытались найти решение всех четырех проблем с помощью технологии сбора и анализа больших данных и инструментов digital маркетинга и, в первую очередь, нами велась активная работа в социальных сетях.

Мы знаем, что цифровые следы клиента остаются и фиксируются в социальных сетях. Они достаточно богатые. И их можно совершенно бесплатно взять. По крайней мере, в России в некоторых социальных сетях запрета на выгрузку таких данных еще нет. С Facebook все гораздо сложнее. Там нужно платить за скачивание таких данных. Причем здесь есть разграничение между персональными данными и пользовательскими. Мы имеем дело только с пользовательскими данными, которые ребенок в сети оставляет публично. Ни к личной переписке, ни к паспортным данным, номеру телефона, email у нас доступа нет. Соответственно, мы чисты перед буквой закона и не нарушаем законодательство о персональных данных.
Big Data Mining – задача выгрузки разнородных данных в большом объеме тоже сейчас решается достаточно легко. Мы используем одну социальную сеть «В Контакте», потому что наша аудитория именно там.

Анализ данных с помощью методов математической статистики и психологии, это, на наш взгляд, то ноу-хау, которое открыли мы.
Конечно, мы не были первыми. Первый кейс, который был у всех на слуху – это выборы Трампа. К этому руку приложили, как говорит сарафанное радио, не только спецслужбы России, но и во многом труды Михаила Козинского и его исследования по определению психотипа по методике большой пятерки. Так вот избирательный штаб Трампа использовал таргетинговую рекламу в Facebook. Учитывая психотип человека, подбирали такие предвыборные лозунги и обещания, которые показывались именно тем людям, на кого они были рассчитаны. Во-многом, именно благодаря этому конверсия в голосование, по мнению аналитиков, была успешной.
Такой прием с пользовательскими данными проделывался позже во многих странах неоднократно, но попытку продавать образовательные услуги и работать с такими сложными и трудноуловимыми характеристиками пока никто не пробовал.

Метод анализа позволил нам по определенным признакам ранжировать всю нашу аудитории и выделить топ претендентов, на которых была сфокусирована дальнейшая работа прямых коммуникаций и приглашение в университет. Конечно, выявить аудиторию – недостаточно. Нужно умело и эффективно эту коммуникацию организовать, а здесь уже smm плюс контент маркетинг.

Мы выбрали два типа данных. Первые это тексты, которые пишут пользователи на стене. Мы работали и с репостами, т.е с цитированием чужого контента из сообществ.
Одна из первых задач – это определение интересов предметных и проф-ориентирующих, которая подсказывает нам на какой факультет ребенка приглашать. Здесь есть существенные ограничения при работе с текстами, потому что методы компьютерной лингвистики позволяют делать, более менее, точный прогноз при больших объемах текста.
В соц. сетях мы столкнулись со следующим:

  • стена содержит исключительно репосты
  • тексты очень короткие
  • вместо текстов картинки
Технологии расшифровки и анализа изображения в мире сейчас практикуются, но мы пока не пошли по этому пути.
По большинству успешных исследований достаточно информативный источник это анализ подписок пользователя и его лайков. Мы пришли к таким же выводам. Мы выбрали целевые индикаторы: интеллект, креативность, личностная мотивация. Именно такой абитуриент нужен университету. Ну и, понятно, образовательные интересы, т.к нужно понять на какой факультет приглашать. Потому что традиционно использующийся до этого подход в социальных сетях – это общая группа для абитуриентов, в которой уникальное предложение не сфокусировано на потребности ребенка. Мы попытались изменить эту ситуацию и выявить детей, которые собираются поступать на физику, математику, философию и т.д.

Мы попробовали 6 методов машинного обучения.

Мы анализировали профили 126 тысяч человек. У каждого, в среднем, сто подписок. В итоге мы имели дело с объемом отдельных переменных (признаков) около 10 миллионов. Благодаря исследованию мы выбрали детей, у которых точно высокий уровень интеллекта. Показали машинному алгоритму их профили. Машина обучилась. Выявила определенные закономерности или признаки, которые связаны с интеллектом или креативностью, и дальше в-основой выборке данных ищет детей с похожими признаками. Примерно так работает метод машинного обучения.
В результате нам удалось построить компьютерную цифровую модель прогноза по всем целевым индикаторам на основе данных, которые мы видим в профиле человека.
Модель прогноза и ее точность, в зависимости от индикатора или признака, разная. От 62% до 82% Наиболее точно мы, например, определяем гуманитарный склад ума. Чуть менее точно высокий уровень интеллекта и креативность. Труднее всего с определением детей, которым интересны предметы естественно-научные и точные науки. В силу того, что контента в социальной сети В Контакте по этим темам не так много.
Мы нашли в 2017 году четыреста тысяч аккаунтов. Произведя простой анализ, мы выяснили, что только 126 тысяч аккаунтов – это реальные дети, не забросившие свой аккаунт. Проанализировано более 10 миллионов сообществ. Самое интересное, что для того чтобы построит прогностическую модель по какому-то интересующему вас признаку нужна первоначальная выборка. Нужно найти, например, клиентов, которые точно соответствуют нужной вам характеристике. У нас была такая выборка. Это 6000 человек. Это дети, которые проходили серьезную психодиагностику, профориентацию, и в электронном виде результаты были зафиксированы.

Второй этап – настройка коммуникации.

Что мы делали в соц. сети после того, как определен круг кандидатов. Из 126 тысяч мы можем прямую коммуникацию осуществить только с 10 тысячами. Это инвайтинг. Т.е мы писали в личку. Нам нужно было понять, каким контентом привлечь аудиторию, поэтому перед этим провели исследование по абитуриентам всего СФО. Это анкетирование около тысячи человек. Мы выяснили те темы, которые волнуют ребенка или его родителя, когда они выбирают вуз. На основе этой аналитики мы составили рейтинг тем. Их было всего 26. И уже продумывали контент план для специальных сообществ исходя из этой раскладки. Ну например, оказалось, что контент план, который есть в официальном сообществе университета для абитуриентов не совпадает процентов на 60% с теми информационными запросами, которые есть сейчас у детей.
Мы полностью отказались от открытой рекламы в специальных публиках. Мы старались встраивать ссылки на университет не сразу, а ближе подбираясь к приемной кампании. Ну, например, мы рассказываем про философский факультет вообще абстрактно. Что это такое, какие там бывают дисциплины, какими проектами занимаются ребята и в качестве примера давали ссылку на факультет ТГУ. Ни к чему не призывая.

Как мы приглашали детей?

При первом контакте, который мы осуществляли с ребятами, мы тоже поменяли тактику. Раньше мы писали: «Привет, мы ТГУ, приглашаем тебя туда-то» И очень частая реакция была – нажатие кнопки «Пожаловаться».
В этот раз мы представлялись, как исследовательская группа, которая занимается исследованием данных людей в социальных сетях. Мы писали: «Мы разработали алгоритм на основе искусственного интеллекта, который определяет склад умы . Наш алгоритм говорит, что ты гуманитарий. Если ты хочешь узнать почему, приглашаем тебя в специальное сообщество»
И это работало лучше, чем раньше.

Воронка продаж выглядела у нас так:
  1.  Инвайтинг 9000 человек
  2. Переход в сообщества 10%
  3. Подано заявлений 200
  4. Поступили 56 человек