Введение

Цифровые платформы сегодня собирают огромный массив данных о поведении своих пользователей – от кликов и просмотров до движений курсора, времени просмотра и даже пауз при потреблении контента. Эти поведенческие сигналы, часто собираемые незаметно для самого пользователя, позволяют строить подробные цифровые профили людей. Современные алгоритмы машинного обучения анализируют такие «цифровые следы» и вычисляют оценки или скоринговые показатели, характеризующие привычки, интересы и даже личностные черты пользователя. Более того, новейшие исследования показывают, что на основе этих данных нейросети способны предсказывать будущие решения и состояния человека – иногда даже раньше, чем он сам их осознает. Подобные практики сулят выгоду компаниям (персонализация, удержание клиентов, снижение рисков), но порождают серьезные этические вопросы относительно приватности, возможных манипуляций и потери человеком автономии в принятии решений. Ниже представлен аналитический обзор актуальных (последних 3–5 лет) научных и прикладных исследований по данной тематике, с разбивкой по ключевым аспектам и примерами из различных сфер – от HRTech до социальных сетей.

Поведенческие сигналы и цифровое профилирование пользователей

Современные цифровые сервисы активно собирают как явные данные о пользователях (то, что человек сам указывает в профиле), так и неявные поведенческие данные – автоматические записи взаимодействий: клики, лайки, время просмотра, глубину скроллинга, последовательность действий и т.п. Специалисты выделяют две стратегии сбора данных: явный сбор (explicit), когда пользователь добровольно сообщает о своих интересах, и неявный (implicit), когда система сама динамически отслеживает действия пользователя (через куки, сенсоры, логи кликов и др.). Именно неявные поведенческие сигналы ныне выходят на первый план в профилировании: в исследовании 2024 г. отмечается сдвиг к «многомерному» профилированию – агрегированию разнообразных имплицитных данных о поведении пользователя (включая различные типы активностей) для построения точных моделей, при одновременном учёте вопросов приватности и справедливости.

Каждое действие в сети оставляет «цифровой след», по которому можно многое сказать о человеке. Классическим примером стало исследование Кембриджского университета и Microsoft Research, показавшее, что по нажатию кнопки «Like» в Facebook можно с высокой точностью предсказать интимные черты пользователя – от пола, возраста и ориентации до уровня интеллекта, политических взглядов и черт личности. Причём эти выводы делаются из на первый взгляд безобидной активности: “лайки” были названы учёными «универсальным классом цифровых записей», по аналогии с поисковыми запросами или историей браузера. Фактически, комбинация даже нескольких десятков разрозненных поведенческих индикаторов позволяет построить психологический профиль не хуже, чем это сделали бы близкие друзья пользователя. Таким образом, платформы могут собирать огромное число таких сигналов и автоматически вычислять поведенческий портрет или скоринговый балл для каждого пользователя.

Помимо социальных сетей, любой цифровой сервис формирует подобные профили на основе использования продукта. К примеру, стриминговый сервис Netflix учитывает время и способ взаимодействия с контентом: фиксирует, в какое время суток вы смотрите видео, на каком устройстве, сколько минут просматриваете тот или иной фильм, ставите ли оценку и т.д. – все эти сигналы поступают в алгоритмы рекомендаций. Известно, что Netflix не ориентируется напрямую на демографию (возраст, пол), а именно на поведенческие параметры, чтобы предугадать, какой контент вам понравится. Аналогично, платформа TikTok анализирует сотни факторов взаимодействия с видео: отметки «нравится», репосты, комментарии и особенно длительность просмотра – досмотрели ли ролик до конца, пересматривали ли его, пролистнули сразу или задержались на секунду. Исследование 2023 г. показало, что алгоритм TikTok способен выявить ключевые интересы нового пользователя всего за несколько десятков минут его скроллинга ленты. Даже такие тонкие сигналы, как небольшая пауза на видео (даже если пользователь его не лайкнул), алгоритм может трактовать как признак интереса, продолжая подсовывать похожий контент.

Стоит отметить, что поведенческие профили удивительно стабильны и уникальны для каждого человека. Недавнее крупномасштабное исследование с участием 780 добровольцев проанализировало данные о том, как люди пользуются приложениями на смартфоне, и обнаружило высокую последовательность поведенческого паттерна у каждого человека. Иными словами, у каждого из нас есть свой “цифровой почерк”. Более того, алгоритм смог по одному дню активности неизвестного пользователя с >70% точностью угадать, чей это профиль (среди сотен других участников). Иначе говоря, двух разных людей можно отличить друг от друга только по их анонимным поведенческим метрикам – настолько модели пользования устройствами уникальны. Это открывает как возможности (например, дополнительный фактор аутентификации или персонализации под “стиль” пользователя), так и риски для приватности, ведь такой профиль по сути становится аналогом цифрового отпечатка пальца.

Поведенческие скоринговые модели уже применяются в разных отраслях. В сфере финтех появился термин «alternative credit scoring» – альтернативный кредитный скоринг. Он подразумевает оценку кредитоспособности не только по финансовой истории, но и по цифровому следу человека: например, анализ профилей в соцсетях, активности смартфона, геолокации, способов оплаты и т.д. Такие решения особенно популярны в странах, где у части населения нет классической кредитной истории – поведенческий цифровой профиль служит заменой или дополнением к банковским данным. Исследования конца 2010-х показывали, что комбинация данных о том, как человек ведёт себя онлайн (например, какое устройство использует для входа, как часто совершает мелкие транзакции, насколько регулярно общается в соцсетях) может улучшать точность прогнозирования его платёжеспособности по сравнению с одними только анкетными данными. Аналогично, в Китае развивается система социального кредита, где граждан оценивают по множеству поведенческих параметров (от оплаты счетов до поведения в соцсетях) – такие баллы влияют на доступ к услугам, кредитам и пр. В целом, сбор и агрегирование разнородных поведенческих сигналов – от прокрутки страниц до данных геотрекинга – становится фундаментом для дальнейших предсказательных моделей, о которых речь пойдёт далее.

Предсказание решений и поведения пользователей алгоритмами

Накопленные массивы поведенческих данных служат не только для описания пользователя, но и для предсказания его будущих действий или состояний. За последние годы появились работы, демонстрирующие, как алгоритмы машинного обучения (включая нейросети) могут с высокой точностью угадывать важные решения человека – например, собирается ли он уйти с работы или прекратить пользоваться сервисом – зачастую заблаговременно.

Предсказание увольнения сотрудника. Яркий пример – алгоритм от IBM, который анализирует данные о работниках и способен заранее определить, кто из них в ближайшее время планирует уволиться. По заявлению IBM, их AI-модель «прогнозирования оттока кадров» достигает точности около 95% при выявлении сотрудников, находящихся в группе риска увольнения. Уже в 2019 г. сообщалось, что эта система с помощью Watson AI сэкономила компании порядка $300 млн, позволив удержать ценных специалистов до того, как они приняли окончательное решение об уходе. Модель учитывает множество параметров из HR-системы: сколько времени прошло с последнего повышения и как это соотносится с коллегами, насколько давно человек менял место работы, как далеко он добирается до офиса, перерабатывает ли, конкурентна ли его зарплата и т.д. На основании совокупности таких характеристик алгоритм выставляет индивидуальный «риск скор» увольнения. Высокий балл служит сигналом для менеджмента: работнику можно предложить меры удержания (новый проект, повышение, гибкий график), не дожидаясь, пока он сам сообщит о желании уйти. Интересно, что похожие инициативы были реализованы и в других корпорациях. Так, Hewlett-Packard (HP) ещё ранее внедрила аналитику “Flight Risk” для 300 тыс. своих сотрудников – предсказывая, кто, вероятно, покинет компанию – и тоже добилась существенного снижения текучести, сэкономив по оценкам до $300 млн. В открытой литературе описывается, что модель HP выявила нетривиальные шаблоны: например, сочетание высоких оценок работы с отсутствием существенной прибавки после повышения сильно увеличивает вероятность увольнения. Эти кейсы демонстрируют потенциал предиктивной аналитики в HR (HRTech): нейросеть может заметить назревающий уход ценного сотрудника задолго до того, как он сам обновит резюме.

Предсказание ухода клиента (оттока пользователей). Аналогичные модели широко применяются для прогнозирования оттока клиентов из сервисов – будь то пользователи соцсети, подписчики платформы или клиенты банка. Так называемая задача Churn Prediction давно решается методами машинного обучения, но в последние 3–5 лет точность вышла на новый уровень благодаря глубоким нейросетям. В 2024 г. группа исследователей представила гибридную нейросетевую модель CCP-Net, которая сочетает многоголовое внимание, BiLSTM и сверточные слои для анализа последовательностей действий клиентов. На тестовых данных из разных отраслей (телеком, банковские услуги, страхование, новостные медиа) эта модель предсказала уход клиентов с точностью (Precision) порядка 91–95%, превзойдя все предыдущие алгоритмы. Например, для телеком-оператора Precision = 92.2%, для банка ~92%, для страховой компании ~95.9%, что на 1–3% лучше аналогов. Практически это означает, что компания может заранее выявить конкретных пользователей, склонных перестать пользоваться услугой, и адресно принять меры (персональная скидка, звонок от поддержки и т.п.). Индустрия маркетинга уже активно использует такие подходы: социальные сети анализируют сигналы сниженного вовлечения (редкие заходы, короткие сессии) чтобы вернуть пользователя (например, посылая ему уведомления о пропущенных событиях), стриминг-сервисы выявляют тех, кто может не продлить подписку, а e-commerce площадки пытаются удержать уходящих клиентов специальными предложениями. Происходит это ещё до того, как сам пользователь решит “бросить” сервис окончательно – алгоритм предугадывает исход по изменению его поведения.

Предсказание эмоционального состояния. Ещё более тонкая задача – угадать внутреннее состояние или намерение пользователя до явного проявления. Однако и здесь достижения впечатляют. Впервые громко о таком заговорили, когда исследователи обнаружили, что по записям в соцсетях можно предсказать начало депрессии у человека за несколько месяцев до официального диагноза. В работе 2018 г. (University of Pennsylvania) проанализированы публикации пользователей Facebook за полгода до того, как им поставили диагноз депрессии – алгоритм машинного обучения сумел выявить характерные “лингвистические маркеры” и с высокой точностью отличал будущих пациентов от здоровых. Слова, указывающие на подавленность – упоминания одиночества, плача (“слёзы”), частое использование местоимения “я” – стали предвестниками заболевания. По сути, ИИ «распознал» надвигающуюся депрессию раньше, чем это сделал сам человек (или врачи), просто проанализировав цифровую активность. Подобные исследования дали начало направлению “цифровой фенотипизации” в медицине: по данным со смартфона (частота звонков, мобильная переписка, передвижения, образ жизни) пытаются в режиме реального времени отслеживать психическое состояние, уровень стресса или когнитивные изменения. Например, алгоритмы могут заметить, что пользователь всё реже отвечает друзьям, всё больше прослушивает грустную музыку и реже выходит из дома – комбинация таких поведенческих изменений может сигнализировать о начале депрессивного эпизода, ещё до того как человек сам осознал глубину проблемы.

Другие скрытые паттерны. Предиктивные модели проявляют себя и в неожиданных областях. Социальные сети, обладая данными о нашей активности, могут угадывать события личной жизни. Facebook еще несколько лет назад обнаружил, что по частоте и характеру взаимодействия двух пользователей можно заранее понять, что они вскоре начнут встречаться – задолго до того, как пара официально изменит статус отношений. Внутренний анализ соцсети показал всплеск обмена сообщениями между двумя будущими партнёрами примерно за 100 дней до объявления себя «в отношениях», а затем снижение онлайн-активности, когда отношения стали реальными. Иными словами, алгоритм Facebook «знал» о назревающем романе ещё до того, как пользователи сообщили об этом миру. В сфере онлайн-ритейла известен кейс, когда анализ покупательских паттернов позволил с высокой вероятностью определить беременность клиентки до каких-либо официальных подтверждений – сеть магазинов Target выяснила, что по изменению набора покупаемых товаров можно предсказать беременность женщины и даже приблизительный срок, и начала адресно присылать им рекламу, чем шокировала некоторых семей раньше, чем они сами готовы были раскрыть эту информацию. Этот случай (описанный в 2012 г.) предвосхитил нынешние алгоритмы, которые могут предвидеть жизненное событие по едва заметным признакам в поведении. Хотя подобные методы несут коммерческую ценность (зная о грядущем событии, бизнес может первым предложить релевантные услуги), они одновременно демонстрируют, насколько инвазивным может быть анализ больших данных: человек ещё не сделал публичного шага, а система уже сделала вывод и предприняла действие.

Обобщая, современные нейросетевые модели, обученные на больших массивах цифровых следов, превратились в своеобразные «хрустальные шары», прогнозирующие наши поступки. Они угадывают намерения сменить работу, предсказывают отъезд к конкуренту, выявляют психологические проблемы – причём во многих случаях делают это раньше и точнее, чем сами люди или традиционные методы. Эти технологии уже выходят за рамки лабораторий, внедряясь непосредственно в продукты и бизнес-процессы.

Применение поведенческих моделей в продуктах и бизнесе

Рассмотрим конкретные примеры, как описанные модели используются на практике различными компаниями и платформами.

HR и корпоративные системы

Крупные работодатели внедряют аналитику для управления персоналом. Уже упомянутая система IBM Watson в HR предоставляет клиентам инструмент прогнозирования увольнений сотрудников. Аналогичные решения («flight risk» скоринг) применялись в HP и сейчас включаются в продукты классических HRM-систем. Например, в пакете Workday и SuccessFactors появляются модули, предупреждающие менеджера о “риске потери” конкретного сотрудника на основе динамики его показателей. Прогностические модели найма помогают отбирать кандидатов с высокой вероятностью успеха – так, Google анализировал данные интервью и карьерного пути, чтобы статистически предсказать, кто из новых сотрудников продержится долго. Также существуют стартапы, предлагающие оценку «удовлетворенности» или выгорания персонала в режиме реального времени (по переписке, активности в корпоративных приложениях). Корпоративные службы безопасности используют UEBA (User and Entity Behavior Analytics) для выявления аномалий в поведении сотрудников как признаков инсайдерских угроз – система профилирует “нормальное” поведение каждого и сигнализирует, если пользователь отклоняется (например, массово скачивает данные ночью, хотя обычно так не делает).

Социальные сети и онлайн-платформы.