«Большим данным надо поставить задачу»

Исполнительный директор Ассоциации больших данных Алексей Нейман – о том, что могут и чего не могут большие данные, как их используют банки и могут ли простые люди извлечь из собственных данных выгоду.

21 ноября 2024 🕒 5 мин

Елена Ченцова

– Мы видим графики, которые показывают экспоненциальный рост объема данных. Значительная их часть – то, что собирает бизнес. Будет увеличиваться количество датчиков в городской среде, устройств интернета вещей. Как вы думаете, выйдет ли когда-нибудь этот объем данных, которые поступают отовсюду, на плато? Или они так и будут все время расти по экспоненте? И можно ли как-то описать структуру поступающих данных: какая доля генерируется нами, какая – бизнесом?

– Действительно, к 2025 году общий объем данных в мире превысит уже 175 зетабайт. Экспоненциальная динамика указывает на то, что данные вряд ли когда-либо выйдут на плато – их рост будет огромным и, скорее всего, ускорится. Причина тому – увеличение количества сенсоров, развитие интернета вещей (IoT) и мультимедийных данных.

Важно отметить, что около 80–90% этих данных неструктурированные и слабоструктурированные. Это логи, видео, аудио, тексты и другие типы данных, которые трудно анализировать в традиционных системах, предназначенных для работы со структурами.

Изображение сгенерировано с помощью нейросети Midjourney

– Что такое «логи»?

– Лог-файлы – это записи, с помощью которых в системах фиксируются технические события. Любое электронное устройство создает такие записи на своем «языке», и практически вся техника, имеющая электронную начинку, собирает данные. Это может быть информация о работе устройств, их взаимодействии друг с другом и даже о внешних событиях.

– Можете привести пример?

– Вы купили чашку кофе. Информация об этом сразу же попала в кассу, и факт продажи кофе был зафиксирован в фискальном чеке. Оплата кофе банковской картой на терминале зафиксировалась в банке по вашему счету. Если в кофейне была камера системы безопасности, она тоже зафиксировала этот момент, и даже кофейный аппарат записал событие о производстве кофе в свой лог-файл.

Возвращаясь к вопросу о росте объема данных: именно такие процессы и способствуют его экспоненциальному характеру. Большая часть этих данных неструктурированные или слабоструктурированные, как, например, посты в социальных сетях.

– Если мы представим весь путь освоения больших данных как некий отрезок, у которого есть начало – где компании только задумывались о том, что надо собирать большие данные и с ними работать – и конец – когда все данные собираются и анализируются в реальном времени – на Ваш взгляд, мы сейчас все, и бизнес, и общество, в какой части этого отрезка? В начале пути, в середине?

– Согласно нашему исследованию в ходе разработки Стратегии развития рынка больших данных до 2024 года, разные отрасли находятся на разных этапах внедрения этих технологий. Мы в Ассоциации выделяем три крупных сегмента. Первый – это лидеры, которые находятся на середине пути, такие как финансы, телекоммуникации и интернет-индустрия. Второй – догоняющие отрасли, такие как ретейл, e-commerce и девелопмент, которые начали использовать технологии чуть позже, но приближаются к лидерам. Третий сегмент – традиционные отрасли, такие как металлургия и нефтегаз, которые пока сильно отстают, хотя и здесь некоторые компании успешно реализуют проекты по работе с данными. Банкинг точно в числе лидеров, как и сектор B2C в целом, который развивается значительно быстрее других. Важно отметить, что эффект от использования больших данных в B2C секторе гораздо выше, чем в производственных отраслях, а затраты на внедрение и обслуживание технологий здесь ниже.

В целом рынок больших данных в России не такой большой и развивается не так быстро, как нам всем хотелось бы.

– Почему?

– Для того чтобы создать качественный цифровой продукт или цифровизировать ту или иную область, необходимо сначала четко понимать, зачем и как это делается: важно поставить цель и только под нее подбирать данные. Затем нужно убедиться, что эти данные доступны и качественны. Далее следует полный цикл анализа, формирования гипотез и их проверки. При положительном исходе вы сможете подтвердить, что модель или цифровую оптимизацию, которую вы планируете, имеет смысл внедрять экономически. Около 90% гипотез отсеиваются еще до этапа внедрения: они либо не подтверждаются, либо оказываются неэффективными, либо не хватает данных. Этот процесс также требует высоких компетенций и значительных затрат, но те, кто начал инвестировать в это раньше других, уже ощущают выгоды от цифровизации.

Есть теорема экономической оценки цифровых активов Шмарцо (Schmarzo), которая описывает три ключевых эффекта. Первый эффект заключается в том, что данные не изнашиваются и не истощаются, их можно многократно использовать с практически нулевыми предельными затратами. Второй эффект – повторное использование данных ускоряет их окупаемость и снижает риски на этапе реализации. Это как раз тот эффект, который сейчас получают банки, телеком и интернет-индустрия. Третий эффект, к которому эти отрасли стремительно приближаются, – это значительное увеличение экономической ценности данных. Когда аналитическая модель уточняется, все связанные с ней процессы и модели тоже становятся более эффективными, так как одно улучшение данных дает leverage-эффект в десятках или даже сотнях моделей.

– И банки уже близки к этому?

– Да, они уже смогли накопить огромное количество данных, поэтому получают этот эффект масштаба, когда можно что-то чуть-чуть улучшить и это улучшение распространяется на множество бизнес-процессов.

Девелоперы, ретейл и прочие подбираются к эффекту номер два. А консервативные отрасли пока экспериментируют и находятся возле экономического эффекта номер один, когда они уже начинают получать пользу от тех или иных решений, но пока не могут их масштабировать. Где-то уже есть очень хорошие результаты – например, в химическом производстве, у металлургов, в аграрном секторе по внедрению ML-моделей для оптимизации технологических процессов, работе с браком, предиктивной аналитике.

– Давайте перейдем к банкам как к флагманам в использовании больших данных. Лет семь-восемь назад считалось, что big data позволят делать более таргетированные предложения для потребителей. Но сейчас кажется, что банки получают наибольший экономический эффект от использования данных вовсе не в маркетинге, а, скорее, в скоринге, в отлаживании работы мобильных приложений и самих банковских операционных систем, чтобы минимизировать сбои. Так ли это? Как еще банкам помогает использование больших данных?

– Самый значимый эффект от использования больших данных – это скорость и точность оценки рисков. Правильная оценка рисков напрямую влияет на ключевые показатели бизнеса, такие как достаточность капитала и рентабельность. Поэтому около 90% усилий в работе с большими данными направлены именно на анализ рисков как в розничном, так и в корпоративном сегменте. К этому можно добавить и управление концентрацией рисков, например отслеживание групп связанных заемщиков.

– Но ведь связи между компаниями можно и раньше установить по отчетности.

– Большие данные открывают новые возможности для более широкой оценки взаимосвязей. Например, они позволяют не только анализировать производственные и финансовые цепочки, принадлежность к отрасли и владение, но и интегрировать различные виды финансовых взаимодействий, товаропотоков, а также информацию об управлении обеспечением (collateral management) и пр.

Если рассмотреть ковенанты в кредитных договорах, то большие данные позволяют создавать сложные ковенанты и проводить их мониторинг практически в реальном времени.

Еще одно важное направление применения больших данных – это кибербезопасность и антифрод. В механизм «знай своего клиента» (KYC) также приходят технологии больших данных, что позволяет анализировать клиентов по сотням различных критериев и их всевозможным комбинациям в формате 360°.

Кроме того, на пике внедрения находятся боты для взаимодействия с клиентами, поскольку большая часть проблем, с которыми сталкиваются пользователи, схожи и это позволяет оптимизировать работу кол-центров.

– Но ведь чат-боты существует уже лет десять?

– Ранее чат-боты могли решать лишь около половины стандартных проблем, но с развитием больших языковых моделей (LLM) теперь они способны справляться с гораздо более сложными задачами без вмешательства клиентского менеджера. Кроме того, за последние 10 лет также сделан значительный прогресс в области голосовых помощников – как с точки зрения качества общения, потому что действительно не всегда поймешь, что ты разговариваешь с машиной, так и с точки зрения количества доступных проблем и понимания той проблемы, которую клиент хочет решить.

Что касается наилучшего предложения для клиента (Next best offer или next best action), банки постепенно становятся не просто финансовыми учреждениями, а помощниками решения вопроса под ключ. Например, в сфере ипотечного кредитования акцент уже смещается не только на сам ипотечный продукт, но и на сопутствующие услуги, связанные с покупкой квартиры, и более того – на помощь в решении вопроса жилья для молодых семей.

Оптимизация внутренних процессов – это еще один важный аспект. Это то, с чего начинают многие компании при запуске цифровизации, и здесь достигаются первые эффекты. В банках это касается процессов принятия решений, андеррайтинга, управления ликвидностью и наличностью, включая, например, оптимизацию загрузки банкоматов.

Более того, крупные банки, накопившие значительное количество данных, уже начинают предлагать рынку свои аналитические продукты, обладая глубокими знаниями об экономике, домохозяйствах, компаниях и отраслях. На эти знания тоже есть спрос, и банки открывают новые для себя бизнесы и разрабатывают B2B-продукты, схожие с продуктами аналитических и консультационных агентств.

– Когда структуры, которые оперируют большими данными, строят модели, это все-таки просчитывание некой вероятности. Тот же скоринг – это просчитывание вероятности того, что конкретный человек или предприятие вернет кредит. У любой вероятности, у любого распределения есть «хвост» – случаи, которые не попадают в эту статистику. И есть опасение, что мы окажемся заложниками моделей, которые строятся на больших данных, и не сможем получить какую-то услугу, потому что модель тебя оценила тем или иным образом.

– Безусловно, риск для потребителя существует. Однако стоит отметить, что «хвосты» отбрасывались всегда. Ранее у вас была возможность прийти в банк, показать документы клиентскому менеджеру и доказать свою платежеспособность. Такая возможность остается и сегодня.

Если вы как потребитель соответствуете аппетиту к риску, который банк определил для себя, вы получите стандартный продукт на достаточно выгодных условиях, как и большинство клиентов. Если же вы сильно отличаетесь от этой группы, вам, скорее всего, потребуется персональное обслуживание, которое обычно обходится дороже. Тем не менее существуют банки и страховые компании с более высоким аппетитом к риску, и вы, возможно, сможете войти в их допустимые скор-баллы. Это аналогично работе микрофинансовых организаций, которые готовы предоставить займы под более высокий процент, потому что они готовы и умеют работать с такими рисками.

Если вы находитесь на краях распределения – либо о вас ничего не известно, либо вы не соответствуете профилю надежности, условно говоря, 99% клиентов банка, – вам нужно доказать, что вы входите в эти 99%, предоставив данные о себе, общаясь с клиентским менеджером, для уменьшения оценки вашего PD (probability of default). Массовая персонализация в современных банках уже стала де-факто отраслевым стандартом, поэтому вы всегда найдете учреждение, готовое работать с вами.

– На заре эры больших данных некоторые визионеры говорили, что big data наконец дадут нам возможность понять человеческие системы, которые стоят за нашими государственными, финансовыми и бизнес-системами. И мы сможем сделать эти системы эффективными. То есть в государстве не будет коррупции, финансовая сфера не будет обваливаться, банковские кризисы не будут происходить, система здравоохранения будет эффективной, больные не будут сидеть в коридоре и т. д. Сейчас, в 2024 году, это заявление, как вам кажется, излишне оптимистично или такой потенциал действительно есть?

– Большие данные способны выявлять сложные зависимости и повышать эффективность систем, однако к этому вопросу нужно подходить с определенной осторожностью. Они могут помочь обнаружить скрытые закономерности, улучшить прогнозирование и повысить точность, но не являются универсальным решением для всех системных проблем.

Эта технология эффективна для решения узкой и весьма конкретной задачи. Как уже упоминалось, в 8 или 9 случаях из 10 для решения даже простых задач не удается найти достаточно убедительные доказательства существования какой-либо закономерности. Если мы говорим о более сложных вопросах, таких как выстраивание самой эффективной и прозрачной банковской системы, не допускающей кризисов, то даже формулировать такие задачи для оптимизации с помощью статистического анализа данных бывает крайне трудно.

Простой пример – антифрод-мониторинг: «окрасить» все финансовые транзакции с точки зрения вероятности отнесения их к мошенническим – это задача, на эффективное решение которой можно потратить не один десяток лет целой команды специалистов. Кроме того, даже если два показателя или две сущности коррелируют, это необязательно означает наличие причинно-следственной связи. Направление ML, связанное с выявлением причинно-следственных связей и оценкой влияния одного показателя на другой – Causal inference, и сейчас основывается на графе зависимостей переменных, определяемых в первую очередь специалистами в исследуемой области, после чего уже добавляются статистические методы для оценки устойчивых причинно-следственных связей при наличии корреляций.

Таким образом, инструментарий для решения сложных и глобальных проблем существует, но следует двигаться шаг за шагом. Хотя технологии могут помочь в оптимизации многих процессов, роль человека и естественного интеллекта остается критически важной. Примером этого может служить ипотечный кризис 2008 года: даже при наличии современных моделей проблема заключалась не в самих моделях, а в чрезмерном аппетите к риску ипотечных банков и интерпретации результатов работы моделей.

– Что касается личных данных: законодательство их защищает достаточно строго. Но тем не менее мы все время получаем новости об утечках данных в любых их формах. Наверное, это факт, что наши персональные данные нам уже не принадлежат. Без согласия на обработку ты элементарно не получишь услугу, то есть выбора как такового нет. Поэтому, если уж мы не можем выбирать, может быть, мы можем как-то на этом зарабатывать?

– На площадке Ассоциации мы много обсуждаем вопрос персональных данных, но оцениваем ситуацию немного иначе. Данные являются ценным активом, однако ключевым моментом является не столько то, сколько вам должны платить за ваши данные, сколько та выгода или преференции, которые вы получаете в обмен на их предоставление.

Простым примером может служить ситуация с дисконтными картами. Если вы делитесь дополнительными данными о себе, вам, скорее всего, хотелось бы получать от этого какую-то отдачу. Сейчас это работает следующим образом: вы можете покупать товары в любом розничном магазине, используя дисконтную карту, и получать скидку за идентификацию или без идентификации – но и без скидки. Это ваш выбор.

Розничные магазины неслучайно предлагают такие скидки: они ценят эти данные и используют их для оптимизации своих внутренних процессов, таких как управление клиентским спросом, снижение логистических затрат, мерчандайзинг, формирование локального ассортимента, расширение розничной сети и пр. Таким образом, создается баланс между ценностью данных, которые вы предоставляете, для ретейлера, и теми выгодами, которые получаете, например, в виде более низкой цены на товар или подарков. Классическая рыночная ситуация win-win.

Мы считаем, что будущее должно двигаться в сторону более прозрачного социального контракта между вами как потребителем и владельцем ценных данных о себе и коммерческими компаниями, которые предлагают вам ценные услуги и товары, основываясь на ваших данных.

В свою очередь, хранение и защита данных, ответственность перед клиентом за их сохранность – это важная часть такого социального контракта между компанией и потребителем. Нарушение этих обязательств грозит не столько финансовыми последствиями, сколько значительными репутационными потерями. В современном мире, где клиенты все больше ценят безопасность своих данных, компании, не обеспечивающие их надлежащую защиту, рискуют столкнуться с потерей доверия.

Таким образом, отношения компании и потребителя должны основываться на прозрачных и защищенных условиях, где компания обязана соблюдать этот негласный договор. Это и станет базой для более эффективного взаимодействия в экономике данных, в которой мы очень скоро с вами окажемся.

Изображение на обложке сгенерировано с помощью нейросети Midjourney

теги:

Статья

О Промсвязьбанке

Нашли ошибку?

Если вы нашли ошибку или опечатку в тексте, выделите её мышкой и нажмите Ctrl + Enter