Управление финансами

«Большие данные»: как из мухи делают слона

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?

«Большие данные», о необходимости которых все время говорили аналитики, стали фикцией. Такой вывод можно сделать, сопоставив сентябрьские отчеты PwC и Accenture на эту тему. Представители бизнеса плохо понимают, что такое «большие данные»: каждый называет этим термином что-то свое. В прошлогодней статье The Washington Post утверждалось, что этот термин вообще не означает ничего определенного; если принять эту версию, он не имеет смысла.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое. По типичному пресс-релизу «Компания N внедрила решение Big Data» невозможно понять, о какой системе идет речь, как она работает и в чем ее польза. В результате этот сегмент рынка не производит впечатление устойчивого и надежного.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое

Рассуждая о «больших данных», аналитики PwC дают им странное определение: это«новая волна электронной информации, получаемой в большом объеме из растущего количества источников (т.е. не просто данные, собранные отдельной организацией в ходе своей обычной деятельности)» — «the recent wave of electronic information produced in greater volume by a growing number of sources (i.e., not just data collected by a particular organisation in the course of normal business)».

ИТ-специалисты и маркетологи сразу заметят, что это определение ведет к путанице, неверным ответам респондентов на вопросы аналитиков и ошибочным решениям в бизнесе. Конечно же, данные, собираемые из фиксированного количества источников одной организацией в ходе своей обычной деятельности, тоже бывают «большими». В том же отчете PwC приведен пример: оператор собрал данные о 25 млн своих клиентов (очевидно, речь идет о статистике сеансов связи) и сделал бесхитростный вывод, что сеть нового поколения (4G) выгоднее всего строить вдоль главных транспортных магистралей.

Аналитики Accenture не решились дать в отчете свое определение, а лишь отметили, что «у многих компаний есть разные определения больших данных». Зато они привели результаты опроса 1007 специалистов, использующих эти данные на практике. Респонденты с сильным сомнением отнесли к «большим» данные следующих категорий (или из следующих источников):

  1. Файлы объемом более 20 терабайт (так считают 65% респондентов).
  2. Углубленная аналитика или анализ (60%).
  3. Данные от программ визуализации (50%).
  4. Данные из социальных сетей (48%).
  5. Неструктурированные данные (видео, открытый текст, звукозапись) (43%).
  6. Геолокационные данные (38%).
  7. Социальные медиа / мониторинг / преобразование (37%).
  8. Телематика (34%).
  9. Неструктурированные данные / логи / произвольный текст (25%).

Ответы респондентов на вопрос: «Что из перечисленного вы считаете частью больших данных (независимо от использования этого в вашей компании)?»

Источник: Accenture, сентябрь 2014

Эта бессистемная классификация напоминает знаменитую «китайскую классификацию животных» Борхеса. Впрочем, главное в ней — это признание того факта, что к «большим данным» относятся обычные информационные объекты, с которыми люди работали (создавали, изучали, систематизировали, использовали в бизнесе) задолго до появления компьютеров: книги, служебные документы, фотографии и так далее. Ничего сложного.

К «большим данным» относятся обычные информационные объекты, с которыми люди работали задолго до появления компьютеров: книги, служебные документы, фотографии и так далее

Ниже я дам правильное определение «больших данных», а пока — несколько слов о происхождении этого термина и его применении в ИТ-индустрии. Он возник в научной среде как неопределенный образ, означающий, по мнению некоторых авторов, просто «ценную исследовательскую информацию» («research data can also be big by being of lasting significance»). Вскоре его заметили маркетологи, решив, что он поможет увеличить продажи. Например, продажи компьютеров.

Представьте, что вы выпускаете хорошие компьютеры. Они надежны и годами работают в дата-центрах клиентов. Те довольны и не хотят покупать новые. Зачем, если старые отлично работают, решая все задачи бизнеса?

В такой ситуации полезно подкинуть клиентам новые задачи. Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи. Но для этого нужны особые компьютеры, которые непременно должны работать в кластерах, то есть распределять одну задачу на 10, а лучше на 100 системных блоков, одновременно выполняющих вычисления. Поэтому их надо покупать в большом количестве, заполняя длинные ряды серверных стоек.

Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи

У системных администраторов есть шуточное определение «больших данных»: «Если на одном сервере не умещаются, значит большие». В этой шутке есть доля истины: термин часто ассоциируется с распределенными вычислениями. Многие вендоры продают в качестве готовых решений для «больших данных» серверы с пакетом программ «Хадуп» (Hadoop) или подобным. Считается, что он упростит клиенту программирование для распределения своей задачи на несколько системных блоков. В остальном это просто серверы: обычная конфигурация включает корпус со сдвоенным блоком питания, системную плату с CPU и модулями памяти, HDD и Linux в придачу.

Распределенные вычисления — это не отличительный признак «больших данных». И, конечно, этим признаком не является «Хадуп», тем более что он рассчитан только на узкий класс задач. Остальные, не укладывающиеся в его парадигму, требуют принципиально других решений.

Распределенные вычисления — это не отличительный признак «больших данных»

Есть много способов повысить эффективность бизнеса с помощью анализа собранных данных на одном компьютере, безо всяких распределенных вычислений. Вспомните: статистические данные успешно анализировали и 20, и 30 лет назад — а в то время «сервер корпоративного уровня» за сотни тысяч долларов сильно уступал современному бытовому компьютеру.

Итак, что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата. Специалисты называют «большим» массив или поток информации, если его структура, объем или иные особенности не позволяют решить конкретную задачу по его обработке с помощью стандартных, общепризнанных, проверенных временем технологий. В таких случаях приходится искать нестандартные, уникальные решения или менять постановку задачи.

Что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата

Один и тот же массив данных (скажем, статистика покупок в сети магазинов за квартал) может быть «большим» для одной задачи (точного прогнозирования спроса на следующий квартал) и «маленьким» для другой (подсчета квартальной выручки). Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла.

Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла

Приведу наглядный пример. В городе Пуэрто-Сомбра завелся маньяк, убивающий старушек. Мэр распорядился развесить на улицах 100 видеокамер, круглосуточно снимающих все вокруг. У сыщика есть 100 видеозаписей продолжительностью 7 суток каждая. Задача: автоматически сопоставляя записи, вычислить маньяка. Время дорого: один день — одна старушка.

В данном случае относительно большой объем данных — это не главное. Гораздо важнее, что задача крайне сложна математически. Для ее решения нужен прежде всего хороший алгоритм распознавания объектов (точнее, субъектов) в информационном потоке, присвоения им идентификаторов и составления карты всех перемещений по городу. Кто-то должен придумать этот алгоритм и написать по нему хороший код. Если код будет «кривым», неэффективным, то решение задачи займет в десятки, сотни или даже тысячи раз больше времени.

Наш сыщик плохо ориентируется в рынке ПО? Тогда он должен первым делом обратиться за консультацией к системному интегратору. Не исключено, что нужное ПО уже существует и остается лишь адаптировать его для решения конкретной задачи. Это гораздо быстрее и дешевле, чем написать аналогичное ПО с нуля. Именно на этой стадии выяснится, являются ли данные «большими» по состоянию на данный момент. Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат.

Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат

Указанный тип задачи хорошо подходит для распределения на 100 системных блоков. Если для анализа каждой видеозаписи выделить отдельный компьютер, то результат будет получен примерно в 100 раз быстрее, чем при последовательном анализе всех записей на одном компьютере такой же мощности.

Если готового ПО нет и приходится придумывать алгоритм, писать код, а затем проводить параллельные вычисления на 100 компьютерах одновременно, то перед нами классический пример работы с «большими данными».

Сравните с другой ситуацией: никакого маньяка нет, а видеозаписи надо лишь упорядочить на сайте мэра, чтобы показать идиллию на улицах Пуэрто-Сомбра. Данные остаются теми же самыми, но теперь они уже не могут считаться «большими». Это типовая задача, для нее есть готовые решения, и с ней справится любой местный студент-программист с бытовым компьютером за 200 тысяч песо.

Многие компании нуждаются в анализе коммерчески ценной информации. Но они, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ. Теперь у них нет никого, кто мог бы оценивать текущие задачи и сопоставлять их с возможностями доступных на данный момент информационных технологий.

Многие компании, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ

В результате случаются анекдотические ситуации: возомнив себя знатоком, директор решает выделить большой бюджет на «большие данные», хотя на самом деле его компания нуждается лишь в простейшей доработке реляционной базы данных с переносом на новый сервер. Или наоборот, сложнейшая проблема, требующая создания уникального алгоритма и длинного кода, кажется руководителю простой; он поручает ее одному сотруднику и через неделю злится, что ничего не получается.

Говоря чуть ли не о жизненной необходимости модных «больших данных», многие менеджеры и аналитики на самом деле имеют в виду всего лишь бизнес-аналитику. Так называют сочетания данных и задач, для которых существуют стандартные решения — в том числе в форме серийно выпускаемых программных продуктов.

Посмотрите на диаграмму. Мнения респондентов о «больших данных» в основном восторженные. 89% считают, что по революционному воздействию на бизнес «большие данные» сопоставимы с интернетом. 79% считают, что компании, не использующие их, ослабнут или вовсе разорятся. Судя по всему, респонденты имеют в виду не распределенные вычисления и не индивидуальное создание кода для каждого случая бизнес-аналитики, а очевидное утверждение: «Для успеха в бизнесе надо анализировать доступную информацию и делать верные выводы».

Мнения респондентов о важности «больших данных» для бизнеса

Источник: Accenture, сентябрь 2014

Ваша компания теряет конкурентоспособность из-за растущих объемов данных? Не тратьте деньги на специализированные серверы и модные программы. Вместо этого обратитесь за консультацией к экспертам. Они правильно сформулируют и классифицируют ваши задачи, подберут готовые решения для одних и огорчат их отсутствием для других. Только потом можно будет думать о «железе» и «софте». Обратите внимание: на первой стадии любого проекта надо платить экспертам не за решение задач, а за их независимую оценку и правильную формулировку.

Начать дискуссию

Бесплатно с Отчетность

Ответственность бухгалтера после увольнения

Ответственность главного бухгалтера за неправильное ведение бухгалтерского учета не оканчивается вместе с расторжением трудового договора. В зависимости от тяжести нарушений и причиненного работодателю ущерба, уволенный главбух может ответить и рублем и ограничением свободы.

Иллюстрация: Вера Ревина/Клерк.ру
1
Бухгалтерский учет

Бухучет для начинающих: рассказываем о дебетах, кредитах и первичке простым языком

Как устроена профессия бухгалтера, с какими задачами он работает и что означают все эти странные сокращения (НДС, ПСН, ЕНС и др.) — разбираемся в основах бухгалтерии.

Иллюстрация: Вера Ревина /Клерк.ру

Блогер Ивлеева должна налоговой больше 20 млн рублей

Сумма долга Анастасии Ивлеевой выросла до 20,9 млн рублей. Блогер не может выплатить задолженность уже три месяца.

Курсы повышения
квалификации

18
Официальное удостоверение с занесением в госреестр Рособрнадзора
Бесплатно с НДФЛ

Новые налоговые базы и ставки НДФЛ с 2025 года: таблица

С 2025 года вводят новую прогрессивную шкалу НДФЛ.

Новые налоговые базы и ставки НДФЛ с 2025 года: таблица
Кадры

👍 Теперь в бизнес-аккаунте на «Клерке» можно продвигать свои вакансии

Продуктовая команда «Клерка» запустила новый функционал бизнес-аккаунтов: работодатели могут бесплатно размещать вакансии и, по желанию, платно их продвигать.

Верховный суд: валютный долг не должен индексироваться за просрочку

ВС РФ вынес решение, что валютный долг, в отличие от рублевой задолженности, нельзя проиндексировать за длительную просрочку.

Опытом делятся эксперты-практики, без воды

👎 Освобожденных от НДС упрощенцев не освободили от счетов-фактур. Прогноз налогового инженера

Если доход за предыдущий год не превышает 60 млн рублей, в текущем году при УСН будет освобождение от НДС по статье 145 НК.

На сотрудников из стран ЕАЭС тоже надо подавать уведомление в миграционную службу

При приеме на работу иностранцев из стран ЕАЭС надо уведомлять Управление по вопросам миграции МВД о заключении с ними трудовых или гражданско-правовых договоров.

Минэкономразвития отмечает уверенный рост организаций в «русских офшорах»

Сейчас в специальных административных районах зарегистрировано 428 международных холдинговых компаний. Резиденты САР могут пользоваться налоговыми льготами, а также применять корпоративное право той страны, из которой организация решила переехать в РФ.

РСПП поддержал законопроект о платформенной занятости в РФ

Президент РСПП Александр Шохин концептуально поддержал законопроект «О платформенной занятости в Российской Федерации».

Прогрессивная шкала налогов всё же будет введена

Информация о том, что рассматривается законопроект о введении прогрессивной налоговой шкалы, согласно которой ставка будет зависеть от размеров дохода, уже какое-то время будоражит общественность. К сожалению, такое нововведение с большой вероятностью будет реализовано.

В базе «Клерка» уже больше 1 000 актуальных резюме!

Больше тысячи бухгалтеров, кадровиков, юристов, руководителей, финансистов и специалистов по 1С ищут работодателей с сервисом Клерк.Работа.

⚡️ Итоги дня: с второклассницы хотят взыскать 700 тысяч рублей, мошенники обманывают пользователей Ozon, а у Xiaomi сбой в работе умных устройств

Подготовили обзор главных событий дня — 16 июля 2024 года. Все самое интересное, что писали и обсуждали в сети, в одной подборке.

Минцифры ужесточит правила оплаты мобильной связи

У абонентов при пополнении баланса наличными будут требовать паспорт.

Кадры

👷 Каждый третий наниматель сталкивается с неквалифицированными кандидатами. Почему, объясняет организатор опроса

Главной сложностью при подборе персонала опрошенные называют недостаточную компетенцию кандидатов на открытую вакансию — об этом говорят 54% респондентов.

Налоговый учет

Виды доходов, подлежащие налогообложению по ставке 18% в 2024 году

В 2024 году налоговая политика подвергнется некоторым изменениям, которые коснутся различных видов доходов граждан. Понимание того, какие именно доходы будут облагаться налогом по ставке 18%, поможет лучше планировать свои финансовые обязательства и избегать неприятных сюрпризов при уплате налогов.

Банки

Китайские партнеры перестали получать платежи через «ВТБ Шанхай»

Импортеры не могут отправить деньги китайским поставщикам через шанхайский филиал ВТБ.

Банки

ЦБ будет оперативно рассматривать сообщения об ошибочном включении в реестр мошенников

Те, кто по ошибке попал в список Центробанка, смогут оспорить это решение и разблокировать возможность проводить денежные переводы.

Как оспорить решение трудовой инспекции: разъяснения Роструда

На портале Госуслуги можно запустить процедуру досудебного обжалования решений Роструда.

Интересные материалы

Высокий кредитный рейтинг — не обязательное условие одобрения кредита

С высоким персональным кредитным рейтингом (ПКР) не всегда одобрят кредит.