Excel и другие неприятности: почему электронная таблица должна уйти?

Три года назад гарвардские профессора Кеннет Рогов и Кармен Рейнхарт опубликовали научную работу «Рост во времена долга» (а заодно и книгу «В этот раз всё иначе»), которой суждено было стать фундаментом новой макроэкономической политики по обе стороны Атлантики. В ней они, в частности, рассмотрели темпы развития полусотен национальных экономик на протяжении последних двухсот лет и изложили занятный эмпирический факт: если государственный долг пересекает отметку в 90% от ВВП, экономический рост — в долгосрочной перспективе — уходит в отрицательную зону. Сами авторы выводов из своего наблюдения осторожно не делают, но за них это сделали политики, многим из которых такое наблюдение на руку.

Эксперты говорят так: находка Рейнхарт и Рогова была ответом на требование времени отыскать хоть какое-то научное обоснование для затягивания государством поясов в трудные периоды. Попросту говоря, если госдолг выказывает намерение сравняться с ВВП, логично сократить бюджетные траты — и таким образом спасти страну от рецессии. И в США, и в Европе на самом верху нынче немало сторонников «бюджетного аскетизма», включая, к примеру, небезызвестного Пола Райана.

Нельзя сказать, чтобы у Рогова с Рейнхарт не было оппонентов, но до последнего времени ниспровергнуть их пытались тем же самым (обычным для экономистов) оружием: извлекая интересные зависимости из исторических данных и давая им более-менее правдоподобные объяснения. А потом грянул гром. На прошлой неделе группа исследователей (Массачусетский университет Амхерста), попробовавших повторить математические опыты Рогова и его коллеги, обнародовала поистине уничтожающие результаты. Попунктно разобрав «Рост во времена…» они указали на несколько грубых ошибок, исправление которых радикально меняет итоговую картину: в паре мест авторы «забыли» учесть несколько стран (с большим долгом, но всё ещё растущей экономикой), в других использовали усреднение для сглаживания цифр, слишком сильно выбивающихся из построенной ими модели. Если исправить всё это, окажется, что обременённые долгами экономики вместо обвала в среднем демонстрируют заметный рост.

Реакция социальных сетей и деловой прессы оказалась столь резкой, что Рогов и Рейнхарт сочли за благо объясниться как можно скорей. Уже через сутки они поблагодарили оппонентов за найденные неточности и пояснили: мол, исправление ошибок ничего принципиально не меняет. Что ж, это студентам за «подгон» данных в курсовых работах ставят «неуд», а Рогову с коллегой достаточно перетерпеть волну критики (кое-кто из авторитетных СМИ уже назвал их доводы «позорными»).

Но давайте предоставим экономистам самим выяснять отношения друг с другом. Предположим лучше, что в действиях авторов «Роста…» действительно не было злого умысла, а только лишь чисто механическая оплошность профессоров, неаккуратно копировавших данные из таблички в табличку. Часто ли такое бывает? Увы, бывает. Глупые ошибки в компьютерных системах — неизменный спутник бизнеса и науки. Bloomberg по такому случаю даже сделало подборку самых памятных инцидентов, от уничтожения космических аппаратов (Mariner 1 на заре космонавтики уничтожили из-за забытого дефиса в программе, а недавний Mars Climate Orbiter разбился, потому что разработчики забыли конвертировать метры в дюймы) и замены микропроцессоров (Intel Pentium не всегда корректно выполнял операцию деления) до выведенного из строя авианосца и потери 6 миллиардов долларов трейдером JP Morgan Бруно Иксилом (он же Лондонский Кит) в прошлом году: недооценил риски в нескольких экселевских ячейках!

Электронные таблицы (ЭТ), и в первую очередь Excel, фигурируют в подобных происшествиях часто (вот для примера ещё один список, составленный целиком из электронно-табличных примеров), но хуже того — всё чаще. И это вовсе не случайность и уж тем более не повод обвинять людей (в невнимательности, необразованности и т.п.). Виноват здесь не человек, а именно электронная таблица — устаревшая, неспособная справиться с лавиной информации, которая на нас обрушилась.

В современном виде ЭТ появилась в конце 70-х годов и сразу стала одним из «убойных» приложений для нарождающегося класса персональных компьютеров. Достаточно сказать, что ранние персоналки Apple хорошо продавались во многом только потому, что на них работала VisiCalc — пионер, проложивший дорогу Lotus 1-2-3, Borland Quattro, MS Excel. А сегодня едва ли отыщется хоть одна компания, не применяющая «таблицы» для всего, начиная с бухгалтерии и заканчивая стратегическим планированием. Сильная сторона электронных таблиц — их универсальность и простота. Однако этим же обусловлена и их главная слабость: в ЭТ отсутствуют средства для контроля ошибок, и чем больше данных нам приходится обрабатывать, тем — естественно! — больше ошибок мы допускаем. Выполненная в середине нулевых американскими исследователями оценка такова: в каждых четырёх из пяти электронно-табличных документов содержатся серьёзные ошибки. А тем временем информационная лавина продолжает нарастать.

Ошибка Рогова и Рейнхарт — ерунда по сравнению с открытием, случайно сделанным десять лет назад группой американских генетиков, ищущих лекарство от рака. Так же активно применяя Excel для повседневных расчётов, они обнаружили, что электронная таблица иногда портит названия генов. Почему? Таблица принимала их за данные другого типа и «проявляла интеллект», приводя к «правильному» виду. Вообразите какими последствиями может обернуться такая маленькая поправка в формуле важного лекарства.

Три года назад Эрик Шмидт (тогда ещё возглавлявший Google) привёл простой факт. За всю историю от начала времён и до 2003 года человечество произвело порядка пяти миллионов терабайт данных. А в 2010 году оно выдавало столько уже каждый день! Нынче объём производимой цивилизацией информации удваивается каждые пару лет.

У этого феномена есть название: Big Data, что в буквальном переводе означает «Большие данные». Три четверти этих данных порождают обыватели, но почти в полном объёме их на том или ином этапе прокачивает через себя бизнес. Вот почему Big Data чаще всего употребляется в сочетании со словом «проблема». Проблема во всём — в хранении, визуализации, анализе, сборе, передаче, защите от посторонних глаз. Когда каждую секунду имеешь дело с триллионами байт, каждый нюанс, каждая задача оборачиваются головной болью. А ведь Facebook, например, генерирует по 500 терабайт за день. И Walmart обрабатывает ежечасно миллион покупок.

В шутку проблему Больших данных называют трёхмерной, то есть растущей по трём осям: непрерывно растут объёмы генерируемых сведений, скорость их генерации и потребления, разнообразие. Так вот попробуйте представить, как, имея дело с Big Data (да хоть бы и в виде экономической статистики по полсотне стран за двести лет), гарантировать, что человек не допустит одной-двух ошибок. И можно ли вообще надеяться, что такой простой инструмент как электронная таблица, справится с потоком информации, имеющим размерность в тысячи осей-факторов и миллиардами ячеек?

Тут очевидно требуются инструменты иного порядка сложности и функционала. И они конечно создаются: разнотипные, но объединяемые терминами «дата-майнинг» и «машинное обучение». Второе предполагает поиск в массиве информации объектов с известными свойствами, первое — обнаружение свойств неизвестных. Роднит то и другое нацеленность на огромные объёмы (такие, которые человек не в состоянии обработать сам, физически) и применение близких человеку методов обработки информации, грубо говоря — её осмысление. Пользователь, эксплуатирующий машинообучаемые и дата-майнинговые инструменты, видит уже не байты или пиксели, а их смысл, выведенный компьютером.

О применениях и перспективах таких инструментов читайте в майском номере «Бизнес-журнала», здесь же позвольте заметить только, что в мире, движимом Большими данными, побеждает тот, кто первым и наиболее точно извлекает из них смысл. Предпочитаете Excel? Готовьтесь разделить участь динозавров.