Big Data — всё?
Здесь приведена версия, адаптированная под переводческие задачи (автор адаптации: Евгений Бартов)
Смотреть полную версию (автор статьи: Станислав Макаров)
В августе 2015 г. аналитическое агентство Gartner исключило Big Data из числа прорывных технологий [emerging technologies] (см. исследование The Demise of Big Data, Its Lessons and the State of Things to Come [«Смерть Больших Данных, извлеченные уроки и ситуация в будущем»])
— ПРИЧИНЫ —
Зонтик оказался слишком большим
Возможно, дело в том, что Big Data — это типичный зонтичный термин, и в какой-то момент стало ясно, что зонтик оказался слишком большим. На волне ажиотажа все, что угодно стали относить к Big Data – все, что связано с хранением и анализом данных, лишь бы попасть в модный тренд. Разумеется, в отсутствие точных определений базового термина и стека технологий нельзя обозначить и четкие границы рынка, а, следовательно, невозможно строить сколько-нибудь ответственные прогнозы. Может быть поэтому — чтобы не оказаться в какой-нибудь неловкой ситуации из-за слишком широкой трактовки самого понятия Big Data, аналитики Gartner и решили от него избавиться. (Это моя гипотеза.)
О Больших Данных вдруг заговорили даже те, у кого их кот наплакал, какие-то сотни гигабайт. Данные растут! Сенсация! На стенку лезет пресса! О Big Data стали писать специализированные и деловые издания, даже гламурные журналы. Вполне закономерно, что это привело к профанации термина, и серьезные заказчики стали его чураться.
Наступила полная путаница: Business Intelligence это тоже Big Data или нет? Хранилища данных и аналитические инструменты – это один рынок или разные? И так далее. В итоге, в Gartner решили [отслеживать] 5 предметных областей, связанных с хранением, управлением и анализом данных:
- Advanced Analytics and Data Science;
- Business Intelligence and Analytics;
- Enterprise Information Management;
- In-Memory Computing Technology;
- Information Infrastructure.
Иллюзия простоты: любой вопрос – любой ответ
Вторая беда с Big Data была в ее обманчивой простоте. По крайней мере так это преподносилось широкой аудитории. Возьмите все ваши данные, загрузите в Hadoop (благо он бесплатный) и наслаждайтесь — скрытые прежде закономерности проявятся сами собой.
Big Data vs Google
На заре Big Data, году в 2008 появился сервис Google Flu Trends (GFT), который вроде как регистрировал начало эпидемии гриппа быстрее и точнее, чем врачи. В его основе лежало предположение, что, когда приходит грипп, люди начинаю активно искать в интернете лекарства и статьи про способы лечения, поток запросов, связанных с гриппом резко возрастает, а из анализа этих данных можно сделать вывод об уровне распространения вируса в каком-то регионе. Красивая идея, но, увы, ложная. Это стало окончательно ясно в 2013 году, когда GFT ошибся с определением пика эпидемии на 140%. И все потому, что под этим не было никакой внятной математической модели, лишь допущения на уровне здравого смысла. Увы, этого недостаточно, чтобы давать точный прогноз. Корпорация Google тихо похоронила проект.
У этой истории есть еще и вторая сторона: кто сказал, что данные медиков абсолютно точны и достоверны? Ведь грипп – это же просто клондайк для фармкомпаний, продавцов марлевых масок и всей структуры здравоохранения. Потому что как только официально объявлена эпидемия, тут же выделяются дополнительные средства из бюджета на борьбу с ней. Как вы, наверное, догадываетесь, есть много возможностей манипулирования статистическими данными, чтобы заинтересованным сторонам добиться нужного результата. А телевидение и СМИ еще больше раскачивают ситуацию. Так что, на самом деле при помощи GFT мы анализируем не распространение вируса, а лишь уровень озабоченности людей гриппом, что далеко не одно и то же. То есть, это инструмент социологии, а не медицины.
Big Data vs корреляция данных
Технологии Big Data действительно позволяют находить разнообразные корреляции в любых данных. Например, что с XVI века до наших дней сильно сократилось число пиратов и одновременно выросла среднегодовая температура. Означает ли это, что численность пиратов влияет на глобальное потепление? Что за чушь! Конечно же нет! Однако, во многих других случаях ответ может быть не столь очевиден – наблюдаем ли мы причинно-следственную связь или случайное совпадение.
Поэтому скажем честно: модели, основанные только на статистике, фактически моделями не являются, ибо они не обладают предсказательной силой. Не надо обманывать себя и других. А что мы видим на рынке Big Data? Сплошь и рядом — якобы научные «модели покупательского поведения», корреляции всего со всем, если человек купил А, он точно купит и Б. Но, позвольте спросить, почему? Так свидетельствуют Большие данные!
Big Data vs «индюк тоже думал»
- «Мясник откармливает индюшку тысячу дней» (с каждым днем аналитики все больше убеждаются в том, что мясники любят индюшек «с возрастающей статистической достоверностью»).
- «Мясник продолжает откармливать индюшку до Рождества. Тут мясник преподносит индюшке сюрприз, и она вынуждена посмертно пересмотреть свои теории» (именно тогда, когда уверенность в том, что мясник любит индюшку, достигла апогея и жизнь индюшки вроде бы стала спокойной и удивительно предсказуемой).»
Примерно также себя ощущали владельцы торговых павильонов возле метро до 9 февраля – арендные ставки растут, с мэрией все вопросы решены, все хорошо. А тут бац! – и бульдозеры. Могла бы Big Data предсказать такой поворот событий? Вряд ли.
Нет математической модели
Озера данных (data lakes) продвигаются поставщиками как платформы управления данными масштаба предприятия, чтобы анализировать данные из различных источников в нативном формате. Идея очень проста: вместо того, чтобы загружать данные в специализированное хранилище, можно слить их в «озеро» в формате, в котором они поступили из внешних систем. Это сильно удешевляет проект и избавляет нас от сложностей, связанных с очисткой и трансформацией. А дальше кто угодно может их анализировать, пользуясь палочкой-выручалочкой Big Data. Красиво, да?
Следует сказать, что компании недооценивают риски такого подхода. К 2018 году 90% внедренных озер данных будут бесполезны потому что они будут переполнены информацией, собранной неизвестно с какой целью. Данные в озере могут быть неконсистентны и не иметь метаданных, поэтому реально только очень опытные аналитики, хорошо знающие контекст, смогут сливать и согласовывать данные из разных источников. Однако, это уже какая-то алхимия. Сегодня мы получим один ответ на свой запрос, а завтра может быть другой – в зависимости от квалификации и настроения аналитика. Можно ли принимать серьезные бизнес-решения на такой зыбкой почве? Не думаю. Прежде, чем вбрасывать аналитические данные в контур управления, нужно разработать математическую модель, которая поможет эти данные правильно интерпретировать. Иначе не получится ничего, кроме игрушек для менеджеров – а ну-ка построим такой график, а теперь другой!
XLDB — база сверхбольших данных
Большинство презентаций на наших конференциях по Big Data повторяет одну и ту же мысль: «давайте анализировать данные о потребителях, чтобы больше продавать». По правде говоря, это как-то мелко – и в прямом, и в переносном смысле. В прямом – потому что объемы данных в коммерции, банкинге или даже в телекоме и рядом не лежали с объемами научных данных. А в переносном – потому что едва ли оправданно тратить столько интеллектуальных усилий на то, чтобы продать лишнюю пачку памперсов.
Действительно огромные массивы данных вы найдете не в бизнесе, а в Большой науке – это астрономия, физика, науки о Земле, науки о жизни. Новые инструменты научных исследований производят невообразимые объемы данных, хранить которые ученые настроены вечно. Например:
- Large Synoptic Survey Telescope (LSST) с основным зеркалом диаметром 8,4 метра способен заснять всю доступную площадь неба всего за несколько ночей. Телескоп снабжен 3.3 Гигапиксельной цифровой камерой, которая за ночь производит 30 ТБ данных, а за все время работы накоплен архив более чем 200 ПБ.
- Главный детектор ATLAS (A Toroidal LHC ApparatuS) в Большом андронном коллайдере при всех своих гигантских размерах (длина 46 метров, диаметр 25 метров и вес 7000 тонн) еще генерит данные с фантастической производительностью. Одно событие (то есть, столкновение частиц) дает нам примерно 25 МБ данных. Вроде немного, да? Но событий этих – 40 миллионов в секунду! Итого мы имеем 1 ПБ сырых данных в секунду. Разумеется, такой поток информации мы не в силах записывать в реальном времени, поэтому приходится выбирать, что сохранить для дальнейшего изучения. Но даже если отфильтровать 100 тысяч наиболее интересных событий (в секунду, не забываем, в секунду!) все равно получается около 1 ПБ в год. А подобных датчиков на LHC – семь. Вот и считайте…
Для решения этой проблемы на базе Стэнфордского университета создано сообщество по разработке сверхбольших СУБД (XLDB — Extremely Large Data bases). Точного определения, что значит «сверхбольшие» нет, это как говорят, подвижная цель. По состоянию на сегодня речь идет об объемах порядка нескольких петабайт.
Одним из результатов деятельности этого сообщества стал opensource-проект SciDB – многомерная СУБД для научных, геопространственных, финансовых и промышленных данных, созданная под руководством Майкла Стоунбрекера (Michael Stonebraker), одного из пионеров реляционных баз данных. SciDB нативно работает с многомерными массивами и может выполнять над ними алгебраические операции, выигрывая у реляционных СУБД в скорости и эффективности хранения данных. SciDB не использует Map Reduce и совсем не похожа на Hadoop.
2 комментария
Сергей Павловицкий
Не по существу, а по форме:
1) Thanksgiving Day — это не Рождество;
2) перепроверьте пунктуацию, пожалуйста: «все, что угодно» без запятой, «а, следовательно» без запятой, «может быть поэтому» с запятой, точка должна быть после кавычек, много горя со сложноподчиненными и т. п.
Евгений Бартов
Спасибо за комментарии. Я намеренно изменил праздник, т.к. день благодарения русскоязычные люди не празднуют. Мог бы с таким же успехом заменить на день рождения или новый год. Скорее всего, так и сделаю.
По пунктуации поправлю :).