Какие данные занимают больше мировой памяти относительно остальных

Big Data (большие данные) стали наступившим будущем. Одни определяют их как революцию, другие отводят им роль оптимизаторов бизнес-процессов. Но все сходятся в одном: большие данные важны. Встает главный вопрос — как можно эффективно применять большие данные в бизнесе?

Последние 10 лет происходит непрерывный рост числа компаний, использующих большие данные.

В 2011 г. большие данные уже использовались гигантами бизнеса — Hewlett-Packard, IBM, Microsoft.

В 2015 г. доля компаний, использующих большие данные, составляла 17% в мире.

Сегодня доля таких компаний — 50%.

И это неудивительно — сбор и анализ больших данных дает важные преимущества:

Информация поступает из разных источников, что делает ее достоверней;

Данные не анализируются вручную, что уменьшает количество ошибок и увеличивает объем информации, возможный для обработки;

У компании есть централизованный доступ к информации.

Российский рынок больших данных уступает своим масштабом западному, но 55,4% отечественных компаний уже начали инвестировать в аналитику Big Data. На практике мы видим не один пример успешной попытки интегрировать большие данные в бизнес. Например, Сбербанк с его ботами-операторами, заменяющими консультантов. Или гипермаркет Hoff, который на основе больших данных формирует персональные предложения клиентам.

С малым бизнесом и большими данными сложнее. Процесс интеграции больших данных в бизнес — удовольствие дорогое и сложное. Встает вопрос, способен ли малый бизнес на такие подвиги? Что говорят специалисты?

Малый бизнес может данные купить, интегрировать и экстраполировать в свои задачи. Например, есть сеть магазинов по продаже настольных игр «Мосигра». Каждая торговая точка продаж - отдельный малый бизнес. В своей работе они используют big data от торгового центра, где представлен магазин. На основе этих данных корректируют продажи и способы привлечении аудитории. У каждого ТЦ эти данные разные, что позволяет каждому магазину быть востребованным.

Есть смысл с самого старта бизнеса собирать максимальное количество данных, накопить как можно больше метрик. Когда бизнес начнет стагнировать, будет достаточно информации, чтобы понять, что происходит.

IT-директор компании Domino’s Pizza

Малый бизнес более динамичен, конкуренция в разы больше, чем «у больших». Сложность вызывает стоимость, которую малый бизнес не готов платить за собственную платформу. Поэтому вариант для небольших компаний — покупать сервисы, которые продают готовую аналитику.

Оперативная память, устройства ввода-вывода, управляющее устройство (устройство управления процессором).

УУ организует пошаговое выполнение программы. Оно последовательно загружает машинный код, распознает его и посылает в АЛУ на выполнение той или иной операции.

АЛУ выполняет Арифметическо-логические опреации над операндами, находящиеся в памяти или в регистрах

Что требуется для разделенной памяти?

Оно требует синхронизации, а то будет все съезжать и поттормаживать

Сколько записей в глобальной памяти

Каждый блок нитей выполнит по одному атомарному сложению в ячейку памяти

1) Версия 2.1 compute capability у архитектуры NVIDIA Fermi

2) Размерность блока 1024х1024х64

У версии 3.0 1024 х 64 х 64

3) Для второй около 4 млн , а для третьего 33 млн с чем-то можно запустить

4) При условии , если задача слишком проста и нет необходимости запускать все нити или же слишком мало информации

6) Разделяемая память (shared memory) относиться к быстрому типу памяти. Разделяемую память рекомендуется использовать для минимизации обращение к глобальной памяти, а так же для хранения локальных переменных функций. Адресация разделяемой памяти между нитями потока одинакова в пределах одного блока, что может быть использовано для обмена данными между потоками в пределах одного блока. Для размещения данных в разделяемой памяти используется спецификатор __shared__.

Скорость, доступность, функционал:

Скорость: быстрая

Доступность: в потоках в пределах одного блока

Функционал: чтение запись

7) Глобальная память (global memory) – самый медленный тип памяти, из доступных GPU. Глобальные переменные можно выделить с помощью спецификатора __global__, а так же динамически, с помощью функций из семейства cudMallocXXX. Глобальная память в основном служит для хранения больших объемов данных, поступивших на device с host’а, данное перемещение осуществляется с использованием функций cudaMemcpyXXX. В алгоритмах, требующих высокой производительности, количество операций с глобальной памятью необходимо свести к минимуму.

Скорость, доступность, функционал:

Скорость: самый медленный

Доступность: Всем потокам

Функционал: Хранит большие обьемы данных , которые поступают с хоста . Чтение , запись

8) Константная память (constant memory) является достаточно быстрой из доступных GPU. Отличительной особенностью константной памяти является возможность записи данных с хоста, но при этом в пределах GPU возможно лишь чтение из этой памяти, что и обуславливает её название. Для размещения данных в константной памяти предусмотрен спецификатор __constant__. Если необходимо использовать массив в константной памяти, то его размер необходимо указать заранее, так как динамическое выделение в отличие от глобальной памяти в константной не поддерживается. Для записи с хоста в константную память используется функция cudaMemcpyToSymbol, и для копирования с device’а на хост cudaMemcpyFromSymbol, как видно этот подход несколько отличается от подхода при работе с глобальной памятью.

Скорость, доступность, функционал:

-скорость: быстрая

-функционал: она доступна только для чтения. Единственная его функция – чтение

Особенность константной памяти является возможность записи данных с хоста

9) Варп (Warp) — 32 последовательно идущих треда, выполняется физически одновременно.

10) Да она поддерживается…

с версии 1.3 – операции над числами с плавающей точкой двойной точности;

2 лаба

(1) Сколько операций с плавающей точкой выполняется в вашем ядре сложения векторов? ОБЪЯСНИТЬ.

(2) Сколько чтений из глобальной памяти производится вашим ядром? ОБЪЯСНИТЬ.

(3) Сколько записей в глобальную память производится вашим ядром? ОБЪЯСНИТЬ.

(4) Опишите возможный вариант оптимизации ядра для увеличения производительности.

(5) Назовите три приложения сложения векторов.

Вектора:
Действия с плавающей точкой - сколько арифм действий выполняется. n действий. По одному на каждую пару элементов векторов. Чтений - 2n. Записей n.

является библиотекой от расширения CUDA C. Она нужна для того, чтобы можно было получать встроенные модули (например, типы данных) и была возможность использования API CUDA во время выполнения компиляции с хоста.

3 лаба

(1) Сколько операций с плавающей точкой выполняется в вашем ядре сложения векторов? ОБЪЯСНИТЬ.

(2) Сколько чтений из глобальной памяти производится вашим ядром? ОБЪЯСНИТЬ.

(3) Сколько записей в глобальную память производится вашим ядром? ОБЪЯСНИТЬ.

(4) Каким образом функциональный стиль кода сложения векторов в Thrust делает разработку проще или сложнее?

Ответы:

Операций и записей сколько?

Опреаций 3 с плающей точкой , на каждый пиксель по 3

На сколько ты умножаешь?

Ф-это слово фреквенси (интенсивность)

Thrust удобен возможностью быстро реализовывать необходимые вычислительные алгоритмы в более простой и читаемой форме, чем явное программирование на CUDA.

4 лаба

(1) Сколько операций с плавающей точкой выполняется в вашем ядре? ОБЪЯСНИТЬ.

(2) Какой формат будет более эффективным для преобразования цвета: 2D матрица, где каждый элемент представляет собой значение RGB, или 3D матрица, где каждый срез по оси Z обозначает цвет? То есть будет ли лучше чередование цветов? Вы можете назвать приложение, где противоположный вариант будет лучшим?

(3) Сколько чтений из глобальной памяти производится вашим ядром? ОБЪЯСНИТЬ.

(4) Сколько записей в глобальную память производится вашим ядром? ОБЪЯСНИТЬ.

(5) Опишите, какие оптимизации можно сделать в вашем ядре, чтобы достичь увеличения производительности.

(6) Назовите три применения преобразования цветов.

Я перевозу сначала , получаю фото и каждый пиксель перевожу в определенный оттенок серого

1 запись, т.к я записываю на пиксель

5 лаба

(1) Сколько операций с плавающей точкой выполняется в вашем ядре? ОБЪЯСНИТЬ.

(2) Сколько чтений из глобальной памяти производится вашим ядром? ОБЪЯСНИТЬ.

(3) Сколько записей в глобальную память производится вашим ядром? ОБЪЯСНИТЬ.

Осенью 2019 года разразился скандал с сервисом Apple Card: при регистрации в нем выдавались разные кредитные лимиты для мужчин и женщин. Даже Стиву Возняку не повезло:

За год до этого выяснилось, что платформа Netflix показывает пользователям разные постеры и тизеры — в зависимости от их пола, возраста и национальности. За это сервис обвинили в расизме.

Наконец, Марку Цукербергу регулярно достается за то, что Facebook якобы собирает, продает и манипулирует данными своих пользователей. В разные годы его обвиняли и даже судили за манипуляции во время американских выборов, пособничество российским спецслужбам, разжигание ненависти и радикальных взглядов, неуместную рекламу, утечку данных о пользователях, препятствия расследованиям против педофилов.

При этом онлайн-сервис Pornhub ежегодно публикует отчеты о том, какое порно ищут люди разных национальностей, пола и возраста. И это почему-то никого не смущает. Хотя все эти истории похожи: в каждой из них мы имеем дело с большими данными, которые в XXI веке называют «новой нефтью».

Что такое большие данные

Большие данные — они же биг дата (англ. Big Data) или метаданные — это массив данных, которые поступают регулярно и в большом объеме. Их собирают, обрабатывают и анализируют, получая на выходе четкие модели и закономерности.

Яркий пример — это данные с Большого адронного коллайдера, которые поступают непрерывно и в большом количестве. С их помощью ученые решают множество задач.

Но большие данные в сети — это не только статистика для научных исследований. По ним можно проследить, как ведут себя пользователи разных групп и национальностей, на что обращают внимание и как взаимодействуют с контентом. Иногда для этого данные собирают не из одного источника, а из нескольких, сопоставляя и выявляя определенные закономерности.

У кого есть доступ к Big Data

По данным опросов, больше половины россиян уверены, что их данные в сети используются третьими лицами. В то же время, многие размещают в соцсетях и приложениях личную информацию, фото и даже номер телефона.

Здесь нужно пояснить: первое лицо — это сам пользователь, который размещает свои данные на каком-либо ресурсе или в приложении. При этом он дает согласие (ставит галочку в соглашении) на обработку этих данных вторым лицом — то есть владельцами ресурса. Третье лицо — это те, кому владельцы ресурса могут передать или продать данные пользователей. Часто это прописано в пользовательском соглашении, но не всегда.

В роли третьего лица выступают госорганы, хакеры или компании, которые покупают данные для коммерческих целей. Первые могут получить данные по решению суда или вышестоящей инстанции. Хакеры, понятно, никакими разрешениями не пользуются — они просто взламывают базы, хранящиеся на серверах. Компании (по закону) могут получить доступ к данным только в том случае, если вы сами им разрешили — поставив галку под соглашением. В противном случае это противозаконно.

Для чего компании используют Big Data?

Большие данные в коммерческой сфере использовали десятки лет, просто их поток не был таким интенсивным, как сейчас. Это, к примеру, записи с камер наблюдения, данные GPS-навигаторов или онлайн-платежи. Теперь, с развитием соцсетей, онлайн-сервисов и приложений все это можно связать и получить максимально полную картину: где живут потенциальные клиенты, что они любят смотреть, куда ездят в отпуск и какая у них марка машины.

Из примеров выше понятно, что с помощью больших данных компании, в первую очередь, хотят таргетировать рекламу. То есть предлагать продукты, услуги или отдельные опции только нужной аудитории и даже настраивать продукт под конкретного пользователя. К тому же, реклама в том же Facebook и на других крупных площадках становится все дороже, и показывать ее всем подряд совсем не выгодно.

Данные о потенциальных клиентах из открытых источников активно используют страховые компании, частные клиники и работодатели. Первые, к примеру, могут изменить условия страховки, если увидят, что вы часто ищете информацию по определенным заболеваниям или лекарствам, а работодатели — оценить, не склонны ли вы к конфликтам и асоциальному поведению.

Но есть и еще одна важная задача, над которой бьются в последние годы: подобраться к самой платежеспособной аудитории. Сделать это не так просто, хотя задачу заметно облегчают платежные сервисы и электронные чеки через единого ОФД (оператора фискальных данных). Чтобы подобраться как можно ближе, компании даже пытаются отследить и «воспитать» потенциальных клиентов с самого детства: через онлайн-игры, интерактивные игрушки и обучающие сервисы.

Как это устроено?

Самые большие возможности по сбору данных — у мировых корпораций, которые владеют сразу несколькими сервисами. У того же Facebook сейчас — более 2,5 млрд активных пользователей. При этом компания владеет и другими сервисами: Instagram — более 1 млрд, WhatsApp — более 2 млрд и другие.

Но еще большим влиянием обладает Google: почтой Gmail пользуется 1,5 млрд человек в мире, еще 2,5 млрд — мобильной ОС Android, больше 2 млрд — YouTube. И это не считая приложений Google-поиска и Google Maps, магазина Google Play и браузера Chrome. Осталось прикрутить свой онлайн-банк — и Google сможет знать о вас буквально все. Кстати, Яндекс в этом плане уже на шаг впереди, но он охватывает только русскоязычную аудиторию.

👍 В первую очередь компании интересует, что мы постим и лайкаем в соцсетях. К примеру, если банк видит, что вы женаты и активно лайкаете девушек в Instagram или Tinder, потребительский кредит вам, скорее, одобрят. А ипотеку на семью — уже нет.

Важно и то, на какую рекламу вы кликаете, как часто и с каким результатом.

🚕 Большие данные активно используют и «сливают» сервисы доставки и такси. Они знают, где вы живете и работаете, что любите, какой у вас примерный доход. Uber, к примеру показывает цену выше, если вы едете из бара домой и явно перебрали. А когда у вас на телефоне куча других агрегаторов — наоборот, предложит подешевле.

🎞 Есть сервисы, которые используют фото и видео, чтобы собрать как можно больше информации. Например, библиотеки компьютерного зрения — такая есть у Google. Они сканируют вас и окружающее пространство, чтобы понять, какой у вас размер груди или рост, какие марки вы носите, на какой машине ездите, есть ли у вас дети и домашние животные.

💳 Те, кто предоставляет смс-шлюзы банкам для их рассылок, могут отследить ваши покупки по карте — зная 4 последние цифры и номер телефона — а потом продать эти данные кому-то еще. Отсюда весь этот спам со скидками и пиццей в подарок.

🤷‍♂️ Наконец, мы сами сливаем свои данные левым сервисам и приложениям. Вспомните этот хайп вокруг Getcontact, когда все радостно забивали свой номер телефона, чтобы узнать, как он записан у других. А теперь найдите их соглашение и почитайте, что там написано насчет передачи ваших данных (спойлер: владельцы могут передавать их третьим лицам на их усмотрение):

Корпорации могут годами успешно собирать и даже продавать данные пользователей, пока не дойдет до судебного иска — как это случилось с тем же Facebook. И то решающую роль сыграло нарушение компанией GDPR — закона в ЕС, который ограничивает использование данных гораздо жестче, чем американский. Еще один недавний пример — скандал с антивирусом Avast: один из дочерних сервисов компании собирал и продавал данные от 100 до 400 млн пользователей.

Но есть ли у всего этого хоть какие-то плюсы для нас?

Как большие данные помогают всем нам?

Да, есть и светлая сторона.

Большие данные помогают ловить преступников и предупреждать теракты, находить пропавших детей и защищать их от опасности.

С их помощью мы получаем крутые предложения от банков и персональные скидки. Благодаря им мы не платим за многие сервисы и соцсети, которые зарабатывают только на рекламе. Иначе один только Instagram обходился бы нам в несколько тысяч долларов в месяц.

В одном только Facebook — 2,4 млрд активных пользователей. При этом их прибыль за 2019 составила $18,5 млрд. Получается, что на каждом пользователе компания зарабатывает до $7,7 в год за счет рекламы.

Наконец, иногда это просто удобно: когда сервисы уже знают, где вы и что хотите, и вам не приходится самим искать нужную информацию.

Еще одна перспективная сфера для применения Big Data — образование.

В одном из американских вузов штата Вирджиния провели исследование, чтобы собрать данные о студентах так называемой группы риска. Это те, которые плохо учатся, пропускают занятия и вот-вот отчислятся. Дело в том, что в штатах каждый год отчисляются около 400 000 человек. Это плохо и для вузов, которым снижают рейтинг и урезают финансирование, и для самих студентов: многие берут кредиты на образование, которые после отчисления все равно придется выплачивать. Не говоря уже о потерянном времени и карьерных перспективах. С помощью больших данных можно вовремя вычислить отстающих и предложить им репетитора, дополнительные занятия и другую адресную помощь.

Такое, кстати, подойдет и для школ: тогда система будет оповещать учителей и родителей — мол, у ребенка проблемы, давайте вместе ему поможем. А еще Big Data поможет понять, какие учебники работают лучше и кто из учителей доступнее объясняет материал.

Еще один положительный пример — карьерное профилирование: это когда подросткам помогают определиться с будущей профессией. Здесь большие данные позволяют собрать ту информацию, которую невозможно добыть с помощью традиционных тестов: как ведет себя пользователь, на что обращает внимание, как взаимодействует с контентом.

В тех же США работает программа по профориентации — SC ACCELERATE. В ней, в том числе, используют технологию CareerChoice GPS: анализируют данные о характере учащихся, их склонностях к предметам, сильные и слабые стороны. Затем данные используют, чтобы помочь подросткам выбрать подходящие для них вузы.

Подписывайтесь и читайте нас в Яндекс.Дзене — технологии, инновации, эко-номика, образование и шеринг в одном канале.

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Обработка логов рекламной системы

Второй пример взят из реальной практики Data-Centric Alliance.

Задача: имеется csv-лог рекламной системы вида:

Необходимо рассчитать среднюю стоимость показа рекламы по городам России.

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Примеры задач, эффективно решаемых при помощи MapReduce

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1]), reduce суммирует эти единички, возвращая финальный ответ для слова.

Резюме

В статье мы рассмотрели несколько вводных моментов про большие данные:

· Что такое Big Data и откуда берётся;

· Каким основным принципам следуют все средства и парадигмы работы с большими данными;

· Рассмотрели парадигму MapReduce и разобрали несколько задач, в которой она может быть применена.

Первая статья была больше теоретической, во второй статье мы перейдем к практике, рассмотрим Hadoop – одну из самых известных технологий для работы с большими данными и покажем, как запускать MapReduce-задачи на Hadoop.

В последующих статьях цикла мы рассмотрим более сложные задачи, решаемые при помощи MapReduce, расскажем об ограничениях MapReduce и о том, какими инструментами и техниками можно обходить эти ограничения.

С тех пор как человечество научилось обрабатывать огромные массивы информации, жизнь стремительно меняется. Big data сегодня применяют в разных сферах — от маркетинга до навигации. Не осталось в стороне и строительство.

В этом материале я расскажу, как зарубежные компании и партнёры «Trimble Solutions Россия» используют большие данные при возведении зданий и почему это приводит к сокращению сроков и бюджетов.

С каждым годом человечество производит всё больше информации: к 2025 году общий объём данных во всем мире составит 163 зеттабайта (ЗБ), прогнозирует аналитическая компания IDC. Для сравнения: в 2016 году на планете было в 10 раз меньше данных — 16 ЗБ, а 2006 году — всего 0,16 ЗБ.

При этом растёт доля информации, которую создают коммерческие предприятия. Аналитики IDC считают, что к 2025 году они будут генерировать 60% мировых данных (против трети в 2015 году).

Однако компании стремятся не только производить информацию, но и анализировать её. И с появлением big data перспективы этого направления впечатляют: искусственный интеллект способен обрабатывать огромные объёмы не только структурированных, но и разрозненных данных (например, публикации из соцсетей и комментарии к новостям).

Ожидания застройщиков от big data выяснила компания Sage. Опрос показал, что 57% игроков рынка хотят получать последовательную, актуальную финансовую и проектную информацию, а 48% — предупреждения о возникновении значимых ситуаций.

41% предприятий надеется, что большие данные помогут прогнозировать события и избегать рисков. Наконец, 14% респондентов предпочитают узнавать, какие факторы влияют на рост и падение прибыли.

Аналитика больших данных может оправдать эти ожидания — технологию уже оценили застройщики и проектировщики со всего мира, в том числе и российские. Давайте рассмотрим, как большие данные меняют консервативную отрасль и что они привносят в привычный процесс создания объектов.

Большинство крупных застройщиков реализует несколько проектов одновременно — в такой ситуации трудно собирать, сортировать и изучать огромный объём информации силами сотрудников.

Компания Informatica выяснила, что на это уходит около 60% рабочего времени. Сэкономить его помогут большие данные.

Технология позволяет обрабатывать огромные массивы информации с невероятной для человека скоростью. Программы способны взять на себя такие процессы, как управление базой данных и создание отчетов. Благодаря этому специалисты компании смогут сосредоточиться на более важных задачах, что поможет повысить эффективность бизнеса.

К примеру, по опыту Антона Мотовилова, главного эксперта «ГСИ-Гипрокаучук», в рамках его работы с одним из крупнейших заводов металлоконструкций, ему с коллегами удалось, используя большие данные, создать алгоритм, который формирует специфический отчёт по болтам.

В среднем конструктор тратит на этот документ от трёх до пяти дней, а искусственный интеллект — всего пару часов. Это не сложная, но трудоёмкая задача: работая в BIM-модели, нужно «перебрать» весь каркас, подсчитав число объектов и болтов, которые их соединяют.

Инженер вручную сравнивает один критерий с другим, делает вывод о том, как крепятся детали конструкции, и составляет отчёт. Искусственный интеллект делает то же самое, однако работает очень быстро и не совершает ошибок.

Совмещение big data c информационным моделированием зданий (BIM) открывает и другие перспективы. Добавление больших данных в 3D- или 4D-проекты позволяет инженерам легко обнаружить любую ошибку или сделать точный прогноз.

Одно из преимуществ BIM— возможность совместной работы над моделью специалистов из разных стран в режиме реального времени.

Используя большие данные, они смогут оперативно передавать друг другу огромные массивы информации, чтобы быстрее принимать решения. Это в корне меняет подход к управлению проектами.

Раньше всеми данными владел один человек или несколько сотрудников, сидящих в одном офисе. Сегодня стала возможной по-настоящему командная работа, когда проектировщик, застройщик и генподрядчик, которые могут находиться в разных странах, вместе вносят изменения в проект на ранних стадиях.

BIM-модель атомной электростанции «Хинкли-Пойнт C», при строительстве которой было задействовано более 30 тысяч человек. В процессе работы происходило совмещение big data и BIM с помощью решения Tekla Structures

Также технология big data позволяет осуществлять мониторинг проекта в режиме реального времени, чтобы улучшить планирование, сократить срок строительства и оптимизировать бюджет.

К примеру, компания Nick Savko & Sons из Огайо, которая занимается землеройными работами, оснастила свою технику 36 глобальными локаторными устройствами, чтобы контролировать их на расстоянии.

Установки собирали информацию о времени машинного цикла и простоя, производительности и других показателях. Когда эти данные загрузили в программу управления активами, менеджеры смогли оценить, достаточно ли автомобилей для выполнения работ, и понять, что землеройную машину было бы выгоднее использовать в других местах.

Также они смогли сравнить расход топлива с контрольными показателями и увидеть, эффективно ли операторы эксплуатировали технику. В итоге производительность компании выросла и она смогла завершить проект на месяц раньше срока.

Подключение к BIM-моделям больших данных позволяет внедрить информацию о затратах прямо в проект, чтобы увидеть стоимость разных частей здания и найти способы экономии.

Использовать big data, как и любую актуальную технологию из мира ИТ, в первую очередь хочется для оптимизации материалоёмкости зданий.

Можно собирать огромные базы проектов и каким-то образом натаскивать нейросети на составление таблиц оптимальности тех или иных решений и поиск корреляций между исходными данными и полученными результатами. Например, так можно определять оптимальные материалы для тех или иных пролётов

Ещё один вариант использования big data, по мнению Сергея Семенова, — сбор данных разных заводов металлоконструкций и определение реальной стоимости изготовления изделий по большой выборке проектов.

«Может получиться довольно точная зависимость между типом конструкции и ценой за тонну, — поясняет он. — Это нужная информация, так как сегодня эта цифра остаётся оценочной и обычно не имеет под собой никаких оснований кроме "нам кажется"».

Также большие данные можно использовать для отслеживания активов компании: материалов, инструмента, оборудования.

В процессе работы над объектом приходится закупать, хранить и транспортировать огромное количество изделий, и оптимизировать этот процесс помогут большие данные, интегрированные в BIM-модель.

Разные активы можно объединить в единую базу, создав систему предупреждений и напоминаний. Так все сотрудники, работающие над проектом, смогут отслеживать местонахождение материала или оборудования и знать, когда начнётся следующий этап работы и какие активы будут задействованы.

Анализ множества похожих проектов с помощью технологии big data— это возможность ещё на этапе проектирования спрогнозировать потенциальные проблемы, которые могут появиться в процессе строительства, и их влияние на затраты.

Каждой компании приходится иметь дело с некачественными материалами, непредсказуемыми погодными условиями и другими неприятностями. Используя большие данные, можно создавать виртуальные сценарии развития событий, чтобы иметь возможность заранее принять меры.

К примеру, проанализировав множество похожих проектов, можно узнать, использование каких материалов часто приводит к превышению бюджета.

Будущее сегодня трудно представить без больших данных. Эксперты IDC прогнозируют, что доходы компаний от использования этой технологии увеличатся со $130 млрд в 2016 году до более чем $203 млрд к 2020 году.

По данным исследования журнала World Oil, применение цифровых технологий может сократить расходы компаний почти на 20%.

Очевидно, что с каждым годом будет появляться всё больше способов внедрения big data в строительные процессы. «Можно обрабатывать миллионы геологических отчётов для занесения информации из них на глобальную карту грунтов и уточнения моделей этих грунтов», — приводит пример Сергей Семёнов.

Использование big data в сочетании с BIM-платформами позволит компаниям уйти от бумажного документооборота, а значит и от основных проблем отрасли: нарушения сроков строительства, превышения бюджета и медленного принятия решений.

Застройщики смогут оптимизировать бизнес-процессы и выйти на новый уровень эффективности.

История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года (ссылка):

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia:

Большие данные (англ. big data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Читайте также: