Большие данные. Этапы работы с большими данными.

Хочу порассуждать на тему «Больших данных», их применении в проектах и использовании в повседневной жизни, работе и учебе.

Для начала разложим по полочкам само определение «Большие данные», их еще называют «Big data», «Биг дэйта» или «Хьюдж дэйта». Из чего они состоят и откуда берутся? Я буду пользоваться русским вариантом этого термина для простоты.

Определение

«Большие данные» — это некий набор данных, который обрабатывается при помощи специальных программ. Программы позволяют получить на выходе информацию, которую способен понять и обработать человеческий мозг. Это определение не официальное, я его сформулировал сам, поэтому, может быть где-то есть более точное определение, буду рад, если укажешь источники.

В какой момент простые данные становятся большими?

Однозначного ответа на этот вопрос нет, поэтому будем считать, что большими данные становятся тогда, когда их нельзя обработать стандартными офисными программами типа Excel. Но это, конечно, условности. Когда-то для вычисления расчетов в институтах приходилось записываться в очередь, а саму программу расчета приходилось писать сначала на бумаге. И казалось, что это какое-то чудо чудесное. Сейчас такие расчеты можно сделать у себя дома и никуда не записываться.

Думаю, так же случится и с «Большими данными», вернее, уже постепенно случается, благодаря развитию компьютеров и облачных технологий. И понятие «Большие данные» уйдет в архив, а ему на смену придет что-то новое и интересное, вроде «Квантовые данные», которое весело и радостно подхватят СМИ, и все будут им пользоваться. И «Большие данные» вновь станут просто данными.

Тогда что имеют в виду, когда говорят «Мы проанализировали при помощи «Больших данных»?

Это значит, что при принятии решений для конкретного случая были приняты во внимание данные от аналитика, который провел анализ при помощи специальной или специальных программ над конкретным массивом данных. В этом одном простом на первый взгляд предложении может быть заключена работа нескольких десятков, а то и сотен людей. А может быть и одного, все завысит от размера компании.

Основные этапы работы с большими данными

Работу с «Большими данными» можно разбить на пять основных этапов. Это не уникальное разделение, а скорее нормальный, взвешенный подход к работе с данными в принципе.

  • Подготовка к сбору данных
  • Сбор, преобразование и хранение
  • Анализ данных
  • Принятие решений и выполнение необходимых работ по результатам принятых решений
  • Обратная связь

Подготовка к сбору данных

На этом этапе любая компания организует инфраструктуру и сервисы для того, чтобы создать платформу, на которой будет строиться вся остальная работа с «Большими данными». Надо установить и настроить серверы. Купить или написать программы, которые будут давать возможность правильно записывать, хранить и использовать данные. Обучить персонал или отдать на обучение, чтобы в дальнейшем поддерживать работоспособность всей этой инфраструктуры.

Сбор, преобразование и хранение

Данные в компанию могут поступать из разных источников, как внутренних, так и внешних. Их все необходимо преобразовать в нужный и определенный на первом этапе вид, а затем направить на хранение для последующего анализа. Если все было сделано правильно на первом этапе, то здесь не должно возникнуть трудностей. Если у вас быстро растущая компания, то могут и появиться, конечно. Например, у вас в компании на старте не было оффлайн магазинов, и данные о продажах поступали только от интернет-сайта, а через какое-то время у вас появилась сеть магазинов, данные о продажах в которых необходимо также получать и хранить для последующего анализа.

Анализ данных

Как следует из названия самого этапа, здесь и происходит основной анализ данных: выдвижение гипотез, построение моделей, тестирование уже построенных моделей и много другой интересной работы. Тут хочется написать, что это и есть основной этап, ради которого и затевается работа с «Большими данными», но нет. Работа с большими данными в компании строится не ради самого анализа, а ради того, чтобы при принятии решений можно было опираться на еще один источник данных.

Принятие решений и выполнение необходимых работ по результатам принятых решений

Вот именно ради этого этапа и затевается вся эта движуха с «Большими данными». По результатам принятых решений на основе «Больших данных» инициируются проекты и приступают к их реализации. Это может занимать от нескольких часов, дней, до нескольких лет. Все, как обычно, зависит от отрасли и размеров компании.

Обратная связь

И последний, но не менее важный этап при работе с большими данными – это обратная связь. На этом этапе анализируются результаты выполненных проектов на основе больших данных. Сравнивается «план/факт» и делаются соответствующие выводы о предложенных гипотезах, их реализации и работе. На этом этапе аналитик больших данных получает много полезных инсайтов, которые в дальнейшем можно использовать в работе и выходить на новый цикл работы с большими данными.

В заключении

Сами по себе «Большие данные» ничего не значат. Результат работы с «большими данными» – это не модели и расчеты, а решения, которые могут быть приняты благодаря расчетам и моделям. В работе с «большими данными» очень важна обратная связь от внешнего мира и постоянная корректировка расчетов и моделей с поправкой на эту обратную связь.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

Мы используем cookie-файлы для наилучшего представления сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов. Оферта
Принять
Отказаться