Big Data
Big Data или большие данные — это структурированные или неструктурированные массивы данных большого объема.
Big Data или большие данные — это структурированные или неструктурированные массивы данных большого объема. Их обрабатывают при помощи специальных автоматизированных инструментов, чтобы использовать для статистики, анализа, прогнозов и принятия решений.
Сам термин «большие данные» предложил редактор журнала Nature Клиффорд Линч в спецвыпуске 2008 года. Он говорил о взрывном росте объемов информации в мире. К большим данным Линч отнес любые массивы неоднородных данных более 150 Гб в сутки, однако единого критерия до сих пор не существует.
Большие данные необходимы, чтобы проанализировать все значимые факторы и принять правильное решение. С помощью Big Data строят модели-симуляции, чтобы протестировать то или иное решение, идею, продукт.
Главные источники больших данных:
— интернет вещей (IoT) и подключенные к нему устройства;
— соцсети, блоги и СМИ;
— данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;
— показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников;
— статистика городов и государств: данные о перемещениях, рождаемости и смертности;
— медицинские данные: анализы, заболевания, диагностические снимки.
Современные вычислительные системы обеспечивают мгновенный доступ к массивам больших данных. Для их хранения используют специальные дата-центры с самыми мощными серверами.
Помимо традиционных, физических серверов используют облачные хранилища, «озера данных» (data lake — хранилища большого объема неструктурированных данных из одного источника) и Hadoop — фреймворк, состоящий из набора утилит для разработки и выполнения программ распределенных вычислений. Для работы с Big Data применяют передовые методы интеграции и управления, а также подготовки данных для аналитики.