data lake

  1. “озеро данных”, технология “озера данных”

#

технология хранения всех данных организации, корпоративных данных (enterprise data) любых типов, видов и форматов в едином центральном репозитории, без предварительной обработки, с возможностью проведения аналитики различными методами и решения самых разных задач – это отчёты, визуализация, аналитика реального времени, машинное обучение, обработка больших данных. Озеро данных включает обычно структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, журналы регистрации событий, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf), бинарные данные (видео, аудио, графические файлы), блоб-объекты (BLOB), сырые данные (raw data) и др. Технология озера данных, кроме методов хранения и описания данных, предполагает определение источников и методов пополнения данных, при этом употребляются такие термины, как источники данных (см. source); настройки каналов (см. pipeline); регулярность обновлений данных (см. scheduler); хранители данных (см. data custodian); время хранения данных (см. retention time); метаданные (см. metadata).

Связные термины

Big Data computing, business analytics, dashboard, log file, real-time analysis

Все термины