data lake
- “озеро данных”, технология “озера данных”
#
технология хранения всех данных организации, корпоративных данных (enterprise data) любых типов, видов и форматов в едином центральном репозитории, без предварительной обработки, с возможностью проведения аналитики различными методами и решения самых разных задач – это отчёты, визуализация, аналитика реального времени, машинное обучение, обработка больших данных. Озеро данных включает обычно структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, журналы регистрации событий, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf), бинарные данные (видео, аудио, графические файлы), блоб-объекты (BLOB), сырые данные (raw data) и др. Технология озера данных, кроме методов хранения и описания данных, предполагает определение источников и методов пополнения данных, при этом употребляются такие термины, как источники данных (см. source); настройки каналов (см. pipeline); регулярность обновлений данных (см. scheduler); хранители данных (см. data custodian); время хранения данных (см. retention time); метаданные (см. metadata).
Связные термины
Big Data computing, business analytics, dashboard, log file, real-time analysis