DWH - Data Warehouse

Как-то задали мне вопрос: «Вот вы говорите, что у вас многолетний опыт подготовки различных отчетов с помощью различных инструментов. А какие отчеты вы готовили?»

Ну, назвал я с пяток отчетов, что в голову пришли. А сейчас решил: а составлю я, пожалуй, каталог отчетов, которые мне приходилось создавать.

Вообще, каталог отчетов – это первейшее дело при построении хранилища данных. Почему-то обычно хранилище данных создается по следующему плану: купим железа и лицензий на "стандартную" отраслевую модель данных, накидаем данных из основных источников, а дальше видно будет. В принципе, удобно для начала, особенно, если понимаешь, что век ИТ директора в компании не так уж долог, по сравнению со сроком построения хранилища, и надо хоть что-то успеть за этот короткий век директорства совершить.

После того, как оборудование закуплено, и стандартная модель установлена, пытаются подсоединить, как получится, существующие источники данных к стандартной модели. Получается это обычное не очень успешно, приходится дорабатывать модель. Точнее говоря, менять модель процентов на 90%.

Почему такой большой процент переработки? – потому что «кастомизаторы» исходную модель понимают лишь приблизительно, ибо они всего лишь интеграторы, а не вендоры (а если и вендоры, то зачастую не те люди, что придумали модель). А пользователи своими невнятными, но настойчивыми требованиями лишь добавляют разночтений и недопонимания.

В результате, мы получаем классическую ситуацию, когда шкуру жирафа пытаются натянуть на бегемота. Больше половины проектов по внедрению хранилище нельзя назвать по сути успешными в первые пять лет внедрения. Но, со временем, благодаря новым инвестициям корпорации приближаются к стабилизации и приемлемости результатов.

При правильном подходе к построению хранилища данных, конечно, сначала нужно составить каталог отчетов, проинтервьюировав все подразделения в компании, которые делают хоть какой-то репортинг. Далее, из этих отчетов создать единый тезаурус терминов показателей отчетности, разбить термины на measures and dimensions, ну и т.д.

Конечно, путь этот тернист. Даже при согласовании единого тезауруса могут встретиться непреодолимые проблемы. Пример: приносят финансовый департамент и казначейство руководителю свои отчеты приблизительно на одну и ту же тему, а в них есть одинаковая статья «Кредиторская и дебиторская задолженность» (ну или по-английски «Payables and Receivables»). Статья одинаковая, а цифры разные. Вызывает генеральный директор руководителей департаментов, спрашивает: как же вы так, работаете в одной компании, а к единому мнению прийти не можете. И начинают директора департаментов объяснять генеральному, как и почему так получается. И, надо сказать, убедительно объясняют, как в анекдоте: все правы, а результаты разные. Им бы, по идее, чуть-чуть по-разному назвать свои показатели, и вопрос был бы решен. Но почему-то решили, что показатели должны называться одинаково, а цифры в них могут быть разными. В общем, так и не договорились…