Создание базы данных хранилища

Данные, получаемые из баз-источников, сохраняются в отдельную базу данных — хранилище.

База хранилища должна быть создана администратором баз данных вручную на сервере баз данных (далее — БД). Рекомендуемое название базы хранилища — DWH, но можно задать любое подходящее имя. Подключение базы хранилища к программному продукту: Модус: Управление корпоративным хранилищем данных (ETL) (далее — программный продукт или Modus ETL), происходит во время первого входа в систему во время работы мастера (помощника) первичной настройки». К этому моменту база хранилища должна быть создана.

Мастер (помощник) первичной настройки

В программном продукте создан специальный мастер настройки, который запускается автоматически при первом входе в систему. Этот мастер также можно запустить на любом этапе работы, использовав интерфейс «Главное» / «Сервис» / «Помощник первоначальной настройки»:

Переходя по шагам мастера, пользователь может установить все необходимые для работы настройки. Настройки, не требующие выбора пользователя, устанавливаются автоматически.

Начальная страница «Помощника первоначальной настройки» представлена на рисунке ниже:

Рекомендуется последовательно сделать настройки, распределенные по нескольким разделам, устанавливая отметки на завершенных разделах.

Ниже описаны основные шаги по настройке программного продукта, используя мастер настройки.

Раздел настроек 1. Основные настройки

Пункт меню 1.1. Помощник настройки лицензирования СЛК

Заполнение параметров связи с сервером СЛК:

Установка и обновление лицензий СЛК: для запуска процедур по установке и активации лицензий используется интерфейс, представленный на рисунке ниже:

Консоль сервера лицензирования выводит текущие параметры СЛК и служит для диагностики проблем:

Пункт меню 1.2. Настройки получения данных

Параметры подключения к базам-источникам: введенные логин и пароль будут использоваться для доступа к базам-источникам по умолчанию.

Примечание: при необходимости для каждой базы-источника возможно настроить свои (отличные от параметров по умолчанию) параметры доступа (логин-пароль) в справочнике «Базы данных».

Получение и обработка данных (настройки записи в базу-приемник): надо установить режим записи данных в таблицу-приемник.

Режимы:

  • «Добавить» — добавлять данные к уже имеющимся в таблице;
  • «Очистить и добавить» — удалить имеющиеся данные и загрузить полученные данные;
  • «Скопировать и добавить» — сделать копию имеющихся данных (создается новая таблица с тем же именем и постфиксом-датой_временем операции), очистить имеющиеся данные и загрузить заново.

Пример имени таблицы с поcтфиксом: «tech_20180202_0908».

Установка базы хранилища данных по умолчанию:

Настройки интерфейса «Контроль работы»:

Подключение подсистем:

  • «Использовать шаблоны шагов сценария» — включено по умолчанию. Шаблоны позволяют формировать скрипт трансформации данных для шага сценария, используя визуальный интерфейс.
  • «Использовать верификацию данных» — для включения механизмов проверки данных на соответствие стандарту, на соответствие эталонным значениям (по умолчанию — выключено).
  • «Верификация данных. Настроить имена SQL-таблиц» для журналов процессов и ошибок.
  • «Интерфейсные настройки»: следует выбирать только «Пользовательские типы» в поля выбора типов, например, в документах вида «Установить правила выгрузки».
  • «Агенты ETL»: включают возможность использовать Агента ETL для получения и записи данных.
  • «Обезличивание данных»: использовать обезличивание персональных данных при получнии данных
  • «Настройка моделей»: мспользование механизма трансформации таблиц в схему «звезда».
  • «Выгрузка и загрузка настроек»: использование пресетов.

Пункт меню 1.3. Ввод параметров баз данных (источников и приемников)

Ввод параметров источников данных. Регистрация наборов источников:

Чтобы добавить 1С-источник, надо выбрать «Способ доступа (тип подключения)»: «Адаптер для 1С» или «COM-Connector».

Для типа подключения с использованием «Адаптера для 1С» настроить:

  1. тип базы данных: 1C;
  2. способ доступа: Адаптер для 1С;
  3. адрес публикации ИС.

Для типа подключения с использованием «COM-Connector» следует заполнить:

  1. тип базы данных: 1C;
  2. способ доступа: COM-Connector;
  3. версию платформы 1C (8.3/8.2/8.1);
  4. описание;
  5. имя сервера 1С;
  6. имя пользователя;
  7. пароль.

Ограничение для типа подключения COM-Connector: версии платформы 1С для базы-источника и для программного продукта должны быть одинаковые. Поэтому если необходимо подключаться к источникам на разных платформах 1С, то предпочтительно использовать Адаптер 1С.

Чтобы добавить базу-источник (СУБД), требуется указать:

  1. наименование;
  2. тип базы данных выбрать из списка: Oracle / MSSQL / PostgreSQL;
  3. способ доступа: «ADODB»;
  4. описание;
  5. имя сервера 1С;
  6. имя пользователя;
  7. пароль.

Пункт меню 1.4. Настройка пользователей и прав (стандартный интерфейс 1С)

Раздел настроек 2. Экспертные настройки

Настройки параметров очередей, фоновых заданий, и очистки журнала событий:

Секция «Настройки очереди» (см. рисунок выше, 1) – предназначены для оптимизации процесса загрузки/выгрузки: рекомендуется использовать настройки по умолчанию. Описание настроек очереди:

  • «Максимальное количество потоков задания сбора данных» — количество параллельно запускаемых фоновых заданий при работе регламентного задания Сбора данных, при увеличении количества потоков увеличивается скорость получения данных, но до определенного предела, так как при исчерпании ресурсов (памяти и процессора) вместо увеличения скорости может произойти снижение производительности. Определение оптимального количества потоков – задача, которая решается экспериментально администратором программного продукта на основании анализа измененийвременных характеристик операций получения данных (по отчетам и регистрам документов «Факт выгрузки») истатистики изменения утилизации памяти и процессора при увеличении количества фоновых заданий (потоков) получения данных;
  • «Максимальное количество попыток обработки задания» — для настройки количества попыток выполнения задания несколько раз, что нужно для случая, если подключение к источнику данных не стабильно и однократное обращение может привести к ошибке;
  • «Номер попытки, с которой выполнять замену символов» — бывают ситуации, когда не удается записать полученные данные в базу данных хранилища, так как данные содержат символы, недопустимые для записи в БД. В системе настроена замена некоторых символов: апострофа «’» на «`», «?» — на пустое значениеи т.д. Операция замены делается построчно для каждого полученного строкового значения и потому — относительно медленно, поэтому имеет смысл задавать номер попытки получения-записи данных, с которой следует делать попытки замены символов;
  • «Количество источников для обработки» — это максимальное количество, которое фоновое задание может взять в обработку;
  • «Процент необработанных источников очереди» — это количество допустимых ошибок в очереди. Например, получаем данные из 100 источников, считаем, что если из 90 или более источников данные получены, то получение прошло успешно. Тогда устанавливаем процент — 10;
  • секция «Таймауты фоновых заданий» (см. рисунок выше, 2) задаёт время (в минутах) ожидания при выполнении фонового задания:
    • таймаут неактивного фонового задания;
    • таймаут работы фонового задания.
      При превышении таймаута фоновое задание считается «зависшим» и перезапускается.
      Рекомендуется использовать настройки по умолчанию;
  • секция «Прочее» (см. рисунок выше, 3):
    • «Глубина хранения журнала событий (в днях)» — количество дней, по прошествии которых будут автоматически очищены записи в журналах, относящиеся к фактам выгрузки, сценариям обработки данных. Периодическая очистка позволяет оптимизировать объем, занятый логами, и способствует быстрой работе отчетов по логам.

Настройка подключения к базе-источнику

Для указания источника данных нужно настроить подключение к базе-источнику данных. Возможно получать данные из нескольких баз-источников. Для удобства работы однотипные источники объединяются в наборы источников. В наборе может быть один или несколько источников данных.

Поскольку источники данных могут менять месторасположение, менять платформу и т.п., а по сути, остаются тем же самым источником данных, для описания набора источников используется многоуровневая структура метаданных:

  • для хранения объекта «Набор источников» служит справочник «Набор источников»;
  • для хранения объекта «Источник данных» служит справочник «Источники данных»;
  • источники данных объединяются в набор при помощи документа «Регистрация набора источников»:

Поддерживается выбор значения по показателям:

  • для одного набора источников может быть создан один документ «Регистрация набора источников»;
  • один источник данных может одновременно входить в несколько наборов данных.

Настройка подключения к источнику состоит из трёх этапов:

  1. установить настройку соединения с базой;
  2. создать элемент справочника «Источник данных»;
  3. создать элемент справочника «Набор источников».

Подробное описание настройки источника — ниже.

1. Установить настройку соединения с базой

Настроить список доступных баз данных можно в разделе меню: «Размещение данных» / «Базы данных».

Нажмите кнопку «Создать», в открывшемся окне заполните название базы данных (см. рисунок ниже, 1). Для базы 1С установить тип базы «1С» и тип подключения «COM-Connector» или «Адаптер для 1С»)(см. рисунок ниже, 2). Для типа подключения «COM-Connector» выберите версию платформы 1С (см. рисунок ниже, 3) и заполните имя сервера 1С (см. рисунок ниже, 4), и, при необходимости, имя дублирующего сервера, например, сервера с копией базы-источника (если имеется). Укажите имя пользователя и пароль (см. рисунок ниже, 5):

Для базы СУБД — надо выбрать тип базы (MS SQL / PostgreSQL / Oracle / Vertica / ClickHouse / …) и способ доступа («ADODB»). Заполните имя сервера, имя пользователя и пароль для подключения:

Сохраните настройки при помощи кнопки «Записать».

После заполнения настроек проверьте наличие подключения к базе при помощи кнопки «Проверить подключение» (см. предыдущий рисунок, 6).

2. Создать элемент справочника «Источник данных»

Для создания источника данных для настроенной базы данных, нажмите кнопку «Создать на основании».

В открывшемся окне укажите наименование источника (см. рисунок ниже, 1), ранее настроенная база данных уже заполнена (см. рисунок ниже, 2), укажите название организации (см. рисунок ниже, 3). Сохраните источник данных при помощи кнопки «Записать»:

3. Создать элемент справочника «Набор источников»

Для создания элемента используйте команды интерфейса: «Начальная страница» / «Сбор данных» / «Регистрация набора источников» или меню: «Размещение данных» / «Регистрация набора источников».

Далее, следует:

  • нажать кнопку «Создать»;
  • указать наименование «Набора источников»;
  • заполнить таблицу «Источники данных». По кнопке «Добавить» (см. рисунок выше) – добавляется 1 строка – элемент из справочника «Источники данных», выбрать ранее созданный источник данных из справочника;
  • нажать кнопку «Записать и закрыть», при проведении происходит запись в РегистрСведений.Набор_источников:

Настройка подключения к базе хранилища данных

Настроить список доступных баз данных можно в разделе меню: «Размещение данных» / «Базы данных».

Нажмите кнопку «Создать», в открывшемся окне (см. рисунок ниже) заполните название базы данных (см. рисунок ниже, 1), тип базы установите «MS_SQL» или «PostgreSQL» и тип подключения «ADODB», укажите сервер, где расположена база (см. рисунок ниже, 3). Укажите имя пользователя и пароль (см. рисунок ниже, 4). Сохраните настройки при помощи кнопки «Записать».

После заполнения настроек проверьте наличие подключения к базе при помощи кнопки «Проверить подключение» (см. рисунок ниже, 5).

Настройка профилей и групп пользователей

При первом запуске автоматически создаются следующие профили групп доступа («Администрирование» / «Настройки пользователей и прав» / «Группы доступа» / «Профили групп доступа»):

  • «Администраторы ETL» — Изменяют основные настройки ETL и подключают базы данных;
  • «Аналитики» — могут настраивать все процессы по получению и обработке данных, настраивать источники данных, правила получения данных, расписание запуска пакетов, просматривать журналы и лог-файлы процессов и ошибки;
  • «Наблюдатели» — могут запускать получение данных вручную, просматривать журналы и лог-файлы процессов и ошибки;
  • «Только просмотр» — может отслеживать протекание процессов, просматривать журналы и лог-файлы процессов и ошибки.

Необходимо перейти в «Администрирование» / «Настройки пользователей и прав» / «Группы доступа» и создать одноименные группы доступа с привязанными профилями в соответствии с таблицей соответствия:

Описание профилей пользователе по группам доступа

Группа доступа Профиль пользователей
Администраторы ETL Администраторы ETL
Аналитики Аналитики
Наблюдатели Наблюдатели
Только просмотр Только просмотр

Для добавления пользователей необходимо перейти в пункт «Администрирование» / «Настройки пользователей и прав» / «Пользователи»:

В списке пользователей нажать кнопку «Создать»:

В форме «Пользователь (создание)» заполнить параметры:

  • «Вход в программу»: «разрешен»;
  • полное наименование (согласно принятым правилам);
  • имя для вход» (согласно принятым правилам);
  • «Физ. лицо»;
  • пароль (необязательно для заполнения);
  • «Аутентификация операционной системы»: «Установлено»;
  • пользователя операционной системы (чтобы не устанавливать пароли);
  • режим запуска: «Авто».

Установить на соответствующих закладках:

  • E-mail;
  • профили (в соответствии с правами доступа):