Шаблоны базовых операций с данными

Данная группа предназначена для настройки источников и приемников данных, сбора статистики, а также очистки таблиц и переноса данных в базе.

Источник

Шаблон «Источник» — основа для работы. Он позволяет указать таблицу базы, из которой будут браться исходные данные для сценария. Если начать редактирование «Источника», то откроется диалоговое окно «Выбор таблиц для сценариев».

По умолчанию информация отражается в виде таблиц и схем (режим «Таблица»). В нижней части окна приведен список всех доступных таблиц и схем, к которым относятся эти таблицы. Для быстрого поиска нужной таблицы по её названию можно ввести текст в окне «Поиск (Ctrl + F)». По мере ввода каждого символа, в нижней части будут отфильтровываться совпадения названий таблиц.

Двойным щелчком мыши по строке можно завершить выбор таблицы для «Источника». Над иконкой шага появится имя выбранной таблицы.

Предусмотрен и другой режим поиска — «Составы выгрузки». Для активации режима следует нажать одноименную кнопку. В нижней секции будут сведения о составе выгрузок, именах таблиц, правил выгрузки, даты изменения, создания и режима записи.

Расширенный поиск помогает искать таблицу, когда в списке много таблиц с похожими названиями. Можно искать совпадение символов в начале строки, по части строки и по точному совпадению, причем не только в имени таблицы, но и схеме (выпадающий список «Где искать:»).

Кнопка «Обновить конфигурацию» позволяет обновить в диалоговом окне данные, которые появились недавно. На рабочем холсте WorkFlow сценария может быть более одного источника, если требуется объединять данные из разных таблиц.

Приёмник

Когда произведены все загрузки, очистки, трансформации, обогащения данных и т.д., после шаблона с последними операциями добавляют «финальный» шаг с «Приёмником». С помощью шаблона надо всего лишь задать имя набора данных, созданного после всех расчётов и преобразований. Имя впечатывается в строку ввода «Приемник данных» диалогового окна «Мастер настройки приемника данных». В дальнейшем, это имя следует использовать в Аналитическом портале при создании набора данных.

В верхнем правом углу Мастера есть кнопки для вспомогательных функций: можно сохранить файл (в формате «*.txt»), распечать таблицу на принтер, посмотреть содержимое, получить ссылку на финальную таблицу.

В нижней части окна Мастера отражается код SQL (удаление таблицы приемника, повторное её создание на базе предыдущего шага).

Можно установить галочку в селекторе «Является источником». Тогда появится возможность использовать приёмник дальше в сценарии, т.е. протянуть из него стрелку для следующего шага, и такой приёмник не будет «финальным».

Просмотр

Шаблон «Просмотр» сам по себе не влияет на результат работы сценария. Однако, это удобный и полезный инструмент. Он описывает данные, полученные на предыдущем шаге. Из списка полей предыдущего шага («Поля» в левой нижней части окна) методом drag-and-drop необходимо переместить анализируемые поля в секцию «Статистика» (в правой нижней части окна). По каждому полю еще можно указать (вводом с клавиатуры) лимит количества значений (ограничение выборки в столбце «Лимит кол-во значений (TOP N)»).

Выбор вкладки «Качество данных» (правее вкладки «Статистика») открывает доступ к следующим функциям:

  1. соответствие значений поля какому-либо условию;

  2. поиск дублей значений.

Аналогично секции «Статистика», поля для изучения перемещаются в секцию «Качество данных» (кнопка «Добавить» создает пустую строку, кнопка «Копировать» — копирует существующую). Для каждого поля в колонке «Тип проверки» есть выпадающий список со значениями «Дубли» или «Условие».

Чтобы сформировать условие для конкретного поля, надо выделить строку с этим полем, затем в нижней правой подсекции нажать кнопку «Добавить условие» (в виде белого плюса в круге зеленого цвета). Рядом также есть кнопка удаления условия.

Для числовых полей можно использовать операторы сравнения («больше», «меньше», «больше или равно», «меньше или равно», «равно», «не равно» — «!=») либо вхождения в диапазон («IN»).

Для текстовых строк в условии может быть длина строки («LEN»), поиск по совпадению текста («LIKE»), вхождение в диапазон текстовых значений («IN»). Также возможен поиск по варианту, когда в тексте только цифры («Только цифры [0-9]»).

В столбце «Значение» (правее колонки «Условие») следует ввести те значения, с которыми производится сравнение.

В каждой строке настройки условия можно включить селектор «NOT» (первый столбец): он задает, что условие не соблюдается (логическое «НЕ»).

Для типа проверки «Дубли» не предусмотрено условий сравнения.

В показателях статистики можно посмотреть, сколько всего строк по полю, сколько из них пустых или NULL, уникальных, минимальная, средняя и максимальные длина текстового поля либо минимум, максимум и среднее для чисел.

На вкладке «Образец данных» можно посмотреть образцы значений, а на вкладке «Статистика» для каждого значения каждого поля можно узнать, сколько раз оно встречается. Шаблон «Просмотр» не может принимать данные от шага «Источник». Нужны какие-то обработки данных на предыдущем шаге.

Очистка таблицы

Шаблон «Очистка таблицы» производит очистку таблицы из базы данных, которую надо указать в поле «Приемник данных». В итоге, шаг генерирует код SQL TRUNCATE TABLE с указанием имени таблицы.

Связь с другими шагами сценария нужна, чтобы указать, в какой момент (после чего и перед чем) сделать операцию очистки.

Перенос данных

Шаблон шага «Перенос данных» предназначен для переноса данных между двумя различными базами внутри одного сценария. Например, перенос данных в базу данных витрин ClickHouse из базы данных ядра на базе PostgreSQL.

Для работы шага обязательно должен быть установлен агент выполнения сценария («Информация» / «Основные настройки» / «Агент для выполнения сценариев»).

На закладке «Источник и приемник» указываются база данных и имя таблицы источника, а также база данных и таблица модели приемника. Также указывается режим записи данных в таблицу приемника. По гиперссылке «Настроить таблицу» открывается форма настройки таблицы модели приемника.

На следующем шаге (закладка «Связь полей»). требуется установить связи между полями таблицы-источника и таблицы-приемника. Для этого над именем поля таблицы-источника (в левой секции окна) нужно нажать левую кнопку мыши, и, не отпуская её, сдвинуть указатель мышь в имя поля таблицы-приёмника (в правой секции окна).

В итоге, связанные поля будут выделены жирным шрифтом. В левой части отражается информация о входящем потоке, а в правой устанавливается соответствие и режим записи данных.

Если в таблицах имена полей схожи, и у них совпадает тип, можно ускорить процесс связывания с помощью кнопки «Автосопоставление». Рядом есть кнопка «Очистить все сопоставления», которая удаляет связи.

Перенос данных логируется документом «Перенос данных» («Логи» / «Переносы данных»).