Oracle data integrator что это

[ От редакции Oracle Magazine/RE : Интеграционный продукт Oracle Data Integrator, ранее известный как Sunopsis Data Conductor, отличается от Oracle Warehouse Builder тем, что функционирует в среде Fusion Middleware/SOA Suite, а не СУБД Oracle. Этот продукт реализует извлечение данных из разнородных источников и их загрузку также в разнородные базы данных. Он разработан для среды SOA, позволяет разделять схемы отображения данных (data mappings) на бизнес-правила (business rules) и специфические для платформ и процессов загрузки (platform/load-type specifics) части. Возможности этого продукта расширяемы благодаря использованию модулей знаний ("knowledge modules"). Подобно Oracle Warehouse Builder, он построен с применением Java и использует сервер целевой базы данных как ETL-движок, преобразуя данные после их извлечения и загрузки, при этом используя, когда это возможно, наборы операций (set-based operations). ]

Продукт Oracle Data Integrator состоит из нескольких компонент, работающих с единым централизованным репозиторием метаданных (metadata repository). Эти компоненты - графические модули (graphical modules), компоненты времени выполнения (runtime components) и Web-интерфейс - вместе с другими продвинутыми функциями и делают Oracle Data Integrator "легкой" (lightweight), свободной от атавизмов (legacy-free), совершенной интеграционной платформой.

В этом кратком техническом обзоре представлена архитектура Oracle Data Integrator.

Архитектура Oracle Data Integrator организована вокруг модульного репозитория, который доступен компонентам, графическим модулям и агентам исполнения (execution agents), целиком написанным на Java, в режиме клиент-сервер. Эта архитектура также включает Web-приложение - Metadata Navigator, которое позволяет пользователям получать доступ к информации (репозитория) через Web-интерфейс.

Графических модулей четверо: Designer, Operator, Topology Manager и Security Manager. Эти модули могут быть установлены на любой графической платформе, которая поддерживает Java Virtual Machine 1.5 (J2SE), а это Windows, Linux, HP-UX, Solaris, AIX, Mac OS и другие.

Рисунок 1: Графические модули и репозиторий

Designer определяет декларативные правила (declarative rules) для преобразования данных и обеспечения их целостности (data integrity).

Вся разработка проекта происходит в этом модуле; именно здесь определяются и сюда импортируются метаданные баз данных и приложений. Модуль Designer использует метаданные и правила для генерации сценариев для производственной среды. Этот модуль является ключевым для разработчиков и администраторов метаданных;

Operator управляет и наблюдает за производственной средой. Он разработан для операторов этой среды и показывает журналы исполнения (execution logs) с подсчетом ошибок, числом обработанных строк, статистикой исполнения, кодом, который исполняется в данный момент, и так далее. На этапе проектирования (design time) разработчики могут использовать модуль Operator для целей отладки;
Topology Manager определяет физическую и логическую архитектуру инфраструктуры. Серверы, схемы и агенты регистрируются в главном (master) репозитории через этот модуль, как правило, администраторами инфраструктуры или проекта;
Security Manager управляет профилями пользователей и привилегиями их доступа. Security Manager также назначает привилегии доступа к объектам и функциям (features). Этот модуль обычно используется администраторами безопасности.

Все модули хранят свою информацию в централизованном репозитории.

Компоненты времени выполнения

Во время выполнения Scheduler Agent координирует исполнение сценариев.

Scheduler Agent может быть установлен на любой платформе, которая поддерживает Java Virtual Machine (J2SE), а это Windows, Linux, HP-UX, Solaris, IBM AIX, iSeries/AS400, zSeries/OS/390. Исполнение может быть запущено из одного из графических модулей либо встроенным обработчиком расписаний (built-in scheduler) либо внешним обработчиком расписаний (thirdparty scheduler).

Рисунок 2: Компоненты времен выполнения.

Репозиторий состоит из главного (или мастер-, master) репозитория и нескольких рабочих (work) репозиториев. Эти репозитории являются базами данных, управляемыми средствами реляционных СУБД. Все объекты, которые c применением модулей конфигурируются, разрабатываются или используются, хранятся в одном из этих репозиториев и доступны в режиме клиент-сервер для различных компонентов архитектуры.

Обычно есть один главный репозиторий, который содержит информацию о безопасности (пользовательские профили и привилегии), топологическую информацию (определения технологий и серверов) и версии объектов. Для ведения информации, хранимой в главном репозитории, используются Topology Manager и Security Manager. Все модули имеют доступ к главному репозиторию, так как все они сохраняют информацию о топологии и безопасности в нем.

Рисунок 3: Главный репозиторий и рабочие репозитории.

Объекты проектов хранятся в рабочих репозиториях. Несколько рабочих репозиториев могут сосуществовать на одной и той же установке. Это полезно для ведения отдельных сред или отображения особенных версий жизненного цикла - например, среды разработки (development), квалифицирования (qualification) и производственная среда.

Модели (Models) - включая области хранения данных (datastores), колонки (columns), ограничения целостности данных (data integrity constraints), перекрестные ссылки (cross references) и происхождение данных (data lineage);
Проекты (Projects) - включая декларативные правила, пакеты (packages), процедуры, папки, модули знаний (knowledge modules) и переменные (variables);
Информация времени выполнения (Runtime information) - включая сценарии, информацию расписаний и журналы.

Пользователи работают с контентом рабочего репозитория, используя модули Designer и Operator. Рабочие репозитории также доступны во время выполнения агентам.

Когда рабочий репозиторий используется только для хранения информации, необходимой для исполнения (как правило, это имеет место для производственных сред), он называется репозиторием исполнения (execution repository). Этот репозиторий жлступен во время выполнения агентам и через интерфейс модуля Operator. Важно помнить, что все рабочие репозитории всегда подсоединены к одному и только одному главному репозиторию.

Metadata Navigator (Навигатор метаданных ) - это приложение для среды Java 2 Enterprise Edition (J2EE), которое обеспечивает доступ через Web к репозиториям. Оно позволяет пользователям просматривать объекты, включая проекты, модели и журналы исполнения. Metadata Navigator может быть установлен на сервер приложений, такой как Oracle Container for Java (OC4J) или Apache Tomcat. Бизнес-пользователи, разработчики, операторы и администраторы могут использовать Metadata Navigator через Web-браузер. Через Web-интерфейс этого приложения пользователи могут увидеть карты потоков (flow maps), найти источники всех данных и даже "просверлиться" (drill down) до уровня показателя (field level), чтобы понять преобразования, используемые для построения этих данных. Они могут также запускать сценарии и следить за ними из Web-браузера через Metadata Navigator.

Рисунок 4: Используя Metadata Navigator, пользователи могут получать доступ к метаданным и выполнять их из Web-браузера.

Другие компоненты и функции

Oracle Data Integrator - это "легкая", свободная от атавизмов, совершенная интеграционная платформа. Все компоненты могут выполняться независимо на любой совместимой с Java системе.

Благодаря свой свободной от атавизмов архитектуре, Oracle Data Integrator устанавливается в течение минут на любой платформе.

Oracle Data Integrator (ODI) loads and transforms data faster into data warehouses by leveraging the power of the target database instead of relying on a conventional ETL server. Pre-built connectors simplify integration by automating manual integration tasks needed to connect databases and big data.

For the 13th year, Oracle stays ahead across the diversity of use cases and innovation.

Oracle is the strategic leader in the next generation of data integration innovation.

Explore the principles, use cases, and examples of Oracle customers deploying a data mesh.

Oracle Data Integrator Enterprise Edition features

High-performance data transformation

Powerful Extract, Transform, Load (ETL)

Push-down transformation to the database to minimize performance impact on source systems.

Lower cost

Use the power of the database system CPU and memory to execute transformations instead of a separate, conventional ETL transformation server.

Native big data support

Generate Apache Spark code following big data standards to transform and execute data mappings.

Out-of-the-box integrations

Comprehensive, prebuilt connectors

Large library of knowledge modules simplifies integrating sources and targets. Oracle Data Integrator’s modular design gives developers more flexibility when connecting multiple systems.

Declarative design

Reuse data-mapping rules accelerate development of integration logic and increase productivity.

Guided integration

ODI Studio uses best practices to simplify data mapping between systems.

Heterogeneous system support

Big data integration

Prebuilt big data connectors for Hadoop, Spark Streaming, Hive, Kafka, HBase, Sqoop, Pig, Cassandra, NoSQL databases, and more allows users to integrate any data from any source.

Popular databases and other technologies

Extensive database support, including Oracle Autonomous Database, ERP and CRM systems, B2B systems, flat files, XML, JSON, LDAP, JDBC, ODBC, SaaS, and third-party appliances.

Integrates with Oracle GoldenGate

Unify data load and synchronization

Enhance ETL with data replication to keep databases and data warehouses synchronized.

Real-time data warehouse

Faster data load and transformation of real-time data into a data warehouse or big data system.

Integration with Oracle Enterprise Metadata Management

Governance and transparency

Harvest metadata for exploration, search, and data lineage from Oracle and third-party technologies for greater confidence in data.

Model versioning

Compare metadata models for compliance.

Integration with Oracle Enterprise Manager

Centralize data management

Oracle Enterprise Manager addresses monitoring and management from one location, improving productivity.

Oracle Management Pack for ODI

Monitor and manage your ETL and integration activities within the Oracle Enterprise Manager platform.

Integrate with big data for machine learning (ML) and analytics

Import and prepare data for use in modeling and big-data analytics with Hadoop, Kafka, JMS, NoSQL databases for ML and AI.

Raymond James Financials chose Oracle Data Integrator to consolidate data for an enterprise data warehouse

Raymond James integrated easily with Oracle GoldenGate to load data and generate client performance reports in seconds, not minutes. This enabled thousands of financial advisors to help clients make better decisions and improve customer satisfaction.

Data load into data warehouses

Import and prepare data for analysis in data warehouses with automatic transformation capabilities.

ODI 11g FAQ

Что такое Oracle Data Integrator (ODI)?
Oracle Data Integrator это всеобъемлющая интеграционная платформа, удовлетворяющая всем требованиям интеграции данных различных типов: от тяжелых, высокопроизводительных пакетных загрузок, до сложных событийных систем загрузки данных из разнородных источников и сервисов данных использующих SOA.

Проекты интеграции данных
Бизнес-аналитика и хранилища данных
Проекты по модернизации
Проекты по миграции и консолидации
Проекты с использованием SOA
Проекты по ведению НСИ (нормативно-справочная информация, MDM)

Данные каких технологических систем могут быть интегрированы с помощью ODI?
Список технологий для систем источников и приемников данных поддерживаемых Oracle Data Integrator включен в документ Системные требования для ODI и список поддерживаемых платформ.

Где можно найти документацию по Oracle Data Integrator?
Документация для ODI может быть найдена в библиотеке документации по платформе Oracle Fusion Middleware.

Доступна ли демо версия для Oracle Data Integrator?
Да, найти документ с описанием начала работы с ODI и загрузить демо версию можно со страницы Oracle Data Integrator на OTN.

Где скачать Oracle Data Integrator?
ODI 11g доступен для скачивания на странице OTN, а также на сайте eDelivery в разделе Oracle Fusion Middleware > Oracle Fusion Middleware 11g Media Pack.

Где скачать утилиту создания репозиториев (RCU)?
RCU 11.1.1.3.x может быть загружена со страницы загрузки Oracle Data Integrator на сайте OTN, а также с сайта eDelivery в разделе Oracle Fusion Middleware > Oracle Fusion Middleware 11g Media Pack.

Для моей платформы нет инсталлятора. Возможно ли проинсталлировать ODI вручную?
Да, дополнительный инсталляционный диск для Oracle Data Integrator содержит все файлы необходимые для проведения ручной инсталляции ODI. Процесс ручной инсталляции и необходимые конфигурационные шаги описаны в документации по Oracle Data Integrator.

Где найти информацию о принципах работы и архитектуре Oracle Data Integrator?
Эта информация доступна как часть документации, смотрите Введение в Oracle Data Integrator.

Где найти информацию о решениях с высокой надежностью для Oracle Data Integrator?
Вы можете найти эту информацию в документации - Fusion Middleware High Availability Guide.

Можно ли сделать апгрейд с предыдущих версий на версию ODI 11g?
Да, предыдущие версии могут быть обновлены на Oracle Data Integrator 11g. Детали находятся в документации ODI в документе Руководство по обновлению.

Где увидеть информацию о текущих клиентах и процессе внедрения ODI?
Вы можете найти эту информацию в документе Oracle Data Integration Successes.

Включает ли Oracle Data Integrator 11g также и WebLogic Server?
Нет, лицензия на Oracle Data Integrator 11g не включает в себя лицензию на WebLogic Server. Оба продукта должны инсталлироваться раздельно.

Oracle Data Integrator Enterprise Edition. Включает в себя объединение двух продуктов в одно предложение:
- Oracle Data Integrator
- Oracle Warehouse Builder
ODI также встроен в некоторые другие продукты Oracle такие как Business Activity Monitoring, Complex Event Processing, Hyperion Planning, Hyperion Financial Management и т.п.

федерация данных — виртуализированное представление разрозненных данных в форме единого источника. Вычитано вот здесь.

Ссылки в блоге:
Заметки с ярлыком Ликбез.
А также описание курсов от компании РДТех

Где найти адаптеры для приложений используемые в Oracle Data Integrator?
Адаптеры приложений (модули знаний) можно найти в папке xml-reference на дополнительном инсталляционном диске ODI. Этот диск можно загрузить со страницы загрузки Oracle Data Integrator на OTN или с сайта eDelivery (Oracle Fusion Middleware > Oracle Fusion Middleware 11g Media Pack)

Где находится список известных проблем и описания их решений?
Проблемы и методы их решения для различных платформ описаны в документе Примечания к релизу в библиотеке по Oracle Fusion Middleware.

Где найти список всех кодов ошибок для Oracle Data Integrator?
Описание ошибок ODI можно найти в документе Справочник по ошибкам Oracle Fusion Middleware 11g.

Ссылки в блоге:
Также можно попробовать почитать этот блог, задать автору вопрос, или поискать информацию через страницу поиска, которая настроена на поиск по сайтам, связанным с ODI.

В конце 2006 года, примерно в октябре-ноябре месяце, Oracle приобрел компанию Sunopsis. Приобретение было сделано из-за продукта, который назывался Sunopsis Data Conductor.

Этот продукт был довольно мало известен в России, но занимал определенную нишу в мире. После приобретения, Sunopsis Data Conductor был переименован в Oracle Data Integrator. Самое интересное было в том, что этот продукт до приобретения Oracle был прямым конурентом Oracle Warehouse Builder. И, конечно, интересно, что между ними общего и чем они отличаются.

И ODI и OWB – это так называемые, ETL (Extract Transform Load) инструменты.

Два слова об этом. Если вы строите хранилище данных или просто хотите перекачать данные из одной СУБД в другую, то у вас, в основном, два пути:

1. Написать скрипты по перекачке вручную.
Это самый простой путь и часто самый быстрый. При этом у вас есть полный контроль за тем, что происходит при перекачке и т.д.

2. Использовать ETL инструмент.
На первый взгляд, преимущества использования ETL не очевидны. Руками написать все чаще проще и быстрее. Но если проект большой, то количество скриптов быстро начинает превосходить возможности одного человека помнить в каком из них что и как делается. Более того, если программистов несколько, то разобраться в скрипте другого вообще может быть очень сложной задачей.
Поэтому приходит осознание, что нужна некая система, которая помогает держать в порядке всю логику преобразований. И плюс дает массу преимуществ, вроде контроля влияния (какой объект влияет на другой, какие объекты будут затронуты, при уничтожении какой-то колонки в источнике данных)

Я не хочу здесь долго описывать преимущества ETL. Тема это не новая, к тому же довольно-таки понятная.

Вернемся к ODI. У ODI есть несколько отличительных особенностей, на которых имеет смысл остановиться.

E-LT технология.
Sunopsis придумал это словосочетание, чтобы подчеркнуть свое отличие от \”традиционных\” ETL инструментов, которые работают по схеме \”черного ящика\”.

Существует специальный выделенный сервер, который выкачивает строчку за строчкой в себя все записи из источника(ов) данных (Extract в ETL), производит внутри себя преобразования, трансформации (Transform) и затем результаты загружает построчно в хранилище (Load). Черный ящик тут в том, что разработчик весьма ограниченно контролирует, что проиходит внутри выделенного, трансформирующего сервера. То есть, он, конечно, задает параметры и логику обработки, но физическая реализации этой трансформации находится вне его досягаемости.

Второй недостаток такого выделенного сервера в том, что в случае больших объемов данных, даже сама перекачка по записям сначала из источников, а потом загрузка в хранилище может занимать большое время.

В Sunopsis-е рассудили следующим образом. Традиционные ETL средства создавались в те время, когда серверное железо было дорогое и, по современным меркам, слабое. К тому же, в существующих тогда СУБД не было возможностей, упрощающих ETL процессы.

С тех пор прошло много времени и стало возможным вместо того, чтобы делать специализированный промежуточный сервер, использовать возможности самих СУБД и железа, на котором они крутятся. В этом случае, ETL процесс будет \”размазан\” между источником и приемником данных. А E-LT здесь в том, что, как один из вариантов, можно извлечь данные из источника, загрузить их в хранилище, и уже внутри хранилища осуществлять преобразования.

Таким образом, ликвидируется промежуточный сервер (который иногда требует больше ресурсов, чем сам сервер хранилища данных), и не нужно дважды производить перекачку данных. Естественно, часть обработки можно делать даже используя возможности сервера-источника данных, например фильтрацию или агрегацию.

В этой архитектуре агент ODI занимается только оркестровкой процесса – говорит что делать (генерирует и запускает код) на источнике, что делать на приемнике, при этом вся нагрузка ложится непосредственно на сервера источники и приемники.

Те, кто знаком с OWB, могут заметить, что OWB тоже использует в качестве трансформирующего движка возможности самого сервера хранилища данных. Это действительно так. Но ключевое отлчичие ODI тут в том, что он никак не привязан именно к СУБД Oracle, и может работать даже в архитектуре где серверов Oracle нет вообще. И в OWB сложнее сделать \”размазывание\” процесса между серверами.

Модули знаний. (Knowledge Modules)
Вторая и, наверное, самая интересная особенность, – это модули знаний или Knowledge Modules. Эта фича как раз и борется с черными ящиками.

Компания Sunopsis возникла, когда в конце 90х годов группа консультантов делала множество BI проектов, причем перекачки данных в этих проектах они писали руками. Со временем они поняли, что в любом проекте возникает масса похожих, шаблонных, действий которые неплохо было бы автоматизировать. Таким образом, возникла идея создать GUI-фреймворк для автоматизации типовой разработки ETL скриптов. Так и возник ODI-Data Conductor.

И они заметили, например, что загрузку данных в Oracle оператором INSERT, можно разбить на ряд стандартных шагов, типа: открыть соединение по dblink-у с удаленной базой; выполнить INSERT, который имеет стандартный синтаксис но в который нужно подставить имена колонок и таблиц; после загрузки закрыть линк и сделать COMMIT.

Само описание шаблона INSERT-а может выглядеть например так:

Собственно идея тут в том, что любое действие, которое производит ODI может быть описано шаблоном-модулем знаний, который можно использовать для одного и того же логического описания действия. Причем шаблон будет использовать особенности и синтакис той платформы, где код будет запущен.

Например, текстовый файл можно загрузить в Oracle при помощи SQL*Loader, а можно при помощи External Table.

Забрать данные из удаленной базы можно через цепочку построчных Select-Insert (что неэффективно, но бывает, что это единственный вариант), а можно через DBLINK. Можно даже пойти еще дальше – можно выгрузить данные на удаленном сервере в текст, передать его по FTP и загрузить SQL*Loader-ом в хранилище.

То есть, для решения одной и той же с точки зрения логики задачи (перекачка данных из источника в хранилище), можно использовать разные модули знаний, реализующие ту или иную операцию по-разному, в зависимости от плафтормы и других требований.

Если у вас есть приложение, которые умеет отдавать данные только через консоль, – можно написать модуль, который будет забирать данные так.

В поставке с ODI идет более 100 готовых модулей, так что, для начала должно хватить.

Плюс к этим возможностям добавить, что ODI умеет работать с XML, вебсервисами (причем может как брать данные через вебсвервисы, так и публиковать вебсвервисы) и т.д.

ODI может работать не только как ETL средство, но и, например, как платформа для построения HUB архитектуры.

Плюс, что интересно, он может продаваться в качестве платнйо опции к Oracle BI EE.

Возникает естественный вопрос, раз ODI так хорош, то что будет с OWB?

На самом деле, эти два продукта существуют в параллели и параллельно развиваются. Но интересно, что в следующих релизах они будут заимствовать друг у друга полезные возможности.

Если посмотреть внимательно, то можно увидеть, что OWB очень силен как ETL инструмент для построения хранилищ на платформе Oracle. В нем можно сделать автоматически многие вещи, которые в ODI в лучшем случае требуют переделки модулей знаний.

Вместе с тем, ODI силен именно своей гетерогенностью, непривязанностью к конкретной платформе. Поэтому на текущий момент, никто из них не является основным инструментом. У каждого есть преимущества в определенных условиях.

Что еще почитать на эту тему?

Здесь находится основная страница Oracle Data Integrator.

Тут можно скачать ODI.
Кстати, там внутри есть сконфигуренный пример, и можно посмотреть как ODI работает живьем.

А тут проходилка к этому примеру.

А еще можно почитать мой твиттер @apivovarov

2 Responses to “Что такое Oracle Data Integrator?”

[…] Читать полностью статью Андрея Пивоварова на Oracle Business Intelligence […]

Oracle Data Integrator solutions

Modernize data infrastructure

Enjoy native support for big data by leveraging the Spark engine for integrations.

Oracle Data Integrator (ODI) — это интеграционная платформа корпоративного уровня, которая обеспечивает извлечение, преобразование и загрузку данных из разнообразных источников: баз данных, файлов и других источников (например, LDAP каталогов или WEB-сервисов).

Oracle Data Integrator основан на архитектуре ELT (Extract – Load – Transform), в соответствии с которой вся нагрузка по преобразованию данных возлагается на СУБД. При этом достигается высокий уровень производительности за счет использования максимума возможностей и особенностей всех используемых в процессе обработки данных СУБД и минимизации передачи данных по локальной сети. Так же этот подход обеспечивает более рациональное использование вложений в оборудование и лицензии за счет использования одних и тех же мощностей для решения как задач пользователей так и загрузки (с разнесением по времени). Схематично типовой (рекомендуемый) процесс загрузки данных выглядит следующим образом:

Типовая схема процесса загрузки из источника

Данные из СУБД источника передаются в буферную область СУБД приемника, там силами СУБД проверяются, очищаются, преобразовываются и загружаются в целевые структуры. При необходимости возможно размещение буферной области не только на стороне приемника, но и на стороне источника или в отдельной СУБД.

Еще одной отличительной особенностью ODI является то, что он основан на принципе «декларативного проектирования», что позволяет разделить описание схемы преобразования данных на бизнес-правила и технологическую реализацию, учитывающую специфику платформы. При этом разработку правил переноса и преобразования данных могут выполнять специалисты, обладающие хорошими знаниями предметной области и сравнительно небольшими знаниями о принципах работы СУБД. Разработку технической реализации, в том числе оптимизацию и т.п. выполняют специалисты по конкретным СУБД. При этом им не требуется глубокое знание предметной области. Это позволяет не только разделить ответственность разных групп пользователей, но снизить требования к персоналу, задействованному для обслуживания и развития системы.

В архитектуру ODI заложен механизм расширения возможностей продукта путем подключения новых модулей знаний (Knowledge Modules, KMs), которые позволяют хранить специфичные (шаблонные) для данной платформы конструкции. Фактически, модули знаний являются «плагинами», реализующими лучшие практики загрузки и обработки данных для определенного источника данных или целевой СУБД.

Подобное разделение функций осуществляется при помощи так называемых модулей знаний (Knowledge Module). Модули знаний представляют собой шаблоны генерации кода на основе разработанных правил загрузки. В ODI выделяются следующие типы модулей знаний:
- Loading Knowledge Modules — модули знаний, предназначенные для обеспечения загрузки данных в ситуации когда источник и приемник данных не являются одной БД (в том числе когда они относятся к разным СУБД). Например, “LKM File to MSSQL (BULK)” – загрузка файла в БД MS SQL Server при помощи bulk insert или “LKM MSSQL to Oracle (BCP/SQLLDR)” – извлечение данных из БД MS SQL Server при помощи BCP и загрузка в БД Oracle при помощи SQL*Loader.
- Check Knowledge Module — модули знаний, предназначенные для выполнения проверок данных и обработки данных, не прошедших проверку. Проверки могут быть как выполняемыми в произвольное время по всей таблице, так и выполняемыми в процессе загрузки порции данных. Результатом обработки может быть как пометка ошибочных записей и продолжение процесса, так и остановка процесса в случае критичности ошибки.
- Integration Knowledge Module — модули знаний, предназначенные для выполнения загрузки данных непосредственно в целевые таблицы. Например, “IKM Oracle Incremental Update (MERGE)” – вычисление изменившейся порции данных и загрузка её в целевую таблицу при помощи оператора merge или “IKM Oracle Slowly Changing Dimension” – поддержка медленно меняющихся измерений с автоматическим формированием исторических версий данных.
- Journalization Knowledge Module — модули знаний, предназначенные для отслеживания изменившихся данных. Например, “JKM MSSQL Consistent” консистентное журналирование данных в БД MS SQL Server при помощи триггеров или “ JKM MSSQL to Oracle Consistent (OGG)” – захват изменений с БД MS SQL Server и перенос в БД Oracle при помощи Oracle Golden Gate.
- Service Knowledge Module — модули знаний, предназначенные для генерации java классов, реализующих web-сервисы доступа к данным.
- Reverse-engineering Knowledge Module — модули знаний, предназначенные для чтения метаданных (структуры) источников/приемников данных. Например, “RKM File (FROM EXCEL)” чтение структуры файла Excel.
В стандартную поставку входит более 150 модулей знаний. Все модули знаний являются открытыми, в них можно вносить собственные изменения для достижения желаемого результата. Так же возможно разрабатывать собственные модули знаний в случае, когда комбинирование и изменение стандартных оказывается недостаточным.

Применение различных модулей знаний позволяет реализовать разные сценарии загрузки одних и тех же данных без необходимости разработки процедур под каждый сценарий. Например, при первичной загрузке могут использоваться модули, передающие большой объем данных через файлы, а при штатной инкрементальной загрузке модули, работающие с прямым подключением к БД. Логическая схема загрузки (маппинг полей) при этом остается неизменной.

Пользовательские интерфейсы ODI

После запуска (как вручную, так и по расписанию) процесс может, при необходимости, ожидать наступления какого-либо события. Например, появления данных в таблице или появления файла с определенным именем в директории.

Кроме того, есть возможность вызова процессов загрузки, разработанных в ODI, внешними системами при помощи web-сервисов или команд операционной системы. Таким образом, ODI может быть прозрачно встроен в какие-либо бизнес-процессы.

В качестве источников или приемников данных может выступать практически любая СУБД, имеющая JDBC интерфейс. Стандартная поставка включает в себя более 50 преднастроенных технологий. Данный список при необходимости может быть легко расширен силами администраторов без необходимости программирования или привлечения специалистов вендора. Помимо СУБД есть встроенная поддержка работы с XML файлами, LDAP каталогами, выполнение команд операционной системы, передача файлов по протоколу FTP.

Журналы всех процессов загрузки записываются в технологическую БД. В дальнейшем они могут быть или просмотрены при помощи клиентского приложения ODI, или на основе этих таблиц могут быть настроены пользовательские отчеты.

Все процессы загрузки, реализованные в ODI, хранятся в виде моделей и в дальнейшем при необходимости могут быть изменены обслуживающим персоналом без привлечения разработчиков. Так же визуальность всех процессов и стандартность платформы обеспечивает быстрое обучение специалистов заказчика при эксплуатации.

При использовании одновременно Oracle Data Integrator и Oracle Business Intelligence Enterprise Edition и реализации всех процессов загрузки в ODI есть возможность в пользовательских отчетах просматривать последовательность преобразований данных (Data Lineage).

О работе в Oracle Data Integrator (ODI) и других захватывающих вещах из мира BI.
- О блоге
- Поиск по ODI блогам
- Инсталляция
- Пожелания и ошибки
- Патчи
- Документация по ODI
- ODI 11g FAQ
- ODI Experts
- BI-Quotient
- John Goodwin
Ingest data into data lakes

Ingest unstructured and object data into data lakes from many sources

Читайте также: