O que é arquitetura de data warehouse?
A arquitetura de data warehouse é um design que encapsula todas as facetas do data warehousing para um ambiente corporativo. Data Warehousing é a criação de um domínio central para armazenar dados corporativos complexos e descentralizados em uma unidade lógica que permite a mineração de dados, a inteligência de negócios e o acesso geral a todos os dados relevantes de uma organização. A Arquitetura do Data Warehouse inclui todos os requisitos de relatório, gerenciamento de dados, requisitos de segurança, requisitos de largura da banda e requisitos de armazenamento. Esse design deve ser considerado a impressão azul para a arquitetura de dados corporativos. Em particular, várias áreas primárias devem ser desenvolvidas ao considerar a arquitetura do data warehouse. Essas áreas são acesso ao sistema de origem, processo de área de estadiamento, processo de enriquecimento de dados, arquitetura de dados, PR da inteligência de negóciosOCESS e requisitos de armazenamento.
Data Warehousing exige que os dados de origem sejam transferidos de um transacional ou banco de dados de registro no data warehouse. Esse processo é simplificado no termo Transformação e Carga do Extrato (ETL), que basicamente encapsula as áreas de acesso ao sistema de origem, enriquecimento de dados e arquitetura de dados. Por uma questão de clareza, é melhor projetar essas áreas arquitetônicas em detalhes, o que descreve como o processo ETL será alcançado. Embora alguns dados sejam necessários dos sistemas de origem, todos os dados não são desejáveis, pois sobrecarregariam o armazém corporativo. As principais áreas de preocupação ao abordar a camada do sistema de origem são metodologias de acesso a dados, dados exigidos do sistema de origem e requisitos de atualização.
A próxima camada arquitetônica de data warehousing a considerar é o processo da área de preparação. Como a maioria dos dados dos sistemas de origem seráValidação de quire e limpeza de dados, é importante criar uma zona de pouso para que os dados de origem residam antes de carregar na camada de regras de negócios do data warehouse. A área de estadiamento mantém feeds de dados brutos de sistemas de origem que normalmente são carimbados para garantir a recente dos dados.
O processo de enriquecimento de dados ou regras de negócios é onde os dados são limpos para atender ao resultado desejado do data warehouse. Um bom exemplo dessa abordagem de limpeza é usar ferramentas de limpeza de endereços; No caso de o sistema de origem ter dados incorretos, o processo de enriquecimento de dados executará o endereço do conjunto de dados brutos em um sistema de regras de negócios que corrige endereços inválidos. Este também é o momento em que os dados imprecisos são excluídos ou modificados para garantir a integridade dentro do data warehouse.
A próxima camada a considerar é a camada de arquitetura de dados. Esta área é onde o verdadeiro design ou esquema do Warehouse da Enterprise é concluído. Data warehousing em não umCombinação de todos os conjuntos de dados em uma empresa, mas, em vez disso, é um banco de dados recém -definido criado para permitir uma visão geral de todas as entidades comerciais da empresa.
Isso exige que a arquitetura de dados responda às perguntas que serão colocadas pelos negócios na área de inteligência de negócios e mineração de dados. Ao criar a arquitetura de dados dessa maneira, os conjuntos de dados brutos serão transformados em tabelas de fatos que permitirão aos usuários executar relatórios ad-hoc em toda a visualização corporativa, em vez de em um banco de dados específico. Esta também é a área que manterá metadados sobre os dados do sistema bruto, que pode incluir o nome do sistema de origem ou as chaves primárias.
A próxima área a considerar é os requisitos de inteligência e relatório de negócios. Essa camada pode ser pensada como o requisito voltado para o usuário para o data warehousing. Normalmente, essa área contém relatórios enlatados, capacidade de relatório ad-hoc e placas ou alertas corporativos. O BusinAs camadas de inteligência ESS normalmente obtêm mais consideração, pois é o único componente voltado para o exterior no data warehouse.
A camada final para consideração é os requisitos gerais de armazenamento de dados e manutenção. À medida que um data warehouse continua a crescer e se expandir, o armazenamento de dados do base de usuários deve ser gerenciado e mantido estritamente. Além disso, ao criar a arquitetura do data warehouse, o design deve fazer estimativas realistas sobre o que será necessário formar uma capacidade de armazenamento de dados, bem como uma banda com capacidade de acesso a dados. Esses requisitos serão críticos à medida que o data warehouse se tornar amplamente utilizado em toda a empresa.