Entendendo o Data Quality Services (DQS)

 

 

Esse novo recurso apresentado no SQL Server 2012 é uma solução para o tratamento de informações. Ele provê para o profissional de TI ou à um Heavy User, manter, padronizar, normalizar e aseguar a qualidade das informações dentro da sua empresa.

O DQS é um solução que possibilita a interatividade do usuário com as informações de diversos locais, tipos e padrões. Esse recurso tem a capacidade de fazer com que o usuário possua um maior conhecimento das informações da empresa fazendo assim com que se possa realizar operações de limpeza de dados, relacionamento de registros, verificação e análise.

A cada dia que se passa, a preocupação em possuir dados incorretos dentro das bases de dados se torna crítica, sendo assim o DQS pode fazer com que falta de pradronização, inconsitência, aplicação de filtros, tratamento de registros sejam feitos para suas informações. Como os dados estão ligados diretamente ao negócio e sabendo que as informações refletem diretamente em como uma empresa pode se comportar ou mudar sua estratégia dentro do mercado de trabalho, com isso dados errôneos fazem com que a empresa perca credibilidade e mercado.

 

Por isso o DQS tem esse grande poder, poder de transformação, fazendo com que a credibilidade e confiança das suas informações reflitam possitivamente em sua empresa, tratando os dados de diversas formas e o tornado confiável e tangível.

O DQS provê uma total análise de informações alêm de possibilitar com que a complexidade de se tratar dados incossistentes se torne uma tarefa menos pesada e cansativa. De acordo com isso o DQS pode atuar nos seguintes cenários:

Data Cleansing (Limpeza de Dados)

Processo de análise e tratamento das informações dentro de uma ou mais fontes de informação. Com isso é possível rejeitar, aprovar, remover, acrescentar, unir, padronizar dados.

Data Cleansing Process in DQS

(Figura 1 – Informações são introduzidas de diversas fontes de dados, com isso a mesma é inserida dentro de um banco de conhecimento aonde passa por um processo de limpeza, e logo após isso as informações são corrigidas e geradas/processadas.)

 

Data Matching (Correspondência de Dados)

Processo que tem como objetivo reduzir a duplicidade e aumentar a precisão das informações. Com isso há algoritmos de probabilidade que encontram normalizações e facilitam esse processo.

 

Matching Process in DQS

(Figura 2 – As informações são importadas, analisadas e depois passam por um processo de normalização e tratamento de duplicidade.)

 

Reference Data Servives (Referência de Serviço de Dados)

Seus dados podem ser verificados pela nuvem. A Microsoft disponibiliza um serviço de referência dentro do Windows Azure DataMarket.

Profilling (Análise)

Análise de todas as informações em cada estágio, base de conhecimento, gerenciamento de domínio, correspondência e limpeza de informações.

Knowledge Base (Base de Conhecimento)

Por ser uma solução de análise de informações, é criado um banco de dados,  aonde permite que o DQS crie processos de qualidade e melhore cada vez mais seus dados.

DQS Process

(Figura 3 – O gerenciamento e tratamento das informações passadas para o DQS vinda de diversas fontes de dados. Com isso os processos de Duplicidade, Descoberta, Implementação de políticas e limpeza de dados são realizadas para que os dados sejam normatizados.)

 

Ciclo de Vida de um Projeto DQS 

image

(Figura 4 – Ciclo de Vida do DQS.)

Todos os processos involvem intervenção humana, isso porque o tratamento de uma informações não pode ser automatizada por completo, há muitas nuances e regras, podemos realizar a automatização algumas coisas.

 

Knowledge Acquisition (Aquisição de Conhecimento)

image

Essa é a fase da construção de um (DQKB), Banco de dados de Conhecimento. Com essa base , há o processo de discoberta e extração das informações. Essa fase consiste em algumas em:

Domain Management (Gerenciamento de Domínio)

Importação manual de valores, regras e opções para sua base de dados.

 

Knowledge Discovery (Descoberta de Conhecimento)

 Processo automático para extração de informações vinda das fontes de dados.

 

Discovery Value Management (Descoberta de Valores Encontrados)

Manualmente realiza a descoberta de resultados para cada domínio e realiza a correção de valores incorretos.

 

image

(Figura 4 – A partir do domínio criado, é gerado um processo de automatização que faz com que os resultados encontrados por esse processo seja corrigido, alterado ou substituido.)

 

Interactive Cleansing (Limpeza Interativa)

image

 

Após a criação da base de conhecimento, há o processo de intervenção, as limpezas para o aprimoramento dessa base é realizada e com isso temos os seguinte passos:

 • Cleansing (Limpeza)

Processo automático de limpeza dos dados do DQKB.

 • Interactive Cleansing (Limpeza Interativa)

Além do processo automático, esse passo consiste na análise e complemento do processo.

 • Enrich Knowledge (Melhoria do Conhecimento) 

Esse processo pode ou não ser realizado dentro do Ciclo de vida do DQS, isso porque será              
analisado se é necessário a criação de alguma nova estrutura.

 

image

(Figura 5 – A partir da limpeza das informações, o passo manual exige com que seja feito a análise das informações geradas.)

 

Cleansing & Matching (Limpeza e Correspondência)

 image

Como último passo para e ciclo do DQS, Teremos uma base de dados concisa, limpa e estável. Essa base servirá para a normalização das informações que forem comparadas.

 

Informações Complementares

http://msdn.microsoft.com/en-us/library/gg524800.aspx

http://msdn.microsoft.com/en-us/library/hh213071.aspx