Esse novo recurso apresentado no SQL Server 2012 é uma solução para o tratamento de informações. Ele provê para o profissional de TI ou à um Heavy User, manter, padronizar, normalizar e aseguar a qualidade das informações dentro da sua empresa.
O DQS é um solução que possibilita a interatividade do usuário com as informações de diversos locais, tipos e padrões. Esse recurso tem a capacidade de fazer com que o usuário possua um maior conhecimento das informações da empresa fazendo assim com que se possa realizar operações de limpeza de dados, relacionamento de registros, verificação e análise.
A cada dia que se passa, a preocupação em possuir dados incorretos dentro das bases de dados se torna crítica, sendo assim o DQS pode fazer com que falta de pradronização, inconsitência, aplicação de filtros, tratamento de registros sejam feitos para suas informações. Como os dados estão ligados diretamente ao negócio e sabendo que as informações refletem diretamente em como uma empresa pode se comportar ou mudar sua estratégia dentro do mercado de trabalho, com isso dados errôneos fazem com que a empresa perca credibilidade e mercado.
Por isso o DQS tem esse grande poder, poder de transformação, fazendo com que a credibilidade e confiança das suas informações reflitam possitivamente em sua empresa, tratando os dados de diversas formas e o tornado confiável e tangível.
O DQS provê uma total análise de informações alêm de possibilitar com que a complexidade de se tratar dados incossistentes se torne uma tarefa menos pesada e cansativa. De acordo com isso o DQS pode atuar nos seguintes cenários:
Processo de análise e tratamento das informações dentro de uma ou mais fontes de informação. Com isso é possível rejeitar, aprovar, remover, acrescentar, unir, padronizar dados.
(Figura 1 – Informações são introduzidas de diversas fontes de dados, com isso a mesma é inserida dentro de um banco de conhecimento aonde passa por um processo de limpeza, e logo após isso as informações são corrigidas e geradas/processadas.)
Processo que tem como objetivo reduzir a duplicidade e aumentar a precisão das informações. Com isso há algoritmos de probabilidade que encontram normalizações e facilitam esse processo.
(Figura 2 – As informações são importadas, analisadas e depois passam por um processo de normalização e tratamento de duplicidade.)
Seus dados podem ser verificados pela nuvem. A Microsoft disponibiliza um serviço de referência dentro do Windows Azure DataMarket.
Análise de todas as informações em cada estágio, base de conhecimento, gerenciamento de domínio, correspondência e limpeza de informações.
Por ser uma solução de análise de informações, é criado um banco de dados, aonde permite que o DQS crie processos de qualidade e melhore cada vez mais seus dados.
(Figura 3 – O gerenciamento e tratamento das informações passadas para o DQS vinda de diversas fontes de dados. Com isso os processos de Duplicidade, Descoberta, Implementação de políticas e limpeza de dados são realizadas para que os dados sejam normatizados.)
(Figura 4 – Ciclo de Vida do DQS.)
Todos os processos involvem intervenção humana, isso porque o tratamento de uma informações não pode ser automatizada por completo, há muitas nuances e regras, podemos realizar a automatização algumas coisas.
Essa é a fase da construção de um (DQKB), Banco de dados de Conhecimento. Com essa base , há o processo de discoberta e extração das informações. Essa fase consiste em algumas em:
Importação manual de valores, regras e opções para sua base de dados.
Processo automático para extração de informações vinda das fontes de dados.
Manualmente realiza a descoberta de resultados para cada domínio e realiza a correção de valores incorretos.
(Figura 4 – A partir do domínio criado, é gerado um processo de automatização que faz com que os resultados encontrados por esse processo seja corrigido, alterado ou substituido.)
Após a criação da base de conhecimento, há o processo de intervenção, as limpezas para o aprimoramento dessa base é realizada e com isso temos os seguinte passos:
Processo automático de limpeza dos dados do DQKB.
Além do processo automático, esse passo consiste na análise e complemento do processo.
Esse processo pode ou não ser realizado dentro do Ciclo de vida do DQS, isso porque será analisado se é necessário a criação de alguma nova estrutura.
(Figura 5 – A partir da limpeza das informações, o passo manual exige com que seja feito a análise das informações geradas.)
Como último passo para e ciclo do DQS, Teremos uma base de dados concisa, limpa e estável. Essa base servirá para a normalização das informações que forem comparadas.
http://msdn.microsoft.com/en-us/library/gg524800.aspx
http://msdn.microsoft.com/en-us/library/hh213071.aspx