Após ter realizado a última parte de inserção de conhecimento dentro da base de conhecimento (KB) pelo processo de Matching Policy – http://social.technet.microsoft.com/wiki/pt-br/contents/articles/12608.data-quality-services-dqs-matching-policy.aspx
 agora iremos realizar a criação de um projeto de Qualidade dos Dados (Data Quality Project).

 

Data Quality Project

(Figura 1 – Processo de Qualidade da Informação.)

 

Com o Knowledge Base (KB) ou Base de Conhecimento bem construída e consolidada, é possível utilizar essa base para realizar a comparação das informações com outras fontes de dados.

 

Esse projeto consiste principalmente em análisar as informações que são de valor a empresa, e com isso gerar ao negócio dados “limpos” e concisos.

 

Cleansing Project

Esse projeto consiste em analisar as informações contidas dentro da base de conhecimento com as informações de fontes de dados, e com isso é possível aprovar, rejeitar ou mudar informações para que assim a mesma possa se adequar dentro da nossa regra de negócio.

 

Para isso iremos realizar a criação do Projeto abrindo o DQS.

 

image

(Figura 2 – Criando um novo Projeto.)

 

image

(Figura 3 – Todos os Domínios criados dentro da base de conhecimento assim como todas as Políticas.)

 

image

(Figura 4 – Selecionando a atividade de Cleansing.)

 

Agora é necessário o nome para a criação do projeto.

 

image

(Figura 5 – Criando o projeto utilizando a base de conhecimento na qual realizamos a criação e inserção dos domínios.)

 

Com o projeto já criado, agora iremos realizar a comparação das informações com o EXCEL - DQ – Comparação Informações.XLS(https://skydrive.live.com/#cid=6E894476A77CD2F2&id=6E894476A77CD2F2%21142). Sendo assim iremos mapear os domínios de acordo com as informações dentro do EXCEL.

 

image

(Figura 6 – Realizando o Mapeamento dos Domínios com o EXCEL.)

 

Com o mapeamento relizado, agora iremos startar o processo de Cleansing. Depois de todos os dados serem analisados o Profiler nos dará um diagnóstico.

 

image

(Figura 7 – Informações geradas pelo Profiler. Com isso temos Valores Corretos, Valores Sugeridos, Valores Inválidos e Valores que foram automaticamente marcados como corrigido.)

 

Com isso temos a seguinte informação.

 

image

(Figura 8 – Processo de Cleasing,)

 

Para cada Domínio que temos na base de conhecimento, possuímos a quantidade de valores encontrados. Agora iremos analisar algun dos domínios para que assim possamos entender melhor a capacidade da ferramenta.

 

Domínio – Cargo

image

(Figura 9 – Quantidade de Registros sugeridos pelo processo de Cleansing.)

 

image

(Figura 10 – Valor Sugerido.)

 

Pelo processo de Cleasing esse registro teve a Confiança de 70% com o valor dentro do nosso domínio Administrador de Redes. Nesse caso como não temos cargo com esse valor o mesmo será ignorado. Sendo assim esse registro não será adicionado dentro da nossa base de conhecimento.

 

image

(Figura 11 – Novos valores encontrados.)

 

image

(Figura 12 – Valores encontrados para o Domínio Cargo.)

 

Nesse caso dois valores que vieram do EXCEL não foram encontrados dentro do nosso domínio, por isso eles foram especificados como novos valores, sendo assim iremos adicionar esses novos cargos dentro da nossa base de conhecimento.

 

image

(Figura 13 – Valores Inválidos.)

 

image

(Figura 14 – Valores inválidos encontrados para o Domínio Cargo.)

 

Com isso temos o valor Compras que foi ignorado dentro da nossa base de conhecimento e o valor que ingoramos anteriormente Administrador de informações.

 

image

(Figura 15 – Valores que foram corrigidos.)

 

image

(Figura 16 – Valores que foram marcados como corrigidos pelo processo.)

 

Como possúimos uma correção desses valores dentro da nossa base de conhecimento, os mesmos serão alterados para CEO, como podemos visualizar no campo Correct TO.

image

(Figura 17 – Todos os valores que foram comparados com o EXCEL e  que são corretos com os do domínio.)

 

image

(Figura 18 – Valores Corretos.)

 

Vemos claramento que os valores Coordenador de Banco de Dados DBA Azure  estão marcados como Modified By User isso porque são valores novos que ate o presente momento não constavam dentro da base de conhecimento.

 

Domínio Composto – Endereço

No caso do nosso domínio composto contendo Cidade, Estado e Região, tivemos.

 

image

(Figura 19 – Novos valores encontrados para o Domínio Composto.)

 

image

(Figura 20 – Valores encontrados para o Domínio Composto.)

 

Com isso vamos que o domínio composto encontrou os valores Mato Grosso do Sul, MT, Brasil  e  Rio de Janeiro, RJ, Brasil.

Com isso iremos especificar a Cidade, Estado e Região e marcar o mesmo como corretos.

 

image

(Figura 21 – Especificando a Cidade, Estado e Região e logo após aprovando o registro para ser inserido dentro da base de conhecimento.)

 

image

(Figura 22 – Valores que foram corrigidos.)

image

(Figura 17 – Todos os valores que foram comparados com o EXCEL e que são corretos com os do domínio composto.)

O interresante é notar que o 1ª Valor está como Brasília, DF, United States  porém pela regra “Normalização Brasil  que realizamos, o mesmo foi trocado pela região Brasil.

Depois de realizar essa análise para todos nossos domínios, podemos realizar a exportação desses valores para o SQL Server, EXCEL e CSV.

 

image

(Figura 18 – Realizando a exportação das informações para uma tabela.)

 

Com os dados importados, agora temos as informações aprovadas dentro da nossa base de conhecimento.