Após termos efetuado a instalação do DQS – http://social.technet.microsoft.com/wiki/pt-br/contents/articles/12605.data-quality-services-dqs-instalacao.aspx#DQ_ndash_Client agora iremos realizar a criação de uma Knowledge Base Management (KBM) ou seja realizaremos aqui a criação de uma base de conhecimento para o nosso negócio.

 

Introdução

 

(Figura 1 – A dificuldade de trabalhar com informações não normalizadas.)

O Knowledge Base Management (KBM) é uma base de conhecimento criada para armazenar informações pertinentes ao seu negócio, incluíndo assim, valores válidos como tambêm inválidos, regras para normalização e conformidade dos registros dentre outras, sendo que após a base criada é possível utilizá-la em diversos projetos de Data Cleasing ou Data Matching.

Para a criação de um KBM completo temos 3 atividades: Domain Management, Knowledge Discovery e Matching Policy,  iremos dividir aqui em 3 partes, portanto neste post iremos falar sobre o Domain Management.

image

(Figura 2 – Portal do DQS.)

Untitled

(Figura 3 – Knowledge Base Management.)

 

image

(Figura 4 – Selecionando a atividade Domain Management.)

Domain Management

Uma base de conhecimento nada mais é do que um conjunto de “Domains”, que são regras e normalizações para campos. Com isso, podemos criar diversos tipos de regras como: validar valores que poderão ser corrigidos, assim como gerenciar as informações, administrar, gerir dentre outras diversas opções possíveis.

Bem, para a criação dessa base, devemos possuir conhecimento das regras de negócio da empresa. Podemos realizar a importação de valores para nosso negócio, sendo assim iremos abrir uma base de conhecimento,  (KB – Base de Conhecimento.dqs) – https://skydrive.live.com/?cid=6E894476A77CD2F2&id=6E894476A77CD2F2%21142.

Iremos realizar a importação dessa base e entender cada “domain” (campos) assim como suas regras.

 

image

(Figura 5 – Abrindo a KB – Base de Conhecimento.)

 

image

(Figura 6 – Abrindo a KB a partir do arquivo.)

 

image

(Figura 6 – Domínios criados nesta base de conhecimento.)

 

Untitled

(Figura 7 – Realizando a importação da base de conhecimento.)

 

image

(Figura 8 – Importação concluída com sucesso.)

 

image

(Figura 9 – Todos os domínios criados para a base de conhecimento.)

 

Untitled

(Figura 10 – Painel de gerenciamento do Domain Management.)

 

image

(Figura 11 – Criação de um novo domínio.)

Para a criação de um novo domínio temos:

• Domain Name

O nome do domínio que você deseja criar deverá ser único e não pode possuir mais de 256 caracteres.

• Description

Campo opcional que provê informações sobre o domínio.

• Data Type

Tipo de dados: String, Date, Integer e Decimal.

• Use Leading Values

Quando essa opção é marcada, a saída desse valor será utilizado em um grupo de sinônimos.

• Normalize String

Essa opção só é mostrada para tipos de dados String e Data. Esse opção é utilizada para retirar caracteres especiais durante o processamento das informações.

• Format Output To

Com essa opção, é possível aplicar algumas opções de saídas de dados. Se o valor tipo String for informado você pode optar por ter a saida como UPPER CASE, LOWER CASE, CAPITALIZE se for do tipo data é possível ser DD/MM/YYYY, YY/MM/DD assim como diversos outros.

• Language

Essa opção é para tipo String. É a linguagem que você deseja que seja verificada durante o processo de Cleasing ou Matching.

• Enable Speller

Essa opção é para tipo String. Ela realizará a verificação gramatical dos valores.

• Disable Syntax Error Algorithms

Realiza a checagem de syntax dos valores durante o processamento das informações.

Para cada domínio criado, temos diversas opções que nos possibilitam realizar a importação de valores, adicionar novos, criar regras dentre outros.

 

image

(Figura 12 – Opções do Domínio.)

  

Opções do Domínio

 

image

(Figura 13 – Domain Values.)

Com essa opção é possível realizar a importação de valores para o domínio. Com os valores importados, é possível corrigí-los para que assim durante os processos de Cleasing e Matching os mesmos entrem em conformidade caso estejam incorretos.

 

Untitled

(Figura 14 – Importação de valores para o domínio a partitr de um excel, sendo que os suportados são XLSX, XLS e CSV.)

Com isso, após os valores inseridos teremos as informações importadas para dentro do nosso domínio.

image

(Figura 15 – Dados importados para o domínio de Cargos.)

Quando realizamos a importação de valores, é possível ajustar o tipo de cada um. Quando há diversos valores correspondentes a um valor, podemos organizá-lo por grupo, clicando com o botão direito e selecionando – Set as Leading, conforme figura acima.

• Correct

Quando não é necessário realizar nenhum tipo de correção, o registro que foi importado para o domínio está correto.

• Error

Essa opção é especificada quando o valor importado não está correto, ou por algum tipo de abreviação ou mudança.

• Invalid

Esse valor será descartado, sendo assim para ele não será colocado nenhuma correção, sendo que se desejar um valor substituto poderá ser inserido.

Ainda podemos ter rastreabilidade do que fazemos dentro do DQS, podemos clicar com o botão direito e selecionar History e assim teremos todo o histórico do que foi feito.

image

(Figura 16 – Histórico das informações alteradas.)
 

image

(Figura 17 – Term-Based Relations.)

 Outra opção que ajuda a encontrar e corrigir ocorrências errôneas dentro do domínio. Com isso é possível especificar um valor no qual será corrigido durante o processamento das informações.

 

image

(Figura 18 – Correção de alguns valores incorretos.)

 

image

(Figura 19 – Reference Data.)

Com essa opção, você pode se inscrever por um serviço que ajuda a otimizar e melhorar suas informações. Esse serviço possui uma base que verifica suas informações. Para isso você dever possuir uma conta no DataMarket, e após configurado, você terá as opções:

 

• Auto Correction Threshold

Durante o processo de Cleaning, o DQS realiza a correção dos valores que ultrapassarem o valor especificado.

• Suggested Candidates

Quantidade de valores sugeridos nesse provedor.

• Min Confidence

A pontuação de confiança. Durante o processo de Cleasing, o DQS ignora as sugestões de acordo com o especificado.

 

image

(Figura 20 – Opção para a configuração de um servidor RDS.)

 

image

(Figura 20 – Domain Rules.)

É possivel realizar a implementação de regras para os domínios.

 

image

(Figura 21 – Regra de validação da data.)

 É possível utilizar diversas opções para a validação das informações, assim como as cláusulas ON e OR. Com isso na hora do processamento das informações todas as regras criadas serão verificadas, sendo que as regras podem ser desabilitadas quando necessário.

 

Opções de um Domínio Composto

É possível tambêm criar o que chamamos de “Composite Domains”, que nada mais são do que um conjunto de Domínios. Se temos que realizar a validação de um endereço completo, teremos que ter um Composite Domain com Cidade, Estado e Região por exemplo.

 

Untitled

(Figura 21 – Realizando a criação de um Composite Domain.)

 

image

(Figura 22 – Realizando a criação de um Composite Domain, com isso temos que especificar quais Domains farão parte do grupo.)

 

image

(Figura 23 – Opções de criação de um domínio composto.)

 

image

(Figura 24 – CD Properties)

Você sempre pode realizar a alteração de quais domínios farão parte desse Composite Domain, com isso temos as seguintes informações:

•  Reference Data

Se o seu Composite Domain for mapeado para um (Reference Data).

• In Order

Se é o DQS que irá realizar o parse dos campos e valores.

• Delimiter

Quando os campos possuem delimitadores, você pode instruir com que o DQS realize o parse desses valores baseados em tipo TAB, COMMA, SEMICOLON ou SPACE.

 

image

(Figura 25 – Composite Domain formado por Cidade, Estado e Região.)

 

image

(Figura 26 – Reference Data.)

 

Como dito anteriormente você pode utililizar esse recurso para validar suas informações pelo Data Market.

 

image

(Figura 27 – CD Rules.)

Realiza a criação de regras para o Composite Domain. Com isso a validação pode ser feita como um CASE WHEN, sendo que podemos utilizar todos os Domains.

 

image

(Figura 28 – Criação de um regra para a validação do Composite Domain.)

 

image

(Figura 29 – Value Relations.)

Depois da conclusão da atividade de Knowledge Discovery, iremos possuir informações da quantidade de ocorrências para esse CD.

O DQS realiza o lock da base de conhecimento quando é realizado alterações ou inserções de novos domínios, isso para que seja previnido outros usuários conflitarem informações. Logo após a conclusão clique em

 

image

que assim ele irá realizar a publicação dessa nova base de conhecimento para que a mesma possa ser acessada por outros e que assim esteja pronta para a próxima atividade.

 

image

(Figura 30 – Realizando a publicação da base de conhecimento.)

 

image

(Figura 31 – Base de Conhecimento publicada com sucesso.)

 Agora o próximo passo para nossa atividade é realizar o Knowledge Discovery, que veremos no próximo post.