Criação e treinamento de uma solução de clustering
Versão de lançamento: Washingtondc
Atualizado 1 de fev. de 2024
7 min. de leitura
Agrupe registros semelhantes em clusters para que você possa abordá-los coletivamente ou identificar padrões.
Antes de Iniciar
Função necessária: ml_admin ou admin
Importante:
Com a versão Washington DC, os modelos de cluster e de semelhança usam soluções de fluxo de trabalho. Eles são pré-treinados, portanto, um corpus de palavras não é necessário para suas novas soluções. Quando suas soluções existentes com um corpus de palavras são treinadas novamente após a atualização, elas se tornam soluções de fluxo de trabalho e o campo Corpus de palavras é removido do formulário.
Por Que e Quando Desempenhar Esta Tarefa
Inteligência preditiva O oferece suporte a soluções de treinamento nas quais os dados de origem são protegidos por esses tipos de criptografia.
FDE (criptografia completa de disco).
Column Level Encryption. Ao usar o Column Level Encryption, certifique-se de que o usuário sharedservice.worker tenha a mesma função de módulo de criptografia que foi usada para criptografia.
Inteligência preditiva não é compatível com soluções de treinamento nas quais os dados de origem são criptografados pelo Edge Encryption.
Neste procedimento de exemplo, você está agrupando incidentes semelhantes que ocorreram recentemente para identificar um incidente grave.
Procedimento
Navegar até Todos > Predictive Intelligence > Clustering > Definições de solução.
Na lista Definições de cluster, clique em Novo.
No formulário Definição de cluster, configure esses campos de acordo com a orientação a seguir.
Campo
valor
Rótulo
Insira um nome exclusivo para sua solução de cluster. Por exemplo, neste caso de uso, você pode inserir Incidentes de grupo em um incidente grave.
Nome
Conforme você insere o valor do rótulo da solução, este campo é preenchido automaticamente com um nome atribuído pelo sistema que é semelhante ao valor do rótulo.
Corpus de palavras
Se você tiver uma solução de cluster legada, poderá selecionar um corpus de palavras relevante no campo Corpus de palavras no formulário de definição.
Nota:
Com a versão Washington DC, um corpus de palavras não é necessário, porque um modelo pré-treinado é usado. O campo Corpus de palavras não está visível no formulário de definição de modelos pré-treinados.
Selecione a tabela que contém os tipos de registro que você deseja agrupar em um ou mais clusters. Por exemplo, neste caso de uso, você seleciona a tabela Incidente [incident], pois ela contém registros de incidentes que você deseja agrupar para uma análise de incidente grave.
Quando você atribui um valor de tabela, um link aparece no formulário que mostra o número de registros que correspondem às condições atuais.
Campos
Selecione um ou mais tipos de campos de entrada que ajudem o sistema a identificar os registros que você deseja incluir no cluster. Nesse caso de uso, use Descrição resumida.
Nota:
Ao selecionar um campo de tipo de referência, você deve fazer referência com pontos até o nome da propriedade do campo. Por exemplo, em vez de short_description, insira short_description.name.
Usar Grupo por
Marque esta caixa de seleção somente se quiser agrupar registros de entrada por um campo antes de criar clusters.
Nota:
Marcar esta caixa de seleção ativa a lista Agrupar por. Se você não marcar a caixa de seleção, todos os registros da tabela serão agrupados em clusters.
Agrupar por
Selecionar um valor nesta lista é opcional. Se você fizer isso, o sistema agrupará os registros em um ou mais clusters com base na sua seleção.
Campos da Pureza
Escolha os campos da tabela que podem ajudar o sistema a identificar a classe mais frequente no cluster. Neste cenário de exemplo, selecione Categoria e Grupo de atribuição. Nome.
Filtro
Adicione condições de filtro a serem aplicadas aos registros de campo de entrada que você deseja incluir em seus clusters.
Nota:
O número de registros para clustering é limitado a 300.000.
Idioma de processamento
Selecione o idioma dominante do conjunto de dados que você está treinando na definição da solução. Se o idioma do conjunto de dados for italiano, escolha italiano. Além disso, o processamento em inglês é aplicado a todos os conjuntos de dados por padrão. Por exemplo, se você selecionar italiano, o sistema processará os dados em inglês e italiano.
Nota:
O termo processamento indica algumas das etapas específicas do idioma usadas como parte do treinamento de uma solução. Por exemplo, tokenizar palavras, remover palavras irrelevantes e truncar.
Palavras irrelevantes
Quando você seleciona o idioma de processamento, o sistema adiciona automaticamente uma lista de palavras irrelevantes que usa o mesmo idioma. Por exemplo, se o idioma de processamento for o italiano, a lista Palavras irrelevantes padrão em italiano será exibida. A lista Palavras irrelevantes padrão em inglês também aparecerá na sua seleção. Se você criar uma lista de palavras irrelevantes personalizada, poderá selecioná-la no campo Palavras irrelevantes para adicioná-la à sua solução.
Frequência de Atualização
Selecione com que frequência você deseja que o sistema atualize seus clusters com registros novos e atualizados.
Nota:
O sistema extrai registros com base nas condições de filtro Agrupar por que você definiu em sua solução de cluster, se houver.
Por exemplo, se você selecionar A cada 15 minutos, o sistema identificará quais registros chegaram nesse intervalo de tempo. O sistema tenta atribuí-los aos clusters existentes ou cria um novo cluster, se possível.
Neste exemplo, chegam 20 novos registros. Se 16 desses registros o tornarem um cluster existente e 4 não, o sistema formará um novo cluster para os quatro registros não atribuídos.
Você também pode optar por não atualizar seus clusters.
Frequência de Treinamento
Selecione com que frequência você deseja que o sistema descarte todos os resultados de cluster anteriores e recrie os clusters desde o início. As opções variam de diariamente, a cada três dias, a cada sete dias ou mensalmente. Você também pode optar por treinar seu cluster uma vez.
Nota:
O programador de ML limita o número de treinamentos que uma instância pode confirmar a 50 novas solicitações de treinamento de ML por instância em uma janela de 24 horas. O limite exclui solicitações de retreinamento programadas. Além disso, as atualizações de cluster e de semelhança também são excluídas deste limite, mesmo que as novas solicitações de treinamento excedam 50 em uma janela de 24 horas.
Número mínimo de registros por cluster
Insira o número mínimo de registros que você deseja que um cluster contenha. O valor inserido deve ser maior ou igual a 2.
Clique na opção de menu de contexto ou no botão apropriado para a definição da sua solução.
Opção
Descrição
Salvar ou Salvar e Treinar
Salve seu registro de definição de solução para poder retornar a ele mais tarde ou salve-o e envie-o para treinamento.
Enviar ou Enviar e Treinar
Crie seu registro de definição de solução e envie-o ou envie-o e treine-o.
Se você enviou a solução para treinamento, clique em OK na janela de ativação de treinamento para confirmar.
Resultado
O sistema treina a solução e notifica você em tempo real quando o treinamento é concluído.
Um gráfico de mapa de árvore aparece na guia Visualização de cluster do formulário Definição de solução de clustering. O gráfico mostra os clusters que o sistema formado para sua solução em ordem decrescente do canto superior esquerdo ao canto inferior direito. Os rótulos de nó do mapa de árvore são o Conceito de cluster, que é criado pelas principais palavras do cluster e ajuda a ver o conteúdo mais importante encontrado em cada cluster.
Nota:
O conceito de cluster usa as principais palavras dos dados de entrada processados e usa o mesmo idioma. Dependendo do seu idioma, o Conceito de cluster pode incluir palavras em sua forma raiz e aparecer cortado.
Cada nó é colorido de vermelho a verde, dependendo da qualidade do cluster desse nó. O filtro Selecionar grupo aparece somente quando você seleciona os campos Usar Agrupar por e Agrupar por no formulário de Definição de cluster. Ao apontar para um cluster, você pode ver seu valor Groupby, Contagem de clusters e Registros em Groupby. Figura 1. Exemplo de visualização de cluster
Para abrir um cluster, você pode clicar nele ou selecioná-lo no filtro Mostrar todos os grupos.
Dentro do agrupamento de clusters, você pode filtrar os resultados ainda mais usando as duas barras deslizantes para tamanho e qualidade do cluster, respectivamente. Você também pode navegar para trás clicando no botão Voltar, que só aparece quando uma hierarquia de cluster está presente. Quando você aponta para um cluster nesse nível, os valores de percentil do campo Pureza aparecem junto com os valores de Conceito, Qualidade e Tamanho do cluster.Figura 2. Exemplo de grupo de clusters
Quando você clica em um nó do cluster, os detalhes do cluster de ML aparecem em um formato de exibição de lista.Figura 3. Página de detalhes do cluster
O que Fazer Depois
Revise a saída da solução na guia Estatísticas da solução da sua solução. Se você não estiver satisfeito com os resultados da solução de clustering, reconfigure os valores que você definiu para sua solução e treine-a novamente até que os resultados sejam satisfatórios.
Revise a guia Resumo do cluster para obter uma exibição de lista dos IDs de cluster, tamanho de qualidade e valores de Groupby. Figura 4. Exemplo de resumo do cluster
Na guia Atualizações de cluster, revise o resumo das mudanças nos clusters para cada intervalo de atualização de cluster configurado na definição da solução.Figura 5. Exemplo de atualizações de cluster