Configurar HDBSCAN para uma solução de clustering

Habilitar IA de Washington DC

Release

washingtondc

ft:locale

pt-BR

ft:publication_title

Habilitar IA de Washington DC

ft:clusterId

platai

bundleId

platai

workflow

Platform

Configurar HDBSCAN para uma solução de clustering

Versão de lançamento: Washingtondc

Atualizado 1 de fev. de 2024

2 min. de leitura

Considere aplicar a codificação de clustering espacial baseado em densidade hierárquica de aplicações com ruído (HDBSCAN) à sua solução de cluster. K-means é o algoritmo de clustering padrão.

Antes de Iniciar

Nota:

Definir configurações avançadas em suas soluções de ML é opcional. Se você optar por definir qualquer uma dessas configurações, certifique-se de estar bem informado sobre a tecnologia que está habilitando na solução e de ter um caso de uso que se beneficie do que a tecnologia oferece.

Crie uma definição de solução de clustering ou use uma existente.
Função necessária: admin ou ml_admin

Por Que e Quando Desempenhar Esta Tarefa

Você pode aplicar o algoritmo HDBSCAN para ajudar o sistema a identificar amostras de dados que não estão atribuídas a nenhum cluster. Por exemplo, você pode aplicar o HDBSCAN para oferecer suporte à descoberta de tópico.

O Predictive Intelligence usa o algoritmo k-means por padrão em sua estrutura de cluster. O HBSSCAN é outro algoritmo de clustering semelhante ao algoritmo DBSCAN, exceto que ele funciona com clusters de tamanho mínimo e pode ajudar a fornecer clusters mais estáveis e persistentes. Para obter um resumo de como o HDBSCAN funciona, consulte este artigo. Para obter uma comparação entre DBSCAN e HDBSCAN, consulte este artigo e este artigo.

Nota:

As soluções de cluster treinadas com HDBSCAN não são compatíveis com atualizações de cluster. As atualizações nessas soluções falham e as soluções não são registradas em ml_cluster_detail_table. Use os métodos de treinamento DBSCAN ou k-means se quiser habilitar atualizações de cluster.

Procedimento

Navegar até Todos > Predictive Intelligence > Clustering > Definições de solução.
Clique em Nova.
Crie um novo formulário de definição de solução de clustering ou use um existente.
Neste cenário de exemplo, você cria o formulário de definição de cluster hdbscan-sf como na imagem abaixo. Configure os campos da seguinte forma:
- Rótulo: hdbscan-sf
- Corpus de palavras: incident_wcou qualquer outro corpus de palavras que tenha dados de registro de incidente
- Tabela: Incidente [incidente]
- Campos: descrição resumida
- Frequência de atualização: não atualizar
- Palavras irrelevantes: palavras irrelevantes padrão em inglês
- Frequência de treinamento: a cada 30 dias
- Idioma de processamento: inglês
Clique em Enviar e treinar.
Na guia Configurações avançadas da solução, na seção Links relacionados do formulário treinado, selecione Parâmetros da solução no seletor e clique em Novo.
Crie um registro de parâmetro.
1. No campo Parâmetros da solução, clique no ícone de pesquisa.
2. Na tela Parâmetros da solução ML, selecione Usar HDBSCAN para clustering.
Clique em Enviar.
O registro de configuração de solução avançada aparece com o algoritmo HDBSCAN aplicado ao registro.
Clique em Enviar.

Resultado: o HDBSCAN está configurado para sua solução de cluster. Seu parâmetro de solução aparece na guia Configurações avançadas de solução do formulário de definição de solução de clustering.