Configurer HDBSCAN pour une solution de mise en grappe
Rversion finale: Xanadu
Mis à jour 1 août 2024
2 minutes de lecture
Envisagez d’appliquer l’encodage HDBSCAN (Hierarchical Density Based Spatial Clustering of Applications with Noise) à votre solution de clustering. K-means est l’algorithme de clustering par défaut.
Créez une définition de solution de mise en grappe ou utilisez une définition existante.
Rôle requis : admin ou ml_admin
Pourquoi et quand exécuter cette tâche
Vous pouvez appliquer l’algorithme HDBSCAN pour aider le système à identifier les échantillons de données qui ne sont affectés à aucune grappe. Par exemple, vous pouvez appliquer HDBSCAN pour prendre en charge la découverte de rubriques.
Predictive Intelligence utilise l’algorithme k-means par défaut dans son cadre de travail de clustering. HSBSCAN est un autre algorithme de clustering qui est similaire à l’algorithme DBSCAN, sauf qu’il fonctionne avec des clusters de taille minimale et peut aider à fournir des clusters plus stables et persistants. Pour un résumé du fonctionnement de HDBSCAN, consultez cet article. Pour une comparaison entre DBSCAN et HDBSCAN, consultez cet article et cet article.
Remarque :
Les solutions de clustering entraînées avec HDBSCAN ne prennent pas en charge les mises à jour de cluster. Les mises à jour de ces solutions échouent et les solutions ne sont pas consignées dans le ml_cluster_detail_table. Utilisez les méthodes d’entraînement DBSCAN ou k-means si vous souhaitez activer les mises à jour de clusters.
Procédure
Accédez à la Tout > Intelligence prédictive > Mise en grappe > Définitions des solutions.
Cliquez sur Nouveau.
Créez un formulaire de définition de solution de mise en grappe ou utilisez un formulaire existant.
Dans cet exemple de scénario, vous créez le formulaire de définition de mise en grappe hdbscan-sf comme dans l’image ci-dessous. Configurez les champs comme suit :
Étiquette : hdbscan-sf
Corpus de mots : incident_wc ou tout autre corpus de mots contenant des données d’enregistrement d’incident
Table : Incident [incident]
Champs : description courte
Fréquence de mise à jour : Ne pas mettre à jour
Mots vides : mots vides anglais par défaut
Fréquence de la formation : Tous les 30 jours
Langue de traitement : Anglais
Cliquez sur Soumettre et former.
Dans l’onglet Paramètres de solution avancés de la section Liens connexes du formulaire formé, sélectionnez Paramètres de solution dans le sélecteur, puis cliquez sur Nouveau.
Créez un enregistrement de paramètre.
Dans le champ Paramètres de la solution , cliquez sur l’icône de recherche.
Dans l’écran Paramètres de la solution ML, sélectionnez Utiliser HDBSCAN pour la mise en grappe.
Cliquez sur Envoyer.
L’enregistrement de paramètre de solution avancée s’affiche avec l’algorithme HDBSCAN appliqué à l’enregistrement.
Cliquez sur Envoyer.
Résultat : HDBSCAN est configuré pour votre solution de clustering. Son paramètre de solution s’affiche dans l’onglet Paramètres de solution avancés de votre formulaire de définition de solution de mise en grappe.