Now Assist 보호자
Llama 3.1로 빌드된 를 활성화 Now Assist 가디언하여 생성형 AI로 만든 콘텐츠를 모니터링하고 평가하여 사용자 경험을 보호하고 개선합니다.
Now Assist 보호자 개요
생성형 AI는 새로운 기술입니다. 인간 상호 작용은 예측할 수 없으며 대규모 언어 모델(LLM)에서 생성된 출력은 확률적이므로 확률을 기반으로 합니다. 동일한 입력을 두 번 실행하면 두 개의 다른 출력이 생성될 수 있습니다. 위험 관리는 인스턴스에 생성형 AI를 구현하는 방법을 결정하는 데 중요한 요소입니다.
Now Assist 보호자는 LLM으로 전송된 요청과 응답을 모니터링하여 관리자, 사용자 및 데이터를 보호할 수 있도록 지원합니다. 모니터링되는 컨텐츠에는 불쾌하거나 유해한 컨텐츠, 프롬프트 삽입 시도, 필터링된 제목의 세 가지 유형이 있습니다. 불쾌한 콘텐츠 및 프롬프트 삽입 시도의 경우 활성화되면 로그가 생성되지만 콘텐츠를 차단하도록 선택할 수도 있습니다. 필터가 활성화되면 필터가 적용되는 검색된 콘텐츠는 사용자를 의 민감도 탐지: 대체 주제 가상 에이전트로 리디렉션합니다.
가드레일
- 불쾌감을 주는 콘텐츠
- 생성형 AI의 확률적 특성으로 인해 LLM이 불쾌한 콘텐츠를 생성할 수 있습니다. 요청 입력에 불쾌감을 주는 콘텐츠가 있으면 응답에 불쾌감을 주는 콘텐츠도 발생할 수 있습니다. 불쾌감을 주는 콘텐츠의 예로는 유해하거나 명예를 훼손하거나 사기성 언어를 포함합니다.
- 프롬프트 삽입
- 프롬프트 삽입은 악의적인 행위자가 LLM의 일반 지침을 무시하여 제한된 정보에 액세스하거나 예기치 않은 동작을 유도하는 보안 공격 유형입니다. 프롬프트 삽입 탐지는 역할극, 의역, 반복, 다른 지침을 무시하라는 지침, 설득 등과 같은 다양한 유형의 프롬프트 삽입 기술에 대해 훈련된 LLM을 기반으로 합니다. 그러나 모델의 확률적 특성과 진화하는 프롬프트 삽입 기술로 인해 경우에 따라 Now Assist 보호자가 프롬프트 삽입 시도를 식별하지 못할 수 있습니다.
- 필터링된 제목
- 작업장 안전 또는 직원 보상과 같은 특정 주제는 생성형 AI 대화에 가장 적합하지 않을 수 있습니다. 이러한 종류의 주제가 대화에 포함되어 있는지 탐지하는 필터를 활성화하여 사용자를 민감도 탐지: 대체 가상 에이전트 주제로 리디렉션할 수 있습니다.
로깅 및 차단
Now Assist 보호자는 요청을 모니터링하고 이러한 종류의 자료가 탐지되면 기록할 수 있습니다. 설정 탭의 Now Assist 보호자 페이지에 있는 Now Assist 관리자 콘솔에서 로그에 액세스할 수 있습니다. 로그에 포함된 데이터에는 사용자 피드백을 포함하여 불쾌한 콘텐츠가 포함된 요청 및 대화에 대한 정보가 포함됩니다.
로깅 외에도 불쾌한 콘텐츠 또는 프롬프트 삽입 시도를 차단하도록 선택할 수도 있습니다. 재료가 감지되고 차단이 켜져 있으면 생성된 응답 대신 표준 오류 메시지가 표시됩니다. 메시지는 요청을 완료할 수 없음을 나타내는 표준 오류 메시지이며 AI가 생성한 내용을 볼 수 없습니다.
콘텐츠 차단을 결정하기 전에 일정 시간 동안 로그를 모니터링하여 이러한 문제가 사용자와 사용 사례에 얼마나 널리 퍼져 있는지 확인할 수 있습니다.
민감하게 필터링된 주제에 대한 리디렉션
필터가 적용되는 주제가 식별되면 사용자는 필터 유형에 따라 다른 가상 에이전트 주제로 리디렉션됩니다. 직원 개인 문제와 같은 주제에 대한 필터는 민감도 탐지: 대체 주제로 리디렉션됩니다. 이 주제는 사용자를 라이브 에이전트로 리디렉션하거나 HR 케이스를 생성하는 데 도움이 될 수 있습니다.
런타임 시 Now Assist 보호자
Now Assist 보호자를 사용하는 모든 기술은 요청이 LLM에 도달하기 전에 개인 식별 정보(PII)를 제거합니다. 어떤 종류의 데이터를 포착할지 선택할 수 있습니다. 자세한 내용은 데이터 개인정보 보호를 위한 Now Assist 구성을 참조하십시오.
대화 기술의 경우 시맨틱 검색은 요청이 처리되어 필터가 탐지되었는지 여부를 확인합니다. 이 경우 사용자는 HR 케이스를 가상 에이전트 만들 것인지 아니면 라이브 에이전트와 이야기할 것인지를 묻는 주제로 리디렉션됩니다.
요약 및 해결 메모 생성과 같은 카탈로그 항목 생성 및 에이전트 기술의 경우 불쾌한 콘텐츠 및 프롬프트 삽입 가드레일이 요청의 입력 및 출력에 대해 실행됩니다. 둘 중 하나가 탐지되면 Now Assist 보호자가 요청을 기록합니다. 이 콘텐츠를 차단하도록 선택하면 표준 오류 메시지가 나타나고 사용자에게 요청 결과가 표시되지 않습니다.
안전 범주
|
범주 |
범주 ID |
설명 |
|---|---|---|
|
유해한 콘텐츠 |
O1 |
혐오 발언을 조장하거나, 아동 학대 또는 따돌림과 같은 폭력을 선동하거나, 인신 공격 또는 괴롭힘에 가담해서는 안 됩니다. 할 수 있는 일: 교육 목적으로 유해한 콘텐츠와 관련된 영향 및 사회적 문제에 대해 논의합니다. |
|
불공정한 표현 |
O2 |
해서는 안 되는 것: 고정관념을 영속화하는 데 도움을 주거나 차별 또는 편견을 조장해서는 안 됩니다. 할 수 있는 일: 대표성 문제를 논의하고 인식과 포용성을 증진합니다. |
|
성인용 콘텐츠 |
O3 |
금지 사항: 성적으로 노골적인 자료 또는 포르노, 에로틱한 채팅 및 성행위를 포함하여 미성년자에게 부적절한 콘텐츠를 표시합니다. 할 수 있는 일: 성 및 동의와 관련된 주제에 대한 교육적 토론을 제공합니다. |
|
공공 정보에 대한 신뢰 훼손 |
O4 |
해서는 안 되는 것: 오해의 소지가 있는 의학적 조언, 불법 약물 및 조언과 같이 대중의 신뢰를 훼손하는 잘못된 정보 또는 허위 정보를 퍼뜨리는 행위. 할 수 있는 일: 잘못된 정보 추세를 비판적으로 분석하고 미디어 리터러시에 대해 교육합니다. |
|
오해/거짓 신념 전파 |
O5 |
금지 사항: 확인되지 않은 오해의 소지가 있는 정보, 음모론, 과학 부정론, 역사 수정주의 또는 급진화로 이어질 수 있는 콘텐츠를 유포하는 행위. 다음을 수행할 수 있습니다.일반적인 오해와 잘못된 신념에 대한 비판적 분석과 폭로를 제공합니다. |
|
위험한 금융 관행 |
O6 |
금지 사항: 다단계 마케팅, 기만적인 대출 관행 또는 도박과 같은 비윤리적인 거래 관행을 조장해서는 안 됩니다. 할 수 있는 일: 관련 위험, 윤리적 대출, 책임감 있는 도박, 무역 규정 준수 및 공정한 비즈니스 관행에 대해 교육합니다. |
|
거래 및 규정 준수 |
O7 |
금지 사항: 노동 문제를 포함하거나, 비윤리적인 무역 문제에 관여하거나, 불공정한 노동 관행에 기여하거나, 사기성 무역 관행을 조장해서는 안 됩니다. 다음을 수행할 수 있습니다.노동 문제, 윤리적 무역 관행, 무역 규정 준수 및 공정한 비즈니스 행위에 대한 정보와 통찰력을 제공합니다. |
|
위험한 정보 유포 |
O8 |
해서는 안 되는 것: 가짜 뉴스를 퍼뜨리거나, 소셜 미디어 소문을 퍼뜨리거나, 정부 기밀을 공개하거나, 금융 데이터 및 기타 대중의 공황 또는 국가 안보에 기여하는 콘텐츠를 유출하는 행위. 할 수 있는 일: 그러한 정보의 위험성에 대해 교육하고 안전을 증진합니다. |
|
개인정보 침해 |
O9 |
해서는 안 되는 것: 신상 털기, 무단 데이터 공유 또는 개인 정보 추론 또는 유출과 같은 감시를 포함해서는 안 됩니다. 할 수 있는 일: 개인 정보 보호 권리와 디지털 보안의 중요성에 대해 논의합니다. |
|
보안 위협 |
O10 |
금지 사항: 맬웨어를 확산하거나 테러 또는 무기 생성, 사이버 공격 또는 화학적 피해와 같은 기타 보안 위협을 조장해서는 안 됩니다. 다음을 수행할 수 있습니다. 보안 위협을 식별하고 완화하기 위한 정보와 방법을 제공합니다. |
|
명예 훼손 |
O11 |
해서는 안 되는 것: 개인, 그룹 또는 조직에 해를 끼치는 허위 진술을 게시하는 행위. 할 수 있습니다: 명예 훼손과 표현의 자유의 법적, 윤리적 측면을 탐구합니다. |
|
사기 또는 기만 행위 |
O12 |
금지 사항: 학문적 부정 행위에 가담하거나, 사기를 저지르거나, 유사 의약품을 홍보하거나, 가짜 온라인 콘텐츠를 유포하는 행위. 콘텐츠는 개인을 속이거나 기만해서는 안 됩니다. 할 수 있는 일: 사기 행위를 인식하고 예방하는 방법에 대해 교육합니다. |
|
영향 운영 |
O13 |
해서는 안 되는 것: 감시나 캠페인과 같은 정치적 또는 이념적 목적을 위해 여론을 조작하거나 사회적 조화를 방해하는 행위. 다음을 수행할 수 있습니다.영향력 운영의 특성과 영향에 대해 분석하고 교육합니다. |
|
불법 활동 |
O14 |
금지 사항: 범죄 또는 테러와 같은 불법 행위에 가담하는 행위를 홍보하거나 지침을 제공합니다. 할 수 있는 일: 불법 행위의 결과와 예방에 대해 교육합니다. |
|
설득 및 조작 |
O15 |
해서는 안 되는 것: 자해, 심리적 조작 또는 개인의 웰빙에 대한 모든 형태의 해를 조장하는 설득 또는 조작 기술을 포함합니다. 할 수 있는 일: 조작을 인식하고 저항하는 방법을 교육하고, 영향을 받는 사람들을 위한 지원과 자원을 제공합니다. |
|
개인 재산 침해 |
O16 |
해서는 안 되는 것: 악의적인 모방, 표절, 저작권 침해 및 신원 위조에 관여하는 개인의 개인 재산을 침해하는 행위. 할 수 있는 일: 개인 재산을 존중하고 그러한 위반을 예방하는 것에 대한 인식과 토론을 촉진합니다. |
Now Assist 보호자를 지원하는 기술
| 워크플로우 | 제품별 지원 기술 |
|---|---|
| 기술 | |
| 고객 | |
| 직원 | |
| 작성자 | |
| 재무 및 공급망 |
Now Assist 가디언 분석
를 통해 Now Assist 가디언활성화된 가드레일의 성능을 모니터링합니다.
분석 대시보드는 Now Assist 가디언 관리자가 대규모 언어 모델(LLM)로 전송된 요청과 응답을 추적하고 분석할 때 불쾌한 콘텐츠 및 프롬프트 삽입 가드레일의 효과를 모니터링하고 평가하는 데 도움이 됩니다.
- 공격적인 활성 콘텐츠 및 프롬프트 삽입 가드레일로 인한 평균 대기 시간입니다. 대기 시간이 길면 해당 기간의 가드레일 활동이 증가할 수 있습니다.
- 불쾌한 콘텐츠 및 프롬프트 삽입 발생의 수와 백분율입니다.
- 불쾌한 콘텐츠 및 프롬프트 삽입 발생이 탐지된 기술입니다.
대시보드에 필터를 적용하여 날짜 범위의 기술에 대한 가드레일 활동을 봅니다. 각 지표 이면의 데이터 및 계산에 대한 자세한 내용은 을 참조하십시오 Now Assist 분석 대시보드 표시기 상세 정보 .
불쾌감을 주는 콘텐츠 표시기
- 가드레일에 추가된 대기 시간
- 대시보드의 이 영역에는 선택한 기술 및 날짜 범위에 대한 활성 불쾌한 콘텐츠 가드레일의 결과로 인한 평균 대기 시간이 표시됩니다.
그림 2. 가드레일에 추가된 대기 시간 표시기 - 불쾌감을 주는 것으로 플래그가 지정된 비율
- 대시보드의 이 영역에는 불쾌한 콘텐츠로 플래그가 지정된 LLM 서비스와의 요청 및 응답의 백분율이 표시됩니다.
그림 3. 불쾌감을 주는 표시기로 플래그가 지정된 백분율 - 총 불쾌한 콘텐츠 발생 횟수
- 대시보드의 이 영역에는 선택한 기술 및 날짜 범위에 대한 불쾌한 콘텐츠 발생의 총 수가 표시됩니다.
그림 4. 총 불쾌한 콘텐츠 발생 표시기 - 불쾌감을 주는 콘텐츠의 범주
- 대시보드의 이 영역에는 범주별 불쾌한 콘텐츠 발생 항목의 세부 항목이 표시됩니다. 콘텐츠가 두 개 이상의 범주(예: 유해 및 명예 훼손)에서 불쾌감을 주는 것으로 간주되는 경우 발생은 두 범주 모두에 개별적으로 계산됩니다. 불쾌감을 주는 콘텐츠 범주에 대한 자세한 내용은 다음 문서를 참조하십시오 Now Assist 보호자.
그림 5. 불쾌감을 주는 콘텐츠 표시기의 범주 - 기술별 불쾌한 콘텐츠 발생
- 대시보드의 이 영역에는 콘텐츠가 탐지된 기술별로 시간 경과에 따른 불쾌한 콘텐츠 발생 수가 표시됩니다.
그림 6. 기술 표시기별 불쾌한 콘텐츠 발생
프롬프트 삽입 표시기
- 가드레일에 추가된 대기 시간
- 대시보드의 이 영역에는 선택한 기술 및 날짜 범위에 대한 활성 프롬프트 삽입 가드레일의 평균 대기 시간이 표시됩니다.
그림 7. 가드레일에 추가된 대기 시간 표시기 - 프롬프트 삽입으로 플래그가 지정된 백분율
- 대시보드의 이 영역에는 불쾌한 콘텐츠로 플래그가 지정된 LLM 서비스와의 요청 및 응답의 백분율이 표시됩니다.
그림 8. 프롬프트 삽입 표시기로 플래그가 지정된 백분율 - 총 프롬프트 삽입 발생
- 대시보드의 이 영역에는 선택한 기술 및 날짜 범위에 대한 불쾌한 콘텐츠 발생의 총 수가 표시됩니다.
그림 9. 총 프롬프트 삽입 발생 표시기 - 기술별 프롬프트 삽입 발생
- 대시보드의 이 영역에는 프롬프트 삽입 시도가 탐지된 기술에 따라 시간 경과에 따른 프롬프트 삽입 발생 횟수가 표시됩니다.
그림 10. 기술 표시기별 프롬프트 삽입 발생