Lemma 및 유니코드 정규화

  • 릴리스 버전: Australia
  • 업데이트 날짜 2026년 03월 12일
  • 소요 시간: 2분
  • AI 검색 인덱싱 및 검색 쿼리 시간에 굴절된 단어와 유니코드 상형 문자를 정규화합니다. 정규화는 검색 회수를 개선하고 사용자가 검색 쿼리 용어의 다양한 형태로 컨텐츠를 찾을 수 있도록 합니다.

    정규화 기능은 자동으로 활성화되며 구성할 수 없습니다.

    정리 정규화

    많은 언어에는 복수 명사나 동사 시제와 같은 굴절된 형태의 용어가 포함됩니다. AI 검색 인덱싱된 컨텐츠 및 검색 쿼리에서 발견된 굴절된 용어를 정규화합니다. 정규화를 사용하면 복수 명사의 단수 또는 활용 동사의 기본 형식과 같은 어근 형식에 따라 일치할 수 있습니다. 이 루트 형식을 표정이라고 하며, 이 과정을 표정화라고 합니다.

    예를 들어, 소스 기록에 활용 동사 selling이 포함되어 있는 경우 AI 검색 인덱싱된 용어를 확장하여 selling 외에 표정 형식 sell을 포함합니다. 사용자가 과거 시제 활용 형태 soldAI 검색를 검색하면 검색어가 sold뿐만 아니라 판매됨 형태를 포함하도록 검색어를 확장합니다. 인덱싱된 용어와 검색 쿼리 용어에 일치하는 양식이 포함되어 있기 때문에 사용자의 검색은 결과로 판매 기록을 반환합니다.

    AI 검색 는 에 대한 언어별 기본정리 정규화를 한국어, 네어, 네덜란드어, 영어, 이탈리아어, 일본어, 중국어(간체), 포르투갈어, 스웨덴어, 스페인어, 중국어(번체), 포르투갈어(브라질), 네덜란드어, 영어, 이탈리아어, 일본어, 중국어(간체), 중국어(번체), 포르투갈어, 프랑스어(캐나다), 폴란드어, 스웨덴어, 스페인어, 중국어(번체), 포르투갈어, 폴란드어, 프랑스어(캐나다), 핀란드어, 프랑스어(캐나다), 핀란드어, 프랑스어지원합니다.
    주:
    소스 기록 텍스트와 검색어 AI 검색핀란드어 구문 분석할 때 는 알고리즘 어간 추출을 사용하여 기본정리를 식별합니다.

    분해

    에 대한 독일어, 한국어, 노르웨이어(복몰) 및 스웨덴어정리를 정규화하는 것 외에도 , AI 검색 합성 단어와 개별 구성 요소 단어를 인덱싱합니다. 예를 들어, 복합어 HumanressourcenAI 검색이 포함된 독일어 기록을 인덱싱할 때 복합 용어 외에 구성요소 용어 Humanressourcen을 인덱싱합니다.

    유니코드 정규화

    AI 검색 인덱싱된 용어 및 검색 쿼리 용어에 대해 유니코드 정규화를 수행합니다. 이 정규화를 통해 가장 가까운 해당 문자를 사용하여 알파벳순 유니코드 문자를 검색할 수 있습니다.

    예를 들어, 용어 resuméAI 검색가 포함된 기록을 인덱싱할 때 악센트가 없는 양식 이력서도 포함하도록 용어를 확장합니다. 이 기록은 사용자가 이력서 또는 이력서를 검색할 때 검색 결과로 표시됩니다.

    유니코드 정규화에는 NFKD(호환성 분해) 및 NFKC(호환성 구성) 단계가 포함됩니다. 이러한 정규화 양식에 대한 자세한 내용은 유니코드 표준 부록 #15, https://www.unicode.org/reports/tr15/를 참조하십시오.

    다른 검색 기능과의 상호작용

    다음 표에서는 정규화와 다른 검색 기능 간의 상호 작용을 설명합니다.

    기능 표제 및 유니코드 정규화와의 상호작용
    Genius 결과 표정 또는 유니코드 정규화에 의해 추가된 검색 쿼리 용어는 용어 트리거 조건으로 Genius 결과 구성을 트리거할 수 없습니다.
    결과 개선 규칙 표정 또는 유니코드 정규화에 의해 추가된 검색 쿼리 용어가 규칙의 쿼리 트리거와 일치할 경우 결과 개선 규칙을 트리거할 수 있습니다.
    스톱 워드 검색 쿼리 용어가 스톱 워드로 정의된 경우 AI 검색 정규화하지 않고 해당 용어를 제거합니다.
    동의어 검색 쿼리 용어가 동의어로 정의된 경우 AI 검색 표준화하지 않습니다.
    오타 처리 AI 검색 자동 수정된 검색 쿼리 용어에 대해 표어 및 유니코드 정규화를 수행합니다.