Text normalization

    Text normalization in Go

    Text normalization in Go

    아래와 같이 특수 문자가 섞여 있는 문자열이 있습니다. "São Paulo, Brazil. Wien, Österreich." 이런 문자열을 아래와 같이 알파벳으로 변경하고 싶다면 어떻게 해야 할까요? "Sao Paulo, Brazil. Wien, Osterreich." 고민 없이 쉽게 할 수 있는 방법은 대상 문자를 찾아서 원하는 문자로 치환하는 방법입니다. 치환해야 할 문자 종류가 많지 않다면, 간단하게 적용할 수 있는 방법입니다. 그런데 치환 대상 문자의 개수가 1750개 이상이라면 어떻게 해야 할까요? 이럴 때 필요한 것이 Unicode Normalization(유니코드 정규화)입니다. 특수문자? combining characters? 위에서 특수문자라고 표현했던 문자는 유니코드에서 사용되는 Com..