[C#] 한국어 형태소 분석기

확실히 요즘은 무언가를 개발하거나 테스트해보기에 환경이 너무 좋은 것 같다.

새롭게 시도해보고 싶은 아이디어가 떠올라 구현을 해보고 있는데

필요한 기능중 하나가 바로 문장에서 단어를 구분하여 추출하는 기능이다.

이걸 어떻게 구현해야하나 고민하던 중에 좋은 라이브러리를 찾았다.

(아니 고민은 하지않았지 그냥 바로 검색을했지…)

https://github.com/modamoda/TwitterKoreanProcessorCS

트위터에서 제공하는 한국어 형태소 분석기인 twitter-korean-text를 C#에서 사용 가능하도록 wrapping 한 라이브러리다.

 

Visual Studio에서는 Nuget 패키지 관리자에서 직접 프로젝트에 참조해서 쓰면 간편하다.

간단한 예제를 보자면

var results = TwitterKoreanProcessorCS.TokenizeToStrings("형태소 분석을 합니닼ㅋㅋㅋㅋㅋㅋ");
Console.WriteLine(string.Join(" / ", results));
// 형태소Noun / 분석Noun / 을Josa / 하다Verb / ㅋㅋKoreanParticle

한국어 문장을 넣으면 정의별로 딱딱 분류를 해준다.

아직 테스트를 해보진 않았지만 예제만 봤을땐 억소리나오게 훌륭하다.

당장 필요한 기능에선 관련 없지만 저렇게 잘분류가 된다면

차후 챗봇 같은 서비스를 개발할 때 분명 유용할 것 같다.

 

개발자가 제공해주는 Sample.cs 내용을 보면 라이브러리를 사용하는데 무리가 없을 것 같다.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace Moda.Korean.TwitterKoreanProcessorCS.Sample
{
 using Moda.Korean.TwitterKoreanProcessorCS;

 public class Sample
 {
 public string NormalizeSample()
 {
 string result = TwitterKoreanProcessorCS.Normalize("정규화(Normalize) 예제입니당~");

 // "정규화(Normalize) 예제입니다~"
 return result;
 }

 public string TokenizeSample1()
 {
 StringBuilder result = new StringBuilder();

 var tokens = TwitterKoreanProcessorCS.Tokenize("토큰화를 처리하는 예제입니다");
 foreach (var token in tokens)
 {
 result.AppendFormat(format: "{0}({1}) [{2},{3}] / ",
 args: new object[] { token.Text, token.Pos.ToString(), token.Offset, token.Length });
 }

 // 토큰(ProperNoun) [0,2] / 화(Suffix) [2,1] / 를(Josa) [3,1] / ... / 입니(Adjective) [12,2] / 다(Eomi) [14,1] /
 return result.ToString();
 }

 public string TokensToStringsSample1()
 {
 var tokens = TwitterKoreanProcessorCS.Tokenize("토큰화를 처리하는 예제입니다. 문자열화는 덤");
 var results = TwitterKoreanProcessorCS.TokensToStrings(tokens);

 // 토큰 / 화 / 를 / 처리 / 하는 / 예제 / 입니 / 다 / . / 문자열 / 화 / 는 / 덤
 return string.Join(" / ", results);
 }

 public string StemSample1()
 {
 StringBuilder result = new StringBuilder();

 var tokens = TwitterKoreanProcessorCS.Tokenize("토큰화 이후 어근화를 처리하는 예제입니다");
 var stemmedTokens = TwitterKoreanProcessorCS.Stem(tokens);

 foreach (var stemmedToken in stemmedTokens)
 {
 result.AppendFormat(format: "{0}({1}) [{2},{3}] / ",
 args: new object[] { stemmedToken.Text, stemmedToken.Pos.ToString(), stemmedToken.Offset, stemmedToken.Length });
 }

 // 토큰(ProperNoun) [0,2] / 화(Suffix) [2,1] / (Space) [3,1] / 이후(Noun) [4,2] / ... / 예제(Noun) [17,2] / 이다(Adjective) [19,3] /
 return result.ToString();
 }

 public string ExtractPhraseSample1()
 {
 StringBuilder result = new StringBuilder();

 var tokens = TwitterKoreanProcessorCS.Tokenize("토큰화 처리 이후 어구를 추출하는 예제입니당ㅇㅇㅇ");
 var phrases = TwitterKoreanProcessorCS.ExtractPhrases(tokens);

 foreach (var phrase in phrases)
 {
 result.AppendLine("---------");
 result.AppendFormat("{0} | ", phrase.Pos.ToString());
 foreach (var token in phrase.Tokens)
 {
 result.AppendFormat(format: "{0}({1}) [{2},{3}] / ",
 args: new object[] { token.Text, token.Pos.ToString(), token.Offset, token.Length });
 }
 result.AppendLine();
 }

 // Noun | 토큰(ProperNoun) [0,2] /
 // Noun | 처리(Noun) [4,2] /
 // ...
 // Noun | 어구(Noun) [10,2] /
 return result.ToString();
 }
 }
}

 

Post Author: 김 키티

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다