한글 형태소 분석 java/Okt/TwitterKoreanProcessorJava

dependencies {
	implementation 'com.twitter.penguin:korean-text:4.4'
}

// Normalize
CharSequence normalized = TwitterKoreanProcessorJava.normalize(dailyChatMessage.getMessage());


// Tokenize
Seq<KoreanTokenizer.KoreanToken> tokens = (Seq<KoreanTokenizer.KoreanToken>) TwitterKoreanProcessorJava.tokenize(normalized);

// Stemming
Seq<KoreanTokenizer.KoreanToken> stemmed = (Seq<KoreanTokenizer.KoreanToken>) TwitterKoreanProcessorJava.stem(tokens);

// 스트링 리스트 [오늘, 어제, 슬프다]
List<String> stemmedStringList = TwitterKoreanProcessorJava.tokensToJavaStringList(stemmed);

for (String string : stemmedStringList) {
	System.out.println(string);
}

// KoreanTokenJava 리스트 [학교(Noun: 15, 2), 가다(Verb: 18, 2), 가족(Noun: 0, 2)]
List<KoreanTokenJava> stemmedKokenList = TwitterKoreanProcessorJava.tokensToJavaKoreanTokenList(stemmed);
             
for (KoreanTokenJava koreanTokenJava : stemmedKokenList) {
	if (koreanTokenJava.getPos().equals(Noun) || koreanTokenJava.getPos().equals(Adjective)) {
		System.out.println(koreanTokenJava.getText());
	}
}


//어구 리스트
List<KoreanPhraseExtractor.KoreanPhrase> phrases = TwitterKoreanProcessorJava.extractPhrases(tokens, true, true);

for (KoreanPhraseExtractor.KoreanPhrase item : phrases) {
	System.out.println(item.text());
}

koreanTokenJava.getPos() : 품사를 가져온다

품사 종류

// Word leved POS
Noun, Verb, Adjective,
Adverb, Determiner, Exclamation,
Josa, Eomi, PreEomi, Conjunction,
NounPrefix, VerbPrefix, Suffix, Unknown,

// Chunk level POS
Korean, Foreign, Number, KoreanParticle, Alpha,
Punctuation, Hashtag, ScreenName,
Email, URL, CashTag,

// Functional POS
Space, Others,

ProperNoun;

java 예시가 잘없어서 적어본다

'개발 > AI' 카테고리의 다른 글

감정 분석 AI (kobert / onnxruntime 이슈) (0)	2022.02.20

EZY 😎

한글 형태소 분석 java/Okt/TwitterKoreanProcessorJava

'개발 > AI' 카테고리의 다른 글

티스토리툴바

한글 형태소 분석 java/Okt/TwitterKoreanProcessorJava

'개발 > AI' 카테고리의 다른 글

'개발/AI' Related Articles

티스토리툴바