Subject : 形態素解析(morphological analysis)
カテゴリー : 産業・技術 >
形態素解析(morphological analysis)
-
文章を意味のある単語に区切り、辞書を利用して品詞や内容を判別すること。かな漢字変換や、機械翻訳などに用いられる。コンピュータによる自然言語処理技術の一つ。
形態素とは、文章の要素のうち、意味を持つ最小の単位である。英語の文“I love you.”では、“I”、“love”、“you”がそれぞれ形態素に当たる。この時、“l”や“o”などのアルファベットは、それのみでは意味を持たないため、形態素とは呼ばない。英語では原則として文章を単語ごとに区切って書く(分かち書き)ため、形態素ごとに分割することは容易である。
一方、日本語では単語ごとに区切らず続けて書くために、形態素ごとの分割が難しい。例えば、かな漢字変換の場合には、ひらがなのみで与えられた文章を区切る必要があるが、これは辞書を引きながら、色々な区切り方を試していくことになる。
この時、辞書にある名詞を形態素として区切ったり、前後の品詞を見て文法的におかしい区切り方は省くなどの処理をするが、複数の解釈が可能な文章もあり、区切り方を一意に決定することはなかなか難しい。特に長文になるほど区切り方の解釈が複雑になるため、ユーザの意図しない漢字変換をしてしまうことが増える。
日本語用の形態素解析システムは各社のワープロソフトや かな漢字変換ソフト(IME)などに内蔵されているほか、単体のソフトとしてはフリーソフトウェアのChaSen(茶筌)やMeCab(和布蕪)などが有名。
- ○
-
⇒
[メニューへ戻る]
[HOMEへ戻る]
[前のページに戻る]