さくらインターネットスタンダードプランで UTF-8 の MeCab を使う際のメモ
最近ちーと忙しいもので、ブログの間隔空ちゃってます。サーセン><
あんまりあいだ空けるのもアレなので、今日はさくらインターネットのスタンダード鯖で、MeCab を UTF-8 で使う方法を簡単にご紹介。
まず MeCab は形態素解析のライブラリです。本家サイトはこちら。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
さくらインターネットのサーバには元から MeCab がインストールされてますので、単に使うだけならそのままでおkです。ただ EUC-JP 版の辞書がインスコされてますので、そのまま UTF-8 なウェブアプリで使用すると〜問題が発生します。今日ご紹介するのはそれを回避する方法です。
回避方法は簡単で、UTF-8 な辞書ファイルを別にインスコするだけです。以下、具体的なやり方。
- 辞書のアーカイブをサーバにアップロード
MeCab のダウンロードページ から、IPA 辞書の最新版をダウンロードして、サーバにうpします。 - アーカイブを展開してインスコ
以下のコマンドをおもむろに打ち込み、UTF-8 の辞書を $HOME/lib/mecab/dic/ipadic-utf8 にインスコします。インスコ先のパスは適当に変えてください。% tar xvzf mecab-ipadic-2.7.0-20070610.tar.gz % cd mecab-ipadic-2.7.0-20070610 % ./configure --with-charset=utf8 --with-dicdir=$HOME/lib/mecab/dic/ipadic-utf8 % make % make install
- MeCab を動かす
コマンドラインから MeCab を動かす際は、-d オプションで辞書のディレクトリを指定します。% mecab -d ~/lib/mecab/dic/ipadic-utf8 utf8.txt あ フィラー,*,*,*,*,*,あ,ア,ア ああ 感動詞,*,*,*,*,*,ああ,アア,アー EOS
プログラムから使用する場合も基本的には同じです。以下は Python バインディングでの使用例。
import os import MeCab dicdir = os.path.expanduser('~/lib/mecab/dic/ipadic-utf8') m = MeCab.Tagger ("-Ochasen -d%s" % dicdir) print m.parse ("今日もしないとね")
ということで本日はこの辺にて。
ではでは☆
[...] とりあえず,コマンドラインでUTF-8の辞書を指定する方針に。 [...]
さくらインターネットスタンダードプランで UTF-8 の MeCab を使う際のメモ | さくらたんどっとびーず
lrhoZunWvGYqMmIRGB 3650