さくらインターネットスタンダードプランで UTF-8 の MeCab を使う際のメモ

Python,ウェブアプリ — タグ: MeCab, Python, さくらインターネット — さくら @ 2009/10/25 19:31

最近ちーと忙しいもので、ブログの間隔空ちゃってます。サーセン＞＜

あんまりあいだ空けるのもアレなので、今日はさくらインターネットのスタンダード鯖で、MeCab を UTF-8 で使う方法を簡単にご紹介。

まず MeCab は形態素解析のライブラリです。本家サイトはこちら。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

さくらインターネットのサーバには元から MeCab がインストールされてますので、単に使うだけならそのままでおkです。ただ EUC-JP 版の辞書がインスコされてますので、そのまま UTF-8 なウェブアプリで使用すると〜問題が発生します。今日ご紹介するのはそれを回避する方法です。

回避方法は簡単で、UTF-8 な辞書ファイルを別にインスコするだけです。以下、具体的なやり方。

辞書のアーカイブをサーバにアップロード
MeCab のダウンロードページから、IPA 辞書の最新版をダウンロードして、サーバにうpします。
アーカイブを展開してインスコ
以下のコマンドをおもむろに打ち込み、UTF-8 の辞書を $HOME/lib/mecab/dic/ipadic-utf8 にインスコします。インスコ先のパスは適当に変えてください。
```
% tar xvzf mecab-ipadic-2.7.0-20070610.tar.gz
% cd mecab-ipadic-2.7.0-20070610
% ./configure --with-charset=utf8 --with-dicdir=$HOME/lib/mecab/dic/ipadic-utf8
% make
% make install
```

MeCab を動かす
コマンドラインから MeCab を動かす際は、-d オプションで辞書のディレクトリを指定します。

% mecab -d ~/lib/mecab/dic/ipadic-utf8 utf8.txt
あ      フィラー,*,*,*,*,*,あ,ア,ア
ああ    感動詞,*,*,*,*,*,ああ,アア,アー
EOS

プログラムから使用する場合も基本的には同じです。以下は Python バインディングでの使用例。

import os
import MeCab
dicdir = os.path.expanduser('~/lib/mecab/dic/ipadic-utf8')
m = MeCab.Tagger ("-Ochasen -d%s" % dicdir)
print m.parse ("今日もしないとね")

ということで本日はこの辺にて。
ではでは☆

3件のコメント

[...] とりあえず，コマンドラインでUTF-8の辞書を指定する方針に。 [...]

ピンバック by MeCab : 38 Ways — 2013 年 5 月 27 日 @ 11:52
さくらインターネットスタンダードプランで UTF-8 の MeCab を使う際のメモ | さくらたんどっとびーず

コメント by ティファニーマグカップ — 2013 年 7 月 21 日 @ 21:59
lrhoZunWvGYqMmIRGB 3650

コメント by vKTmwbNdRBBaTxx — 2014 年 10 月 5 日 @ 17:37

この投稿へのコメントの RSS フィード。 TrackBack URI

現在、コメントフォームは閉鎖中です。

月	火	水	木	金	土	日
« 9月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31