モロモロ工事中です

さくらインターネットスタンダードプランで UTF-8 の MeCab を使う際のメモ

Python,ウェブアプリ — タグ: , , — さくら @ 2009/10/25 19:31

最近ちーと忙しいもので、ブログの間隔空ちゃってます。サーセン><

あんまりあいだ空けるのもアレなので、今日はさくらインターネットのスタンダード鯖で、MeCab を UTF-8 で使う方法を簡単にご紹介。

まず MeCab は形態素解析のライブラリです。本家サイトはこちら。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

さくらインターネットのサーバには元から MeCab がインストールされてますので、単に使うだけならそのままでおkです。ただ EUC-JP 版の辞書がインスコされてますので、そのまま UTF-8 なウェブアプリで使用すると〜問題が発生します。今日ご紹介するのはそれを回避する方法です。

回避方法は簡単で、UTF-8 な辞書ファイルを別にインスコするだけです。以下、具体的なやり方。

  1. 辞書のアーカイブをサーバにアップロード
    MeCab のダウンロードページ から、IPA 辞書の最新版をダウンロードして、サーバにうpします。
  2. アーカイブを展開してインスコ
    以下のコマンドをおもむろに打ち込み、UTF-8 の辞書を $HOME/lib/mecab/dic/ipadic-utf8 にインスコします。インスコ先のパスは適当に変えてください。

    % tar xvzf mecab-ipadic-2.7.0-20070610.tar.gz
    % cd mecab-ipadic-2.7.0-20070610
    % ./configure --with-charset=utf8 --with-dicdir=$HOME/lib/mecab/dic/ipadic-utf8
    % make
    % make install
  3. MeCab を動かす
    コマンドラインから MeCab を動かす際は、-d オプションで辞書のディレクトリを指定します。

    % mecab -d ~/lib/mecab/dic/ipadic-utf8 utf8.txt
    あ      フィラー,*,*,*,*,*,あ,ア,ア
    ああ    感動詞,*,*,*,*,*,ああ,アア,アー
    EOS

    プログラムから使用する場合も基本的には同じです。以下は Python バインディングでの使用例。

    import os
    import MeCab
    dicdir = os.path.expanduser('~/lib/mecab/dic/ipadic-utf8')
    m = MeCab.Tagger ("-Ochasen -d%s" % dicdir)
    print m.parse ("今日もしないとね")


ということで本日はこの辺にて。
ではでは☆

3件のコメント

  1. [...] とりあえず,コマンドラインでUTF-8の辞書を指定する方針に。 [...]

    ピンバック by MeCab : 38 Ways — 2013 年 5 月 27 日 @ 11:52
  2. さくらインターネットスタンダードプランで UTF-8 の MeCab を使う際のメモ | さくらたんどっとびーず

    コメント by ティファニー マグカップ — 2013 年 7 月 21 日 @ 21:59
  3. lrhoZunWvGYqMmIRGB 3650

    コメント by vKTmwbNdRBBaTxx — 2014 年 10 月 5 日 @ 17:37

この投稿へのコメントの RSS フィード。 TrackBack URI

現在、コメントフォームは閉鎖中です。

Copyright © 2024 さくらたんどっとびーず | powered by WordPress with Barecity