自然言語処理:MeCabとNEologdで新語に強い形態素解析環境を構築する

形態素解析でよく利用されるMecabにNEologdを組み合わせることで、新語や流行語に強い形態素解析環境を作ることができます。

環境

Debian系OS

MeCabの環境構築

[code lang=text]
sudo apt install mecab libmecab-dev mecab-ipadic-utf8
[/code]

動作確認

[code lang=text]
mecab
[/code]

param.cpp(69) [ifs] no such file or directory: /usr/local/lib/mecab/dic/ipadic/dicrcと辞書がないと言われたので、辞書をインストールします。言われなければスキップしてください。

[code lang=text]
wget -O mecab-ipadic-2.7.0-20070801.tar.gz 'https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM'
tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure –with-charset=utf8
sudo make install
[/code]

これでmecabコマンドが使えるようになります。

NEologdをインストールする

NEologdは週2回以上、語彙が追加されるので形態素解析には必須のアイテムです。
なお、辞書の元になるデータの配布と更新は GitHub 経由で行われます。

[code lang=text]
git clone –depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
[/code]

cloneするとmecab-ipadic-neologdというディレクトリが存在するはずです。

インストールと更新はmecab-ipadic-neologdディレクトリに移動し、コマンド1つで完了します。

[code lang=text]
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n
[/code]

これで最強の形態素解析環境の出来上がりです。
早速実行してみましょう。

[code lang=text]
mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/
[/code]

なお、NEologdの辞書のパスはecho `mecab-config --dicdir`"/mecab-ipadic-neologd"で確認できます。

参考
https://github.com/neologd/mecab-ipadic-neologd
http://taku910.github.io/mecab/