日文分词器 Mecab 文档

 % tar zxfv mecab-X.X.tar.gz
 % cd mecab-X.X
 % ./configure 
 % make
 % make check
 % su
 # make install
% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
% mecab-ipadic-2.7.0-XXXX
% ./configure
% make
% su
# make install
% mecab
すもももももももものうち
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
表层形\t词性,词性细分类1,词性细分类2,词性细分类3,活用形,活用型,原形,读音,发音
% mecab INPUT -o OUTPUT
% mecab -O wakati
太郎はこの本を二郎を見た女性に渡した。
太郎 は この 本 を 二郎 を 見 た 女性 に 渡し た 。
% mecab -Oyomi (包含读音)
% mecab -Ochasen (ChaSen兼容格式)
% mecab -Odump (输出所有信息)
% tar zxfv mecab-ipadic-2.7.0-xxxx
% cd mecab-ipadic-2.7.0-xxxx
% ./configure --with-charset=sjis
% make

% tar zxfv mecab-ipadic-2.7.0-xxxx
% ./configure --with-charset=utf8
% make
% cd mecab-ipadic-2.7.0-xxxx
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
# make install
ホリエモン市
ホリエモン      名詞,固有名詞,地域,一般,*,*,*
市      名詞,接尾,地域,*,*,*,市,シ,シ
EOS
ホリエモンさん
ホリエモン      名詞,固有名詞,人名,一般,*,*,*
さん    名詞,接尾,人名,*,*,*,さん,サン,サン
%mecab --unk-feature "未知語" 
ホリエモンさん
ホリエモン      未知語
さん    名詞,接尾,人名,*,*,*,さん,サン,サン
% mecab -N2
今日もしないとね。
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
も      助詞,係助詞,*,*,*,*,も,モ,モ
し      動詞,自立,*,*,サ変?スル,未然形,する,シ,シ
ない    助動詞,*,*,*,特殊?ナイ,基本形,ない,ナイ,ナイ
と      助詞,接続助詞,*,*,*,*,と,ト,ト
ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
。      記号,句点,*,*,*,*,。,。,。
EOS
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
もし    副詞,一般,*,*,*,*,もし,モシ,モシ
ない    形容詞,自立,*,*,形容詞?アウオ段,基本形,ない,ナイ,ナイ
と      助詞,接続助詞,*,*,*,*,と,ト,ト
ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
。      記号,句点,*,*,*,*,。,。,。
EOS
#define MECAB_NOR_NODE  0
#define MECAB_UNK_NODE  1
#define MECAB_BOS_NODE  2
#define MECAB_EOS_NODE  3

struct mecab_node_t {
  struct mecab_node_t  *prev;  // 前一个词条的指针
  struct mecab_node_t  *next;  // 后一个词条的指针

  struct mecab_node_t  *enext; // 同一位置结束的词条的指针 
  struct mecab_node_t  *bnext; // 同一位置开始的词条的指针 

  char  *surface;             // 词条的表面字符串 
                              // 没有以 NUL 结束. 因此要获取字符串， 需要使用 
			      // strncpy(buf, node->feature, node->length) 

  char  *feature;             // CSV 格式的特征 
  unsigned int   length;      // 词条的长度
  unsigned int   rlength;     // 词条的长度(包括开始处的空格)
  unsigned int   id;          // 词条的唯一标识 ID 
  unsigned short rcAttr;      // 下文语境 idid
  unsigned short lcAttr;      // 上文语境  id
  unsigned short posid;       // 词条词性特征 ID
  unsigned char  char_type;   // 字符类别信息
  unsigned char  stat;        // 词条类别: 可用以下几个宏
                              // #define MECAB_NOR_NODE  0
                              // #define MECAB_UNK_NODE  1
                              // #define MECAB_BOS_NODE  2
                              // #define MECAB_EOS_NODE  3
  unsigned char  isbest;      // 最优解场合为 1, 其他为 0

  float          alpha;       // forward backward 的 forward log 概率
  float          beta;        // forward backward 的 backward log 概率
  float          prob;        // 周边概率
                              // alpha, beta, prob 在 -l 2 选项指定的时候定义 

  short          wcost;       // 词条生成 cost 
  long           cost;        // 累计 cost 
};
#define MECAB_USR_DIC   1
#define MECAB_SYS_DIC   0
#define MECAB_UNK_DIC   2

struct mecab_dictionary_info_t {
  const char                     *filename;  // 词典文件名 
  const char                     *charset;   // 词典编码
  unsigned int                    size;      // 词条书目
  int                             type;      // 词典类型,  可选值为 MECAB_(USR|SYS|UNK)_DIC  
  unsigned int                    lsize;     // 上文语境 ID 大小
  unsigned int                    rsize;     // 下文语境 ID 大小
  unsigned short                  version;   // 版本
  struct mecab_dictionary_info_t *next;　　　// 指向下一个词典的指针
};
#include <mecab.h>
#include <stdio.h>

#define CHECK(eval) if (! eval) { \
    fprintf (stderr, "Exception:%s\n", mecab_strerror (mecab)); \
    mecab_destroy(mecab); \
    return -1; }

int main (int argc, char **argv) {
  char input[1024] = "太郎は次郎が持っている本を花子に渡した。";
  mecab_t *mecab;
  mecab_node_t *node;
  const char *result;
  int i;

  mecab = mecab_new (argc, argv);
  CHECK(mecab);

  result = mecab_sparse_tostr(mecab, input);
  CHECK(result)
  printf ("INPUT: %s\n", input);
  printf ("RESULT:\n%s", result);

  result = mecab_nbest_sparse_tostr (mecab, 3, input);
  CHECK(result);
  fprintf (stdout, "NBEST:\n%s", result);

  CHECK(mecab_nbest_init(mecab, input));
  for (i = 0; i < 3; ++i) {
    printf ("%d:\n%s", i, mecab_nbest_next_tostr (mecab));
  }

  node = mecab_sparse_tonode(mecab, input);
  CHECK(node);
  for (; node; node = node->next) {
    fwrite (node->surface, sizeof(char), node->length, stdout);
    printf("\t%s\n", node->feature);
  }

  node = mecab_sparse_tonode(mecab, input);
  CHECK(node);
  for (;  node; node = node->next) {
    printf("%d ", node->id);

    if (node->stat == MECAB_BOS_NODE)
      printf("BOS");
    else if (node->stat == MECAB_EOS_NODE)
      printf("EOS");
    else
      fwrite (node->surface, sizeof(char), node->length, stdout);

    printf(" %s %d %d %d %d %d %d %d %d %f %f %f %d\n",
	   node->feature,
	   (int)(node->surface - input),
	   (int)(node->surface - input + node->length),
	   node->rcAttr,
	   node->lcAttr,
	   node->posid,
	   (int)node->char_type,
	   (int)node->stat,
	   (int)node->isbest,
	   node->alpha,
	   node->beta,
	   node->prob,
	   node->cost);
  }

  mecab_destroy(mecab);

  return 0;
}
namespace MeCab {
  typedef struct mecab_node_t                Node;
  typedef struct mecab_dictionary_info_t     DictionaryInfo;

  class Tagger {
  public:
    virtual const char* parse(const char*, size_t, char*, size_t) = 0;

    virtual const char* parse(const char*, size_t = 0) = 0;
    virtual Node* parseToNode(const char*, size_t = 0) = 0;

    virtual const char* parseNBest(size_t, const char*, size_t = 0) = 0;
    virtual bool  parseNBestInit(const char*, size_t = 0) = 0;
    virtual Node*  nextNode() = 0;
    virtual const char* next() = 0;
    virtual const char* formatNode(Node *) = 0;

    virtual const char* next(char*, size_t) = 0;
    virtual const char* parseNBest(size_t, const char*,
                                   size_t, char *, size_t) = 0;
    virtual const char* formatNode(Node *, char *, size_t) = 0;

    virtual bool  partial() const                             = 0;
    virtual void  set_partial(bool partial)                   = 0;
    virtual float theta() const                               = 0;
    virtual void  set_theta(float theta)                      = 0;
    virtual int   lattice_level() const                       = 0;
    virtual void  set_lattice_level(int level)                = 0;
    virtual bool  all_morphs() const                          = 0;
    virtual void  set_all_morphs(bool all_morphs)             = 0;

    virtual const char* what() = 0;

    virtual const DictionaryInfo* dictionary_info() const = 0;

    virtual ~Tagger() {};

    static const char *version();

    static Tagger* create(int, char**);
    static Tagger* create(const char*);
  };

  /* factory method */
  Tagger *createTagger (int, char**);
  Tagger *createTagger (const char*);
  const char* getTaggerError ();
}
#include <iostream>
#include <mecab.h>

#define CHECK(eval) if (! eval) { \
   const char *e = tagger ? tagger->what() : MeCab::getTaggerError(); \
   std::cerr << "Exception:" << e << std::endl; \
   delete tagger; \
   return -1; }

int main (int argc, char **argv) {
  char input[1024] = "太郎は次郎が持っている本を花子に渡した。";

  MeCab::Tagger *tagger = MeCab::createTagger (argc, argv);
  CHECK(tagger);

  const char *result = tagger->parse(input);
  CHECK(result);
  std::cout << "INPUT: " << input << std::endl;
  std::cout << "RESULT: " << result << std::endl;

  result = tagger->parseNBest(3, input);
  CHECK(result);
  std::cout << "NBEST: " << std::endl << result;

  CHECK(tagger->parseNBestInit(input));
  for (int i = 0; i < 3; ++i) {
    std::cout << i << ":" << std::endl << tagger->next();
  }

  MeCab::Node* node = tagger->parseToNode(input);
  CHECK(node);
  for (; node; node = node->next) {
    std::cout.write(node->surface, node->length);
  }

  node = tagger->parseToNode(input);
  CHECK(node);

  for (; node; node = node->next) {
    std::cout << node->id << ' ';
    if (node->stat == MECAB_BOS_NODE)
      std::cout << "BOS";
    else if (node->stat == MECAB_EOS_NODE)
      std::cout << "EOS";
    else
      std::cout.write (node->surface, node->length);

    std::cout << ' ' << node->feature
	      << ' ' << (int)(node->surface - input)
	      << ' ' << (int)(node->surface - input + node->length)
	      << ' ' << node->rcAttr
	      << ' ' << node->lcAttr
	      << ' ' << node->posid
	      << ' ' << (int)node->char_type
	      << ' ' << (int)node->stat
	      << ' ' << (int)node->isbest
	      << ' ' << node->alpha
	      << ' ' << node->beta
	      << ' ' << node->prob
	      << ' ' << node->cost << std::endl;
  }

  delete tagger;

  return 0;
}
% cc -O2 `mecab-config --cflags` example.c -o example \
         `mecab-config --libs`
% gcc -DDLL_IMPORT -I. example.c -o example.exe libmecab.dll
% cl -DDLL_IMPORT -I. example.c libmecab.lib
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp
% su
# make install
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf8
% /usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic \
-u foo.dic -f euc-jp -t euc-jp foo.csv
userdic = /home/foo/bar/foo.dic
 userdic = /home/foo/bar/foo.dic,/home/foo/bar2/usr.dic,/home/foo/bar3/bar.dic
工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ
表层形, 上文语境ID, 下文语境ID, cost, 词性,词性细分类1,词性细分类2,词性细分类3,活用形,活用型,原形,读音,发音
ユーザ設定,-1,-1,10,名詞,一般,*,*,*,*,ユーザ設定,ユーザセッテイ,ユーザセッテイ,追加エントリ
运行例子:
% mecab 
ユーザ設定が必要です。
ユーザ設定      名詞,一般,*,*,*,*,ユーザ設定,ユーザセッテイ,ユーザセッテイ,追加エントリ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
必要    名詞,形容動詞語幹,*,*,*,*,必要,ヒツヨウ,ヒツヨー
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。      記号,句点,*,*,*,*,。,。,。
EOS
いそがしい,120,120,6078,形容詞,自立,*,*,形容詞・イ段,基本形,いそがしい,イソガシイ,イソガシイ
いそがし,128,128,6080,形容詞,自立,*,*,形容詞・イ段,文語基本形,いそがしい,イソガシ,イソガシ
いそがしから,136,136,6079,形容詞,自立,*,*,形容詞・イ段,未然ヌ接続,いそがしい,イソガシカラ,イソガシカラ
いそがしかろ,132,132,6079,形容詞,自立,*,*,形容詞・イ段,未然ウ接続,いそがしい,イソガシカロ,イソガシカロ
いそがしかっ,148,148,6078,形容詞,自立,*,*,形容詞・イ段,連用タ接続,いそがしい,イソガシカッ,イソガシカッ
いそがしく,152,152,6078,形容詞,自立,*,*,形容詞・イ段,連用テ接続,いそがしい,イソガシク,イソガシク
いそがしくっ,152,152,6079,形容詞,自立,*,*,形容詞・イ段,連用テ接続,いそがしい,イソガシクッ,イソガシクッ
いそがしゅう,144,144,6079,形容詞,自立,*,*,形容詞・イ段,連用ゴザイ接続,いそがしい,イソガシュウ,イソガシュウ
いそがしゅぅ,144,144,6079,形容詞,自立,*,*,形容詞・イ段,連用ゴザイ接続,いそがしい,イソガシュゥ,イソガシュゥ
いそがしき,124,124,6079,形容詞,自立,*,*,形容詞・イ段,体言接続,いそがしい,イソガシキ,イソガシキ
いそがしけれ,108,108,6079,形容詞,自立,*,*,形容詞・イ段,仮定形,いそがしい,イソガシケレ,イソガシケレ
いそがしかれ,140,140,6079,形容詞,自立,*,*,形容詞・イ段,命令ｅ,いそがしい,イソガシカレ,イソガシカレ
いそがしけりゃ,112,112,6079,形容詞,自立,*,*,形容詞・イ段,仮定縮約１,いそがしい,イソガシケリャ,イソガシケリャ
いそがしきゃ,116,116,6079,形容詞,自立,*,*,形容詞・イ段,仮定縮約２,いそがしい,イソガシキャ,イソガシキャ
いそがし,104,104,6080,形容詞,自立,*,*,形容詞・イ段,ガル接続,いそがしい,イソガシ,イソガシ
% mecab --node-format=STR --bos-format=STR --eos-format=STR --unk-format=STR
node-format-KEY = STR
unk-format-KEY = STR
eos-format-KEY = STR
bos-format-KEY = STR
% mecab -Okey
; yomi
node-format-yomi = %pS%f[7]
unk-format-yomi = %M
eos-format-yomi  = \n

; simple
node-format-simple = %m\t%F-[0,1,2,3]\n
eos-format-simple  = EOS\n

; csv
node-format-csv = %m,%f[7],%f[8],%f[6],%F-[0,1,2,3],%f[4],%f[5]\n
unk-format-csv  = %m,%m,%m,%f[6],%F-[0,1,2,3],,\n
eos-format-csv  = EOS,,,,,,\n

; ChaSen
node-format-chasen = %m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen  = %m\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen  = EOS\n
匹配模式  ID
/usr/local/libexec/mecab/mecab-dict-index
% mecab -F"%m\t%h\n" -E"EOS\n" 
今日もしないとね。
今日    67
も      16
し      31
ない    25
と      18
ね      17
。
EOS
mecab_t *mecab;
mecab_node_t *node;

mecab = mecab_new2("");
node = mecab_sparse_tonode(mecab, "今日もしないとね");
for (; node; node = node->next) {
  fwrite (node->surface, sizeof(char), node->length, stdout);
  printf("%d\n", node->posid)
}
名詞 1
動詞 2
形容詞 3
副詞 4
助詞 5
接続詞 6
助動詞 7
連体詞 8
感動詞 9
* 10
名詞 1
(助詞|助動詞) 2
(副詞|形容詞|連体詞) 3
* 4
その他,間投,*,* 0
フィラー,*,*,* 1
感動詞,*,*,* 2
記号,アルファベット,*,* 3
記号,一般,*,* 4
記号,括弧開,*,* 5
記号,括弧閉,*,* 6
記号,句点,*,* 7
記号,空白,*,* 8
記号,読点,*,* 9
形容詞,自立,*,* 10
形容詞,接尾,*,* 11
形容詞,非自立,*,* 12
助詞,格助詞,一般,* 13
助詞,格助詞,引用,* 14
助詞,格助詞,連語,* 15
助詞,係助詞,*,* 16
助詞,終助詞,*,* 17
助詞,接続助詞,*,* 18
助詞,特殊,*,* 19
助詞,副詞化,*,* 20
助詞,副助詞,*,* 21
助詞,副助詞／並立助詞／終助詞,*,* 22
助詞,並立助詞,*,* 23
助詞,連体化,*,* 24
助動詞,*,*,* 25
接続詞,*,*,* 26
接頭詞,形容詞接続,*,* 27
接頭詞,数接続,*,* 28
接頭詞,動詞接続,*,* 29
接頭詞,名詞接続,*,* 30
動詞,自立,*,* 31
動詞,接尾,*,* 32
動詞,非自立,*,* 33
副詞,一般,*,* 34
副詞,助詞類接続,*,* 35
名詞,サ変接続,*,* 36
名詞,ナイ形容詞語幹,*,* 37
名詞,一般,*,* 38
名詞,引用文字列,*,* 39
名詞,形容動詞語幹,*,* 40
名詞,固有名詞,一般,* 41
名詞,固有名詞,人名,一般 42
名詞,固有名詞,人名,姓 43
名詞,固有名詞,人名,名 44
名詞,固有名詞,組織,* 45
名詞,固有名詞,地域,一般 46
名詞,固有名詞,地域,国 47
名詞,数,*,* 48
名詞,接続詞的,*,* 49
名詞,接尾,サ変接続,* 50
名詞,接尾,一般,* 51
名詞,接尾,形容動詞語幹,* 52
名詞,接尾,助数詞,* 53
名詞,接尾,助動詞語幹,* 54
名詞,接尾,人名,* 55
名詞,接尾,地域,* 56
名詞,接尾,特殊,* 57
名詞,接尾,副詞可能,* 58
名詞,代名詞,一般,* 59
名詞,代名詞,縮約,* 60
名詞,動詞非自立的,*,* 61
名詞,特殊,助動詞語幹,* 62
名詞,非自立,一般,* 63
名詞,非自立,形容動詞語幹,* 64
名詞,非自立,助動詞語幹,* 65
名詞,非自立,副詞可能,* 66
名詞,副詞可能,*,* 67
連体詞,*,*,* 68
% mecab -a
東京都庁
東京    名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
東      名詞,固有名詞,一般,*,*,*,東,ヒガシ,ヒガシ
東      名詞,固有名詞,地域,一般,*,*,東,ヒガシ,ヒガシ
東      名詞,固有名詞,人名,名,*,*,東,ヒガシ,ヒガシ
東      名詞,固有名詞,人名,姓,*,*,東,アズマ,アズマ
東      名詞,一般,*,*,*,*,東,ヒガシ,ヒガシ
京都    名詞,固有名詞,一般,*,*,*,京都,キョウト,キョート
京都    名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート
京      名詞,固有名詞,地域,一般,*,*,京,キョウ,キョー
京      名詞,固有名詞,人名,名,*,*,京,ミヤコ,ミヤコ
京      名詞,固有名詞,人名,姓,*,*,京,キョウ,キョー
都庁    名詞,一般,*,*,*,*,都庁,トチョウ,トチョー
都      名詞,接尾,地域,*,*,*,都,ト,ト
都      名詞,固有名詞,地域,一般,*,*,都,ミヤコ,ミヤコ
都      名詞,固有名詞,人名,姓,*,*,都,ミヤコ,ミヤコ
都      名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ
都      名詞,一般,*,*,*,*,都,ト,ト
庁      名詞,接尾,一般,*,*,*,庁,チョウ,チョー
庁      名詞,固有名詞,地域,一般,*,*,庁,チョウ,チョー
庁      名詞,一般,*,*,*,*,庁,チョウ,チョー
EOS
% mecab -l2 -a -F"%m %H %pP %pb\n" -E"EOS\n"
京都大学
京都大学 名詞,固有名詞,組織,*,*,*,京都大学,キョウトダイガク,キョートダイガク 0.559944 *
京都大 名詞,固有名詞,組織,*,*,*,京都大,キョウトダイ,キョートダイ 0.073824  
京都 名詞,固有名詞,一般,*,*,*,京都,キョウト,キョート 0.004990  
京都 名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート 0.360982  
京 名詞,固有名詞,地域,一般,*,*,京,キョウ,キョー 0.000161  
京 名詞,固有名詞,人名,名,*,*,京,ミヤコ,ミヤコ 0.000003  
京 名詞,固有名詞,人名,姓,*,*,京,キョウ,キョー 0.000096  
都 名詞,接尾,地域,*,*,*,都,ト,ト 0.000166  
都 名詞,固有名詞,地域,一般,*,*,都,ミヤコ,ミヤコ 0.000001  
都 名詞,固有名詞,人名,姓,*,*,都,ミヤコ,ミヤコ 0.000006  
都 名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ 0.000072  
都 名詞,一般,*,*,*,*,都,ト,ト 0.000015  
大学 名詞,固有名詞,地域,一般,*,*,大学,ダイガク,ダイガク 0.004919  
大学 名詞,固有名詞,人名,名,*,*,大学,ダイガク,ダイガク 0.004441  
大学 名詞,一般,*,*,*,*,大学,ダイガク,ダイガク 0.350523  
大 名詞,接尾,一般,*,*,*,大,ダイ,ダイ 0.003603  
大 接頭詞,名詞接続,*,*,*,*,大,ダイ,ダイ 0.001123  
大 接頭詞,動詞接続,*,*,*,*,大,オオ,オー 0.000011  
大 名詞,固有名詞,地域,一般,*,*,大,オオ,オー 0.000171  
大 名詞,固有名詞,人名,名,*,*,大,マサル,マサル 0.000016  
大 名詞,一般,*,*,*,*,大,ダイ,ダイ 0.001424  
学 名詞,接尾,一般,*,*,*,学,ガク,ガク 0.067828  
学 名詞,固有名詞,地域,一般,*,*,学,ガク,ガク 0.001092  
学 名詞,固有名詞,人名,名,*,*,学,マナブ,マナブ 0.004203  
学 名詞,一般,*,*,*,*,学,ガク,ガク 0.007051
EOS
% mecab -l2 -a -F"%m %H %pP %pb\n" -t0.1 -E"EOS\n"
京都大学
京都大学 名詞,固有名詞,組織,*,*,*,京都大学,キョウトダイガク,キョートダイガク 0.023617 *
京都大 名詞,固有名詞,組織,*,*,*,京都大,キョウトダイ,キョートダイ 0.052790  
京都 名詞,固有名詞,一般,*,*,*,京都,キョウト,キョート 0.113576  
京都 名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート 0.200919  
京 名詞,固有名詞,地域,一般,*,*,京,キョウ,キョー 0.206514  
京 名詞,固有名詞,人名,名,*,*,京,ミヤコ,ミヤコ 0.157030  
京 名詞,固有名詞,人名,姓,*,*,京,キョウ,キョー 0.245554  
都 名詞,接尾,地域,*,*,*,都,ト,ト 0.168921  
都 名詞,固有名詞,地域,一般,*,*,都,ミヤコ,ミヤコ 0.090030  
都 名詞,固有名詞,人名,姓,*,*,都,ミヤコ,ミヤコ 0.098721  
都 名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ 0.120077  
都 名詞,一般,*,*,*,*,都,ト,ト 0.131348  
大学 名詞,固有名詞,地域,一般,*,*,大学,ダイガク,ダイガク 0.056029  
大学 名詞,固有名詞,人名,名,*,*,大学,ダイガク,ダイガク 0.063926  
大学 名詞,一般,*,*,*,*,大学,ダイガク,ダイガク 0.097919  
大 名詞,接尾,一般,*,*,*,大,ダイ,ダイ 0.150510  
大 接頭詞,名詞接続,*,*,*,*,大,ダイ,ダイ 0.151888  
大 接頭詞,動詞接続,*,*,*,*,大,オオ,オー 0.083163  
大 名詞,固有名詞,地域,一般,*,*,大,オオ,オー 0.101090  
大 名詞,固有名詞,人名,名,*,*,大,マサル,マサル 0.090363  
大 名詞,一般,*,*,*,*,大,ダイ,ダイ 0.128706  
学 名詞,接尾,一般,*,*,*,学,ガク,ガク 0.233658  
学 名詞,固有名詞,地域,一般,*,*,学,ガク,ガク 0.150100  
学 名詞,固有名詞,人名,名,*,*,学,マナブ,マナブ 0.174424  
学 名詞,一般,*,*,*,*,学,ガク,ガク 0.200327 
EOS
mecab_t *mecab;
mecab_node_t *node;

mecab = mecab_new2("-l2 -a");

node = mecab_sparse_tonode(mecab, input);
for (; node; node = node->next) {
  /* 最適解もしくは確率が 0.05 以上のとき出力 */
  if (node->isbest || node->prob >= 0.05)  {
    fwrite (node->surface, sizeof(char), node->length, stdout);
    printf("\t%s\t%f\n", node->feature, node->prob);
  }
}
..
NUMERIC        1 1 0
..
NUMERIC,1204,1204,0,名詞,数,*,*,*,*,*
% /usr/local/libexec/mecab/mecab-dict-index
ASCII       1 1 0

0x0021..0x007E ASCII
ASCII,1192,1192,0,名詞,サ変接続,*,*,*,*,*
% /usr/local/libexec/mecab/mecab-dict-index
進学校,0,0,0,名詞,一般,*,*,*,*,進学校,シンガクコウ,シンガクコー
梅暦,0,0,0,名詞,一般,*,*,*,*,梅暦,ウメゴヨミ,ウメゴヨミ
気圧,0,0,0,名詞,一般,*,*,*,*,気圧,キアツ,キアツ
水中翼船,0,0,0,名詞,一般,*,*,*,*,水中翼船,スイチュウヨクセン,スイチューヨクセン
連れ出す,0,0,0,動詞,自立,*,*,五段・サ行,基本形,連れ出す,ツレダス,ツレダス
連れ出さ,0,0,0,動詞,自立,*,*,五段・サ行,未然形,連れ出す,ツレダサ,ツレダサ
連れ出そ,0,0,0,動詞,自立,*,*,五段・サ行,未然ウ接続,連れ出す,ツレダソ,ツレダソ
連れ出し,0,0,0,動詞,自立,*,*,五段・サ行,連用形,連れ出す,ツレダシ,ツレダシ
連れ出せ,0,0,0,動詞,自立,*,*,五段・サ行,仮定形,連れ出す,ツレダセ,ツレダセ
連れ出せ,0,0,0,動詞,自立,*,*,五段・サ行,命令ｅ,連れ出す,ツレダセ,ツレダセ
連れ出しゃ,0,0,0,動詞,自立,*,*,五段・サ行,仮定縮約１,連れ出す,ツレダシャ,ツレダシャ
cost-factor = 800
bos-feature = BOS/EOS,*,*,*,*,*,*,*,*
eval-size = 6
unk-eval-size = 4
config-charset = EUC-JP
类别名      动作 Timing(0/1)  Grouping(0/1)  长度(0,1, 2... n)
KANJI          0 0 2
SYMBOL         1 1 0
NUMERIC        1 1 0
ALPHA          1 1 0
HIRAGANA       0 1 2
codepoint 缺省类型名 互换类型名1  互换类型名2 ..
low_codepoint..high_codepoint  缺省类型名 互换类型名1  互换类型名2 ..
0x0009 SPACE
0x30A1..0x30FF  KATAKANA
0x30FC          KATAKANA HIRAGANA  # ー
DEFAULT        0 1 0  # DEFAULT is a mandatory category!
SPACE          0 1 0  
KANJI          0 0 2
SYMBOL         1 1 0
NUMERIC        1 1 0
ALPHA          1 1 0
HIRAGANA       0 1 2 
KATAKANA       1 1 0
KANJINUMERIC   1 1 0
GREEK          1 1 0
CYRILLIC       1 1 0

# SPACE
0x0020 SPACE  # DO NOT REMOVE THIS LINE,  0x0020 is reserved for SPACE
0x00D0 SPACE
0x0009 SPACE
0x000B SPACE
0x000A SPACE

# ASCII
0x0021..0x002F SYMBOL
0x0030..0x0039 NUMERIC

... 

# KATAKANA
0x30A1..0x30FF  KATAKANA
0x31F0..0x31FF  KATAKANA  # Small KU .. Small RO
0x30FC          KATAKANA HIRAGANA  # ー
DEFAULT,0,0,0,記号,一般,*,*,*,*,*
SPACE,0,0,0,記号,空白,*,*,*,*,*
KANJI,0,0,0,名詞,一般,*,*,*,*,*
KANJI,0,0,0,名詞,サ変接続,*,*,*,*,*
HIRAGANA,0,0,名詞,一般,*,*,*,*,*
HIRAGANA,0,0,0,名詞,サ変接続,*,*,*,*,*
HIRAGANA,0,0,0,名詞,固有名詞,地域,一般,*,*,*
...
匹配模式  变换结果
[unigram rewrite]
# 除去发音, 使用词性1,2,3,4,活用形,活用型,原形,读音
*,*,*,*,*,*,*,*  $1,$2,$3,$4,$5,$6,$7,$8
# 没有读音的时候忽略
*,*,*,*,*,*,*    $1,$2,$3,$4,$5,$6,$7,*

[left rewrite]
(助詞|助動詞),*,*,*,*,*,(ない|無い)    $1,$2,$3,$4,$5,$6,無い
(助詞|助動詞),終助詞,*,*,*,*,(よ|ヨ)   $1,$2,$3,$4,$5,$6,よ
...

[right rewrite]
(助詞|助動詞),*,*,*,*,*,(ない|無い)    $1,$2,$3,$4,$5,$6,無い
(助詞|助動詞),終助詞,*,*,*,*,(よ|ヨ)   $1,$2,$3,$4,$5,$6,よ
..
UNIGRAM W0:%F[6]
UNIGRAM W1:%F[0]/%F[6]
UNIGRAM W2:%F[0],%F?[1]/%F[6]
UNIGRAM W3:%F[0],%F[1],%F?[2]/%F[6]
UNIGRAM W4:%F[0],%F[1],%F[2],%F?[3]/%F[6]

UNIGRAM T0:%t
UNIGRAM T1:%F[0]/%t
UNIGRAM T2:%F[0],%F?[1]/%t
UNIGRAM T3:%F[0],%F[1],%F?[2]/%t
UNIGRAM T4:%F[0],%F[1],%F[2],%F?[3]/%t

BIGRAM B00:%L[0]/%R[0]
BIGRAM B01:%L[0],%L?[1]/%R[0]
BIGRAM B02:%L[0]/%R[0],%R?[1]
BIGRAM B03:%L[0]/%R[0],%R[1],%R?[2]
BIGRAM B04:%L[0],%L?[1]/%R[0],%R[1],%R?[2]
BIGRAM B05:%L[0]/%R[0],%R[1],%R[2],%R?[3]
BIGRAM B06:%L[0],%L?[1]/%R[0],%R[1],%R[2],%R?[3]
...
太郎    名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
花子    名詞,固有名詞,人名,名,*,*,花子,ハナコ,ハナコ
が      助詞,格助詞,一般,*,*,*, が,ガ,ガ
好き    名詞,形容動詞語幹,*,*,*,*, 好き,スキ,スキ
だ      助動詞,*,*,*, 特殊・ダ,基本形,だ,ダ,ダ
.       記号,句点,*,*,*,*, . , . , . 
EOS
焼酎    名詞,一般,*,*,*,*,焼酎,ショウチュウ,ショーチュー
好き    名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ
の      助詞,連体化,*,*,*,*, の,ノ,ノ
親父    名詞,一般,*,*,*,*,親父,オヤジ,オヤジ
.       記号,句点,*,*,*,*, . , . , . 
EOS
...
cd $WORK
mkdir seed final
% cd $WORK/seed
% ls 
Adj.csv          Interjection.csv   Noun.name.csv    Noun.verbal.csv  Symbol.csv        rewrite.def
Adnominal.csv    Noun.adjv.csv      Noun.number.csv  Others.csv       Verb.csv          unk.def
Adverb.csv       Noun.adverbal.csv  Noun.org.csv     Postp-col.csv    char.def
Auxil.csv        Noun.csv           Noun.others.csv  Postp.csv        corpus
Conjunction.csv  Noun.demonst.csv   Noun.place.csv   Prefix.csv       dicrc
Filler.csv       Noun.nai.csv       Noun.proper.csv  Suffix.csv       feature.def
% cd $WORK/seed
% /usr/local/libexec/mecab/mecab-dict-index

也可以通过 -d,  -o 选项指定输入输出目录来运行该命令
% /usr/local/libexec/mecab/mecab-dict-index -d $WORK/seed -o $WORK/seed
% cd $WORK/seed
% /usr/local/libexec/mecab/mecab-cost-train -c 1.0 corpus model

可以使用 -d 参数指定使用的词典
% /usr/local/libexec/mecab/mecab-cost-train -d $WORK/seed -c 1.0 $WORK/seed/corpus $WORK/seed/model
% /usr/local/libexec/mecab/mecab-cost-train -y -c 1.0 corpus model
% /usr/local/libexec/mecab/mecab-cost-train -b model.txt model
reading corpus ... adding virtual node: 名詞,固有名詞,地域,一般,*,*,東日,トウニチ,トウニチ
adding virtual node: 副詞,助詞類接続,*,*,*,*,かなり,カナリ,カナリ

Number of sentences: 32
Number of features:  47547
eta:                 0.00010
freq:                1
C(sigma^2):          1.00000

iter=0 err=1.00000 F=0.41186 target=1691.68869 diff=1.00000
iter=1 err=1.00000 F=0.68727 target=1077.14848 diff=0.36327
iter=2 err=0.87500 F=0.81904 target=621.20311 diff=0.42329
iter=3 err=0.81250 F=0.86354 target=384.72432 diff=0.38068
iter=4 err=0.68750 F=0.93685 target=233.72722 diff=0.39248
..
% cd $WORK/seed
% /usr/local/libexec/mecab/mecab-dict-gen -o ../final -m model

如下，可以使用 -d -o 选项指定词典
% /usr/local/libexec/mecab/mecab-dict-gen -o $WORK/final -d $WORK/seed -m $WORK/seed/model
% cd $WORK/final
% /usr/local/libexec/mecab/mecab-dict-index 

如下，可以使用 -d -o 选项指定词典
% /usr/local/libexec/mecab/mecab-dict-index -d $WORK/final -o $WORK/final
% mecab -d $WORK/final
焼酎好きの親父. 
焼酎    名詞,一般,*,*,*,*,焼酎,ショウチュウ,ショーチュー
好き    名詞,形容動詞語幹,*,*,*,*,好き, スキ, スキ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
親父    名詞,一般,*,*,*,*,親父, オヤジ, オヤジ
.       記号,句点,*,*,*,*,.,.,. 
EOS
% /usr/local/libexec/mecab/mecab-test-gen < test > test.sen
% mecab -d $WORK/final test.sen > test.result
% /usr/local/libexec/mecab/mecab-system-eval test.result test
                    precision          recall              F
LEVEL 0:    98.6887(647112/655710) 98.9793(647112/653785) 98.8338
LEVEL 1:    98.2163(644014/655710) 98.5055(644014/653785) 98.3607
LEVEL 2:    97.2230(637501/655710) 97.5093(637501/653785) 97.3659
LEVEL 4:    96.8367(634968/655710) 97.1218(634968/653785) 96.9791
use MeCab;
$m = new MeCab::Tagger ("-Ochasen");
print $m->parse ("今日もしないとね");
require 'MeCab'
m = MeCab::Tagger.new ("-Ochasen")
print m.parse ("今日もしないとね")
import sys
import MeCab
m = MeCab.Tagger ("-Ochasen")
print m.parse ("今日もしないとね")
import org.chasen.mecab.Tagger;
import org.chasen.mecab.Node
 public static void main(String[] argv) {
 Tagger tagger = new Tagger ("-Ochasen");
 System.out.println (tagger.parse ("太郎は二郎にこの本を渡した.")); 
}
use MeCab;
my $m = new MeCab::Tagger ("");

for (my $n = $m->parseToNode ("今日もしないとね"); $n ; $n = $n->{next}) {
   printf ("%s\t%s\t%d\n",
        $n->{surface},          # 表层
        $n->{feature},          # 当前词性現在の品詞
        $n->{cost}              # 到当前词累计的 cost 值
    );
}
try:
    m = MeCab.Tagger ("-d .")
    print m.parse ("今日もしないとね")
except RuntimeError, e:
    print "RuntimeError:", e;
my $n = $m->parseToNode ("今日もしないとね"); 
$n = $n->{next}; # 丢弃 "句首"

while ($n->{next}) { # 检查 next 
  printf ("%s\n", $n->{surface});
  $n = $n->{next}; # 下一节点
}
namespace MeCab {

  class Tagger {

     // 解析str, 以字符串返回结果. len 为 str 的长度(可省略)
     string parse(string str, int len);

     // 等同于 parse
     string parseToString(string str, int len);

     // 解析 str, 返回 MeCab::Node 类型的词条节点. 
     // 该词条为句首节点, 使用 next 顺序访问所有的词条节点
     Node parseToNode(string str, int len);

     // parse 的 Nbest 版. N 指定 nbest 的个数
     // 要使用该功能， 启动时需要指定 -l 1 选项
     string parseNBest(int N, string str, int len);

     // 解析结果中, 按顺序取得n-best 中近似正确的结果的时候，需要调用该函数进行初始化.
     bool  parseNBestInit(string str, int len);

     // parseNbestInit() 函数调用之后， 顺序调用该函数取得n-best 中近似正确的结果
     string next();

     // 和 next() 相同, 指示返回的是  MeCab::Node 类型
     Node  nextNode();
  };

  #define MECAB_NOR_NODE  0
  #define MECAB_UNK_NODE  1
  #define MECAB_BOS_NODE  2
  #define MECAB_EOS_NODE  3

  struct Node {

    struct Node  prev;  // 前一个词条节点的指针
    struct Node  next;  // 后一个词条节点的指针

    struct Node  enext; // 同一位置结束的词条的指针 
    struct Node  bnext; // 同一位置开始的词条的指针 

    string surface;             // 词条对应的字符串内容

    string feature;             // CSV 格式的特征
    unsigned int   length;      // 词条的长度 
    unsigned int   rlength;     // 词条的长度(包含开头的空白字符)
    unsigned int   id;          // 词条被赋予的唯一 ID 
    unsigned short rcAttr;      // 上文语境 id 
    unsigned short lcAttr;      // 下文语境 id
    unsigned short posid;       // 词条 ID (未使用)
    unsigned char  char_type;   // 字符类别信息
    unsigned char  stat;        // 词条的种类, 可取以下值
                                // #define MECAB_NOR_NODE  0
                                // #define MECAB_UNK_NODE  1
                                // #define MECAB_BOS_NODE  2
                                // #define MECAB_EOS_NODE  3
    unsigned char  isbest;      // 最有解为 1, 其他为 0

    float          alpha;       // forward backward 的 forward log 概率
    float          beta;        // forward backward 的 backward log 概率
    float          prob;        // 周边概率
                                // alpha, beta, prob 只有在 -l 2 指定的时候才有定义

    short          wcost;       // 词条生成 cost
    long           cost;        // 累计 cost 
  };
}

	MeCab	ChaSen	JUMAN	KAKASI
解析模型	bi-gram 马尔科夫模型	可变长马尔科夫模型	bi-gram 马尔科夫模型	最长一致
cost 估计	从语料库学习	从语料库学习	人手	没有 cost 的概念
学习模型	CRF (区别式模型)	HMM (生成式模型)
词典检索算法	Double Array	Double Array	Patricia Tree	Hash?
求解算法	Viterbi	Viterbi	Viterbi	决定的?
连接表的实现	2元 Table	自动机	2元 Table?	没有连接表?
词性层级	无限制多级词性	无限制多级词性	固定2级	没有词性概念?
未登陆词处理	字符种类 (动作定义可变更)	字符种类 (不可变更)	字符种类 (不可变更)
带约束的解析	可能	2.4.0 以后可能	不可能	不可能
N-best解	可能	不可能	不可能	不可能

%s	词条种类(0: 普通, 1: 未登陆词, 2:句首, 3:句尾)
%S	输入的句子
%L	输入句子的长度
%m	词条的表层字符串
%M	词条的表层字符串, 但其中包含的空白文字也会输出 (参照 %pS )
%h	素性的内部 ID
%%	百分号 %
%c	单语的 cost
%H	素性 (词性, 活用, 读音み) 字符串，CSV 格式
%t	字符类型 id
%P	周边概率 (仅在 -l2 选项指定的时候有效)
%pi	形態素に付与されるユニークなID
%pS	もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一
%ps	开始位置
%pe	结束位置
%pC	同前一个词条的连接 cost
%pw	等同于 %c
%pc	连接 cost + 单语生成 cost (从句首累加)
%pn	连接 cost + 单语生成 cost ( 该词条独自的, %pw + %pC)
%pb	最优路径时输出为 *, 其他路径为 ' '
%pP	周边概率 (仅在 -l2 选项指定的时候有效) )
%pA	alpha, forward log 概率(仅在 -l2 选项指定的时候有效)
%pB	beta, backward log 概率(仅在 -l2 选项指定的时候有效)
%pl	词条的表层字符串长度，等同于 strlen (%m)
%pL	词条的表层字符串长度，但包括空白字符串, 等同于strlen(%M)
%phl	上文 id
%phr	下文 id
%f[N]	csv 格式的素性中第 N 个要素
%f[N1,N2,N3...]	第N1,N2,N3个素性, 用"," 分隔
%FC[N1,N2,N3...]	第N1,N2,N3个素性, 用C 分隔 . 只是ただし, 要素为空的时候，以后的省略. (例)F-[0,1,2]
\0 \a \b \t \n \v \f \r \\	普通的转义字符
\s	' ' (半角空格) 設定ファイルに記述するときに使用

作者rickjin

一、日文分词器 MeCab 简介

二、关于 MeCab (和布蕪)

目录

特征

比较

邮件列表

最新消息

下载

IPA 词典

Juman 词典

Canna dic

安装

使用方法

致谢

三、MeCab 库函数接口

三、词条追加方法

在系统词典中追加

在用户词典中追加

词条的格式 (没有活用的词条)

词条的格式 (活用的词条)

四、输出格式

输出格式的指定

输出格式

例

五、词性 ID 的定义

概要

配置文件

词性 ID 参照

pos-id.def 的例子

六、软性的逐词分隔输出

概要

全切分的输出

周边概率的计算和输出

库函数调用

七、未登陆词处理的定义

概要

配置文件

char.def

unk.def

案例研究

把连续的数字处理为一个词条

ASCII 字符串, 仅在空格/制表符处切分 (和kakasi相同)

八、从原始词典/语料库做参数估计

概要

处理流程

dicrc

char.def

unk.def

rewrite.def

feature.def

CRF 参数训练

九、脚本语言绑定

概要

安装

perl

ruby

python

Java

各词条详细信息的获取

错误处理

注意事项

句首，句尾词条

所有方法

样例程序

相关文章：

作者 rickjin

相关文章

《日文分词器 Mecab 文档》有33条评论

发表回复

You missed