结巴分词 ElasticSearch 插件

结巴分词 ElasticSearch 插件

  • 开发协议:未知
  • 操作系统: Windows Linux Mac
  • 开发语言:Java
  • 项目所有者:huaban
  • 收录时间:2016-10-22
  • 分享:
编辑评级
3

项目详细介绍

elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的

集成 Lucene / Jieba Analyzer,支持自定义词典。

Jieba Chinese Analysis PluginElasticSearchAnalyzer
0.0.21.0.0RC20.0.2
0.0.3-SNAPSHOT1.3.01.0.0
0.0.41.5.x1.0.2
2.3.32.3.31.0.2
2.3.42.3.41.0.2
2.3.52.3.51.0.2

本插件包括 jieba analyzerjieba tokenizerjieba token filter,有三种模式供选择。

  • index 主要用于索引分词,分词粒度较细

  • search 主要用于查询分词,分词粒度较粗

  • other 全角转半角、大写转小写、字符分词

安装

ES 2.x 以上版本

插件版本跟 ES 版本保持一致

2.3.5

./bin/plugin install https://github.com/huaban/elasticsearch-analysis-jieba/releases/download/v2.3.5/elasticsearch-analysis-jieba-2.3.5-bin.zip

2.3.4

./bin/plugin install https://github.com/huaban/elasticsearch-analysis-jieba/releases/download/v2.3.4/elasticsearch-analysis-jieba-2.3.4-bin.zip

2.3.3

./bin/plugin install https://github.com/huaban/elasticsearch-analysis-jieba/releases/download/v2.3.3/elasticsearch-analysis-jieba-2.3.3-bin.zip

ES 2.x 以下版本

请使用插件 0.0.4 版本编译安装

cd {your_es_path}
mkdir plugins/jieba

# 拷贝 jar
copy jieba-analysis-1.0.2.jar and elasticsearch-analysis-jieba-0.0.4.jar to plugins/jieba

# 拷贝用户字典
cp -r data/jieba {your_es_path}/config/

测试

curl -XPUT 127.0.0.1:9200/test -d '{
    "settings" : {
        "number_of_shards" : 1,
        "number_of_replicas" : 0

    },
    "mappings" : {
        "test" : {
            "_all" : { "enabled" : false },
            "properties" : {
                "name" : { "type" : "string", "analyzer" : "jieba_index", "search_analyzer" : "jieba_search" }
            }
        }
    }
}';echo



curl 'http://127.0.0.1:9200/test/_analyze?analyzer=jieba_index' -d '中华人民共和国';echo
curl 'http://127.0.0.1:9200/test/_analyze?analyzer=jieba_search' -d '中华人民共和国';echo
curl 'http://127.0.0.1:9200/test/_analyze?analyzer=jieba_other' -d '中华人民共和国 HelLo';echo

如何发布一个版本

github-release release \
    --user huaban \
    --repo elasticsearch-analysis-jieba \
    --tag v2.3.5 \
    --name "v2.3.5" \
    --description "支持 ES v2.3.5"

github-release upload \
    --user huaban \
    --repo elasticsearch-analysis-jieba \
    --tag v2.3.5 \
    --name "elasticsearch-analysis-jieba-2.3.5-bin.zip" \
    --label "plugin.zip" \
    --file target/releases/elasticsearch-analysis-jieba-2.3.5-bin.zip


标签:jieba