成都网站建设设计

将想法与焦点和您一起共享

Elasticsearch如何进行词语扩展引入?-创新互联

进行词语扩展引入的问题我们在此解决

在霞浦等地区,都构建了全面的区域性战略布局,加强发展的系统性、市场前瞻性、产品创新能力,以专注、极致的服务理念,为客户提供成都网站设计、成都做网站 网站设计制作按需设计,公司网站建设,企业网站建设,成都品牌网站建设,成都全网营销,成都外贸网站建设,霞浦网站建设费用合理。

首先看下效果

GET /operation/_search
{
  "query": {
   "match": {
    "store_name": "凯悦"
   }
  }
}

结果

{
  "took" : 38,
  "timed_out" : false,
  "_shards" : {
   "total" : 3,
   "successful" : 3,
   "skipped" : 0,
   "failed" : 0
  },
  "hits" : {
   "total" : {
    "value" : 0,
    "relation" : "eq"
   },
   "max_score" : null,
   "hits" : [ ]
  }
}

此时的分词器对凯悦二字的分词如下

{
  "tokens" : [
   {
    "token" : "凯悦",
    "start_offset" : 0,
    "end_offset" : 2,
    "type" : "CN_WORD",
    "position" : 0
   }
  ]
}

因为我们的索引在创建的时候凯悦词语还没有被扩展,所以创建索引的时候分词器会把凯悦分成两个字,而此时分词器将凯悦分词成一个词语凯悦,故而无法搜索到任何文档。

解决思路一:

首先想到的是重建索引,因为此时分词器词典中已经有了凯悦这个词语,然后在全量复制文档到新的索引中,如果是数据量不大的情况下是可以快速迁移,如果数据量大的话不建议这样做,然而有些情况可能只是部分文档与要扩展词语相关,所以这个方法比较笨拙,不建议使用。

解决思路二:

通过Elasticsearch官方提供的API接口update_by_query可以将与凯悦相关的文档重新分词

具体操作如下

POST /operation/_update_by_query
{
  "query": {
   "bool": {
    "must": [
     {"term": {"store_name": "凯"}},
     {"term": {"store_name": "悦"}}
    ]
   }
  }
}

意思是必须满足如上两个条件的文档才会被检索到并进行分词修改,即文档名称同时包含才被重新分词

执行结果

{
  "took" : 240,
  "timed_out" : false,
  "total" : 4,
  "updated" : 4,
  "deleted" : 0,
  "batches" : 1,
  "version_conflicts" : 0,
  "noops" : 0,
  "retries" : {
   "bulk" : 0,
   "search" : 0
  },
  "throttled_millis" : 0,
  "requests_per_second" : -1.0,
  "throttled_until_millis" : 0,
  "failures" : [ ]
}

可以看到有四条文档被修改

再次通过凯悦搜索此时就没有质保含的文档出现了

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


当前文章:Elasticsearch如何进行词语扩展引入?-创新互联
链接分享:http://chengdu.cdxwcx.cn/article/jddic.html