Spark中文分词

Spark 中文分词

一、导入需要的分词包

创新互联公司专注为客户提供全方位的互联网综合服务，包含不限于做网站、成都做网站、平阳网络推广、小程序开发、平阳网络营销、平阳企业策划、平阳品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联公司为所有大学生创业者提供平阳建站搭建服务，24小时服务热线：18982081108，官方网址：www.cdcxhl.com

import org.ansj.domain.Term
import org.ansj.recognition.impl.StopRecognition
import org.ansj.splitWord.analysis.ToAnalysis

二、停用词过滤

def filter(stopWords: Array[String]): StopRecognition = {
    // add stop words 
    val filter = new StopRecognition
    filter.insertStopNatures("w") // filter punctuation
    filter.insertStopNatures("m") // filter m pattern
    filter.insertStopNatures("null") // filter null
    filter.insertStopNatures("
") // filter 

    filter.insertStopRegexes("^[a-zA-Z]{1,}") //filter English alphabet
    filter.insertStopRegexes("^[0-9]+") //filter number
    filter.insertStopRegexes("[^a-zA-Z0-9\\u4e00-\\u9fa5]+")
    filter.insertStopRegexes("\t")
    for (x <- stopWords) {
      filter.insertStopWords(x)
    }
    filter
  }

三、分词

def getWords(text: String, filter: StopRecognition): ArrayBuffer[String] = {
    val words = new mutable.ArrayBuffer[String]()
    val terms: java.util.List[Term] =  ToAnalysis.parse(text).recognition(filter).getTerms
    for (i <- 0 until terms.size()) {
        val word = terms.get(i).getName
        if (word.length >= MIN_WORD_LENGTH) {
            words += word
        }
    }
    words
}

当前文章：Spark中文分词
转载注明：http://chengdu.cdxwcx.cn/article/ihgedo.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Spark中文分词

Spark 中文分词

其他资讯

如何实现Springboot集成任务调度

Python可以做什么

idea中有些文件显示灰色、无法关联到引用类及findusage无法查找该怎么办

python中将set转换为list的方法

HashMap面试会问的题目有哪些

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Spark中文分词

Spark 中文分词

其他资讯

如何实现Springboot集成任务调度

Python可以做什么

idea中有些文件显示灰色、无法关联到引用类及findusage无法查找该怎么办

python中将set转换为list的方法

HashMap面试会问的题目有哪些

成都网站建设设计将想法与焦点和您一起共享