sparkmllib如何实现基于卡方校验的特征选择

这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

在赤壁等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供做网站、成都网站设计网站设计制作定制网站,公司网站建设,企业网站建设,高端网站设计,营销型网站建设,成都外贸网站制作,赤壁网站建设费用合理。

运行代码如下

package spark.FeatureExtractionAndTransformation

import org.apache.spark.mllib.feature.ChiSqSelector
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 基于卡方校验的特征选择
  * 卡方校验：
  * 在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布．
  * 是统计样本的实际值与理论推断值之间的偏离程度．
  * 卡方值越小，越趋于符合
  *
  * Created by eric on 16-7-24.
  */
object FeatureSelection {
  val conf = new SparkConf()                                     //创建环境变量
    .setMaster("local")                                             //设置本地化处理
    .setAppName("TF_IDF")                              //设定名称
  val sc = new SparkContext(conf)

  def main(args: Array[String]) {
    val data = MLUtils.loadLibSVMFile(sc, "/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/fs.txt")
    val discretizedData = data.map { lp => //创建数据处理空间
      LabeledPoint(lp.label, Vectors.dense(lp.features.toArray.map {x => x/2}))
    }

    val selector = new ChiSqSelector(2)//创建选择2个特性的卡方校验
    val transformer = selector.fit(discretizedData)//创建训练模型

    val filteredData = discretizedData.map { lp =>  //过滤前两个特性
      LabeledPoint(lp.label, transformer.transform(lp.features))
    }
    filteredData.foreach(println)

//    (0.0,[1.0,0.5])
//    (1.0,[0.0,0.0])
//    (0.0,[1.5,1.5])
//    (1.0,[0.5,0.0])
//    (1.0,[2.0,1.0])
  }
}

fs.txt

0 1:2 2:1 3:0 4:1
1 1:0 2:0 3:1 4:0
0 1:3 2:3 3:2 4:2
1 1:1 2:0 3:4 4:3
1 1:4 2:2 3:3 4:1

结果如下

spark mllib如何实现基于卡方校验的特征选择

感谢各位的阅读！关于“spark mllib如何实现基于卡方校验的特征选择”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

文章题目：sparkmllib如何实现基于卡方校验的特征选择
路径分享：http://chengdu.cdxwcx.cn/article/pijcje.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

sparkmllib如何实现基于卡方校验的特征选择

运行代码如下

fs.txt

结果如下

其他资讯

对Websocket完全不懂，但又想搞个聊天室，行吗？

翻车现场：一次JVMFullGC引发的宕机事故

为什么推荐大家使用香港云服务器

阿里云nas怎么挂到本地服务器？阿里云国外服务器

EG服务器设置教程：详解如何设置EG服务器(eg的服务器设置怎么设置)

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

sparkmllib如何实现基于卡方校验的特征选择

运行代码如下

fs.txt

结果如下

其他资讯

对Websocket完全不懂，但又想搞个聊天室，行吗？

翻车现场：一次JVMFullGC引发的宕机事故

为什么推荐大家使用香港云服务器

阿里云nas怎么挂到本地服务器？阿里云国外服务器

EG服务器设置教程：详解如何设置EG服务器(eg的服务器设置怎么设置)

成都网站建设设计将想法与焦点和您一起共享