之前写k-近邻算法(http://boytnt.blog.51cto.com/966121/1569629)的时候,没附上测试数据,这回找了一个,测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,关于乳腺癌的样本,属性描述见breast-cancer-wisconsin.names。
创新互联公司长期为上千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为二道企业提供专业的做网站、成都网站制作,二道网站改版等技术服务。拥有10多年丰富建站经验和众多成功案例,为您定制开发。样本的大致形式如下:
1000025,5,1,1,1,2,1,3,1,1,2
第1个属性是编号,我们不关心,最后一个属性是结果,2表示benign(良性),4表示malignant(恶性)。其余9个属性是样本特征。注意里面有缺失数据(用?表示,共计16行,占2.3%),计算时要先做数据清洗,这里简单填充成0即可。
用k-近邻算法来测试一下:
public void TestNearestNeighbour() { var trainingSet = new List>(); var testSet = new List >(); //读取数据 var file = new StreamReader("breast-cancer-wisconsin.txt", Encoding.Default); for(int i = 0;i < 699;++i) { string line = file.ReadLine(); var parts = line.Split(','); var p = new DataVector (9); for(int j = 0;j < p.Dimension;++j) { if(parts[j + 1] == "?") parts[j + 1] = "0"; p.Data[j] = Convert.ToDouble(parts[j + 1]); } p.Label = Convert.ToInt32(parts[10]) == 2 ? "benign" : "malignant"; //用600个样本做训练,剩下99个做测试 if(i < 600) trainingSet.Add(p); else testSet.Add(p); } file.Close(); //检验 var nn = new NearestNeighbour(); nn.Train(trainingSet); int error = 0; foreach(var p in testSet) { var label = nn.Classify(p); if(label != p.Label) ++error; } Console.WriteLine("Error = {0}/{1}, {2}%", error, testSet.Count, (error * 100.0 / testSet.Count)); }
运行结果是99个测试样本猜错2个,错误率2.02%,效果不错。
附件:http://down.51cto.com/data/2365048创新互联www.cdcxhl.cn,专业提供香港、美国云服务器,动态BGP最优骨干路由自动选择,持续稳定高效的网络助力业务部署。公司持有工信部办法的idc、isp许可证, 机房独有T级流量清洗系统配攻击溯源,准确进行流量调度,确保服务器高可用性。佳节活动现已开启,新人活动云服务器买多久送多久。