python分位数函数 python 求分位数

聊聊python的分位数

在日常的数据分析中，分位数是非常重要的一环，在探查数据分布，定义指标中都必不可缺。但 python 里的分位数计算却潜藏了一些坑点，特分享。

创新互联公司于2013年开始，公司以成都网站制作、成都网站设计、系统开发、网络推广、文化传媒、企业宣传、平面广告设计等为主要业务，适用行业近百种。服务企业客户1000多家，涉及国内多个省份客户。拥有多年网站建设开发经验。为企业提供专业的网站建设、创意设计、宣传推广等服务。通过专业的设计、独特的风格，为不同客户提供各种风格的特色服务。

我们先看看百度百科的分位数定义：

正如上文所言，四分位数就是将数据从小到大排成4等分，然后取出3个分割点的数值。百分位数则以此类推，通过分位数我们可以对数据的分布有更深的了解：

分位数的定义是很容易理解的，但大部分人不知道的是，分位数的计算方法有两种：

我们依旧以四分位数为例

三种方法各有利弊，但结果都可能存在差距，需要与需求方仔细确认到底是哪个计算方法。

能满足4分位计算的函数主要有2个：numpy 的 percentile 方法和 pandas 的 quantile 方法。但他们的计算方法都是 1+(n-1)方法，我们看个例子：

既然没有现成的方法，我们就手写一个 n 的方法。

百分位的计算是非常常见的数据分析需求，但在实际使用时并没有那么的简单，专业的统计逻辑和""我们以为""的逻辑并不尽然相同。需时时谨慎，校验数据。

Python pandas用法

在Python中，pandas是基于NumPy数组构建的，使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的，而NumPy更适合处理统一的数值数组数据。

使用下面格式约定，引入pandas包：

pandas有两个主要数据结构：Series和DataFrame。

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成，即index和values两部分，可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ，第二个参数是Series中数据的索引，可以省略。

Series类型索引、切片、运算的操作类似于ndarray，同样的类似Python字典类型的操作，包括保留字in操作、使用.get()方法。

Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型，每列值类型可以不同，是最常用的pandas对象。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

pd.DataFrame(data,columns = [ ],index = [ ]) ：columns和index为指定的列、行索引，并按照顺序排列。

如果创建时指定了columns和index索引，则按照索引顺序排列，并且如果传入的列在数据中找不到，就会在结果中产生缺失值：

数据索引：Series和DataFrame的索引是Index类型，Index对象是不可修改，可通过索引值或索引标签获取目标数据，也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法：

重新索引：能够改变、重排Series和DataFrame索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。

df.reindex(index, columns ,fill_value, method, limit, copy ) ：index/columns为新的行列自定义索引；fill_value为用于填充缺失位置的值；method为填充方法，ffill当前值向前填充，bfill向后填充；limit为最大填充量；copy 默认True，生成新的对象，False时，新旧相等不复制。

删除指定索引：默认返回的是一个新对象。

.drop() ：能够删除Series和DataFrame指定行或列索引。

删除一行或者一列时，用单引号指定索引，删除多行时用列表指定索引。

如果删除的是列索引，需要增加axis=1或axis='columns'作为参数。

增加inplace=True作为参数，可以就地修改对象，不会返回新的对象。

在pandas中，有多个方法可以选取和重新组合数据。对于DataFrame，表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数：传入axis='columns'或axis=1将会按行进行运算。

.describe() ：针对各列的多个统计汇总，用统计学指标快速描述数据的概要。

.sum() ：计算各列数据的和

.count() ：非NaN值的数量

.mean( )/.median() ：计算数据的算术平均值、算术中位数

.var()/.std() ：计算数据的方差、标准差

.corr()/.cov() ：计算相关系数矩阵、协方差矩阵，是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。

.corrwith() ：利用DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series（针对各列进行计算），传入一个DataFrame则会计算按列名配对的相关系数。

.min()/.max() ：计算数据的最小值、最大值

.diff() ：计算一阶差分，对时间序列很有效

.mode() ：计算众数，返回频数最高的那（几）个

.mean() ：计算均值

.quantile() ：计算分位数（0到1）

.isin() ：用于判断矢量化集合的成员资格，可用于过滤Series中或DataFrame列中数据的子集

适用于Series的基本统计分析函数，DataFrame[列名]返回的是一个Series类型。

.unique() ：返回一个Series中的唯一值组成的数组。

.value_counts() ：计算一个Series中各值出现的频率。

.argmin()/.argmax() ：计算数据最大值、最小值所在位置的索引位置（自动索引）

.idxmin()/.idxmax() ：计算数据最大值、最小值所在位置的索引（自定义索引）

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结，其中read_csv()、read_table()、to_csv()是用得最多的。

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。

在许多数据分析工作中，缺失数据是经常发生的。对于数值数据，pandas使用浮点值NaN（np.nan）表示缺失数据，也可将缺失值表示为NA（Python内置的None值）。

替换值

.replace(old, new) ：用新的数据替换老的数据，如果希望一次性替换多个值，old和new可以是列表。默认会返回一个新的对象，传入inplace=True可以对现有对象进行就地修改。

删除重复数据

利用函数或字典进行数据转换

df.head()：查询数据的前五行

df.tail()：查询数据的末尾5行

pandas.cut()

pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。

pandas.date_range() 返回一个时间索引

df.apply() 沿相应轴应用函数

Series.value_counts() 返回不同数据的计数值

df.aggregate()

df.reset_index() 重新设置index，参数drop = True时会丢弃原来的索引，设置新的从0开始的索引。常与groupby()一起用

numpy.zeros()

python怎么取1358

在python中计算一个多维数组的任意百分比分位数，只需用np.percentile即可，十分方便import numpy as npa = print np.percentile(a,95) # gives the 95thpercentile补充拓展：如何解决hive同时计算多个分位数的问题众所周知，原生hive没有计算中位数的函数(有的平台会有)，只有计算分位数的函数percentile在数据量。

在学习python过程中数组是个逃不过去的一个关，既然逃不过去咱就勇敢面对它，学习一下python中数组如何使用。

数组定义和赋值python定义一个数组很简单，直接 arr = ; 现在arr数组已经被赋值了三个元素，其实这一步把数组定义和赋值都完成了，在开发中通常也是定义和赋值一步到位的。

Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。Python支持多种编程范型，包括函数式、指令式、结构化、面向对象和反射式编程。Python解释器易于扩展，可以使用C或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。Python也可用于可定制化软件中的扩展程序语言。Python拥有动态类型系统和垃圾回收功能，能够自动管理内存使用，并且其本身拥有一个巨大而广泛的标准库，提供了适用于各个主要系统平台的源码或机器码。

分享标题：python分位数函数 python 求分位数
标题来源：http://chengdu.cdxwcx.cn/article/dodggdh.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

python分位数函数 python 求分位数

聊聊python的分位数

Python pandas用法

python怎么取1358

其他资讯

如何选择老域名进行SEO优化？

好的企业网站建设方案内容

二手备案域名转让千万要注意这些！

win7代理服务器的设置和win7架设代理服务器的步骤

临沂网站网站建设费用一般需要多少钱？

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

python分位数函数 python 求分位数

聊聊python的分位数

Python pandas用法

python怎么取1358

其他资讯

如何选择老域名进行SEO优化？

好的企业网站建设方案内容

二手备案域名转让千万要注意这些！

win7代理服务器的设置和win7架设代理服务器的步骤

临沂网站网站建设费用一般需要多少钱？

成都网站建设设计将想法与焦点和您一起共享