成都网站建设设计

将想法与焦点和您一起共享

python日期去重函数,python字符串去重函数

python去重(汉字一样,里面的编码不一样)?

这是一个字符串的全角和半角的问题,可以导入 unicodedata 中的 normalize 函数先把全角转换为半角,然后再用 set 对列表去重,参考代码如下:

作为一家“创意+整合+营销”的成都网站建设机构,我们在业内良好的客户口碑。创新互联提供从前期的网站品牌分析策划、网站设计、成都做网站、成都网站设计、创意表现、网页制作、系统开发以及后续网站营销运营等一系列服务,帮助企业打造创新的互联网品牌经营模式与有效的网络营销方法,创造更大的价值。

from unicodedata import normalize

list3=['热菜','凉菜','凉菜','硬菜']

set(map(lambda s: normalize('NFKC', s), list3))

输出:

{'硬菜', '热菜', '凉菜'}

扩展:

“ NFKC”代表“Normalization Form KC [Compatibility Decomposition, followed by Canonical Composition]”,并将全角字符替换为半角字符,这些半角字符与Unicode等价。

python,格式化时间实例,求

对于像'Wed, 11 Apr 2012 09:37:05 +0800'的时间格式化可如下解:

date='Wed, 11 Apr 2012 09:37:05 +0800'

dd=datetime.datetime.strptime(date,'%a, %d %b %Y %H:%M:%S %z')

dd.strftime('%Y-%m-%d %H:%M:%S')

Python格式化日期时间的函数为datetime.datetime.strftime();由字符串转为日期型的函数为:datetime.datetime.strptime(),两个函数都涉及日期时间的格式化字符串,列举如下:

%a Abbreviated weekday name   

%A Full weekday name   

%b Abbreviated month name   

%B Full month name   

%c Date and time representation appropriate for locale   

%d Day of month as decimal number (01 - 31)   

%H Hour in 24-hour format (00 - 23)   

%I Hour in 12-hour format (01 - 12)   

%j Day of year as decimal number (001 - 366)   

%m Month as decimal number (01 - 12)   

%M Minute as decimal number (00 - 59)   

%p Current locale's A.M./P.M. indicator for 12-hour clock   

%S Second as decimal number (00 - 59)   

%U Week of year as decimal number, with Sunday as first day of week (00 - 51)   

%w Weekday as decimal number (0 - 6; Sunday is 0)   

%W Week of year as decimal number, with Monday as first day of week (00 - 51)   

%x Date representation for current locale   

%X Time representation for current locale   

%y Year without century, as decimal number (00 - 99)   

%Y Year with century, as decimal number   

%z, %Z Time-zone name or abbreviation; no characters if time zone is unknown   

%% Percent sign

Python实现对列表中重复元素进行去重的方法小结

1、运用新建字典的方式,去除重复的键

2、利用集合,直接将列表转化为集合,自动去重后转回列表。有一个问题,转换为集合的同时,数据无序了。

3、用列表的推导式

Python第19课:数据清洗之去错、去空、去重

Python 第19课:数据清洗之去错、去空、去重

时间 2019-02-01 下午3:30

主讲 刘培富

地点 四楼电教室

数据清洗是数据治理的关键环节,是指对获取的原始数据(也称“脏数据”)进行审查、校验、加工的过程,目的在于删除重复信息、纠正错误信息,保持数据一致性。

一般来说,数据清洗,主要是对数据进行去错、去空、去重处理。

针对一张包含姓名、身份证号码、车牌号码的数据表,建立纠错规则如下:

1.车牌号既不包含汉字赣,且不包含汉字饶。

2.身份证号码的年份既不等于19也不等于20,身份证号码的月份大于12,身份证号码的日期大于31。

3.身份证号码位数不等于18。

4.姓名的长度小于等于1。

二、去空

对于关键性数据,不允许为空,对于这类数据,要查询是否存在空值。

三、去重

在一张表中,有的数据列允许重复,有的数据列则不允许重复。例如,对于一张车主信息表来说,姓名、身份证号可以重复,因为存在一人登记多辆车的情形,这种重复,不能认为是错误。但是,车牌号则不允许重复,否则就存在业务逻辑的错误。所以,针对车牌号数据列,要进行去重。

通过以下SQL语句,可以列出重复的数据:

综上,数据清洗,既要懂技术,更要懂业务,否则无法正确制定清洗规则,导致数据清洗流于形式,达不到清洗的效果。


网站标题:python日期去重函数,python字符串去重函数
当前URL:http://chengdu.cdxwcx.cn/article/hcgcci.html