什么是python数据科学库

本篇文章给大家分享的是有关什么是python数据科学库，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

10年的玉山网站建设经验，针对设计、前端、开发、售后、文案、推广等六对一服务，响应快，48小时及时工作处理。成都营销网站建设的优势是能够根据用户设备显示端的尺寸不同，自动调整玉山建站的显示方式，使网站能够适用不同显示终端，在浏览器中调整网站的宽度，无论在任何一种浏览器上浏览网站，都能展现优雅布局与设计，从而大程度地提升浏览体验。创新互联建站从事“玉山网站设计”,“玉山网站推广”以来，每个客户项目都认真落实执行。

Python是门很神奇的语言，历经时间和实践检验，受到开发者和数据科学家一致好评，目前已经是全世界发展最好的编程语言之一。简单易用，完整而庞大的第三方库生态圈，使得Python成为编程小白和高级工程师的首选。

在本文中，我们会分享不同于市面上的python数据科学库（如numpy、padnas、scikit-learn、matplotlib等），尽管这些库很棒，但是其他还有一些不为人知，但同样优秀的库需要我们去探索去学习。

1、wget

从网络上获取数据被认为是数据科学家的必备基本技能，而Wget是一套非交互的基于命令行的文件下载库。ta支持HTTP、HTTPS和FTP协议，也支持使用IP代理。因为ta是非交互的，即使用户未登录，ta也可以在后台运行。所以下次如果你想从网络上下载一个页面，Wget可以帮到你哦。

安装

pip isntall wget

实例

import wget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)

Run and output

100% [................................................] 3841532 / 3841532
filename
'razorback.mp3'

2. Pendulum

对于大多数python用户来说处理时期（时间）数据是一件令人抓狂的事情，好在Pendulum专为你而来。它是python内置时间类的良好备选方案，更多内容可查看官方文档 https://pendulum.eustace.io/docs/

安装

pip install pendulum

实例

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours())

Run and output

3.imbalanced-learn

常见的机器学习分类算法都默认输入的数据是均衡数据，即假设训练集数据有A和B两个类别，A和B数据量大体相当。如果A和B数据量差别巨大，那么训练的效果会不理想。在实际收集和整理的数据，其实绝大多数是非均衡数据，这对于机器学习分类算法真的是个很大的问题。好在有imbalanced-learn库可以很好的解决这个问题。该库兼容scikit-learn，并且是作为scikit-learn-contrib项目的一部分。当你再遇到非均衡数据，记得试试它哦！

安装

pip install -U imbalanced-learn
#或者
conda install -c conda-forge imbalanced-learn

4. FlashText

在NLP任务重经常会遇到替换指代同一个意思的多个词语，或者从句子中抽取关键词。通常我们一般的做法是使用正则表达式来完成这些脏活累活，但如果要操作的词语数量达到几千上万，使用正则这种方法就会变得很麻烦。FlashText库是基于FlashText算法，该库的最强大之处在于程序运行时间不受操作词语数量影响，即运行时间与操作的词汇数量无关。因此特别适合应用到 python文本分析中去。

安装

pip install flashtext

实例

抽取关键词

我们都知道 Big Apple 指代纽约。所以抽取纽约这个城市词时候，我们要考虑到相同意思的不同词语。

from flashtext import KeywordProcessor

#设置关键词处理器
keyword_processor = KeywordProcessor()

#设置关键词及其近义词
keyword_processor.add_keyword('Big Apple', 'New York') #遇到Big Apple就会识别为New York
keyword_processor.add_keyword('Bay Area')

keywords_found = keyword_processor.extract_keywords("I love Big Apple and Bay Area.")

keywords_found

Run and output

['New York', 'Bay Area']

5. Fuzzywuzzy

这个库的名字就有点怪，但ta拥有强大的字符串匹配功能。可以轻松实现字符串比较比率（comparison ratios），分词比率（token ratios)等操作。它还可以方便地匹配保存在不同数据库中的记录。

安装

pip install fuzzywuzzy

实例

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Simple Ratio
print(fuzz.ratio("this is a test", "this is a test!"))
# Partial Ratio
print(fuzz.partial_ratio("this is a test", "this is a test!"))

Run and output!

97
100

以上就是什么是python数据科学库，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。

文章标题：什么是python数据科学库
路径分享：http://chengdu.cdxwcx.cn/article/pddehe.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

什么是python数据科学库

其他资讯

企业版mysql怎么装企业mysql版本

csgo不能再安全服务器玩 csgo不能在安全服务器游玩

GIS中的遥感技术 gis中的遥感技术有哪些

怎么连接本机的mysql 怎么连接本机的麦克风

GIS包含哪些技术 gis技术包括

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

什么是python数据科学库

其他资讯

企业版mysql怎么装 企业mysql版本

csgo不能再安全服务器玩 csgo不能在安全服务器游玩

GIS中的遥感技术 gis中的遥感技术有哪些

怎么连接本机的mysql 怎么连接本机的麦克风

GIS包含哪些技术 gis技术包括

成都网站建设设计将想法与焦点和您一起共享

企业版mysql怎么装企业mysql版本