首页 欧洲联赛正文

代刷,数据科学中一些不常用但很有用的Python库,白灼虾

作者:Parul Pandey

编译:ronghuaiyang

导读

提到数据科学的python包,咱们想到的估量是numpy,pandas,scikit-learn之类的,这儿给咱们如此爱老婆介绍一些不常台妹中文用,可是十分有用的python包,就像是痒痒挠,虽然大部分时刻用不上,可是真要用起来,仍是挺爽的。

Python是个了不得的言语。事实上,追客小说网这是世界上开展最快的言语之一(感觉没有之一,便是最快的)。在数据科学范畴和开发范畴,一次又一次的为咱们供给便当。整个Python的生态和库使之成为一切用户都适用(初学者和高档用户)。Python之所以这么成功,原因之一就在于它的库,让Python变得灵敏快速。

这篇文章中,咱们会看一些不太常用的数据科学的库,除了pandas,scikit-learn,matplotlib等。虽然提到数据科学,咱们想到的便是pandas和scikit-learn,了解一下其他的python的库也没什么害处。下面便是别的一些数据代刷,数据科学中一些不常用但很有用的Python库,白灼虾科学中可能会用到的Python库。


Wget

从网络获取数据是Python科学家十分重要的使命。Wget是一个免费的东西,能够从Web上非交互式的下载文件,支撑HTTP, HTTPS, 和 FTP协议,相同支撑HTTP署理。因为对错交互式的,所以能够后台运转,用户没有登录也能够。所以下次你需求从网上下载图片的时分,能够试试wget。

装置:

$ pip install wget

比如:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'
filename = wget.download(url)
100% [................................................] 3841532 / 384153代刷,数据科学中一些不常用但很有用的Python库,白灼虾2
filename
'razorback.mp3'

Pendulum

这个是干啥的呢,你在处理日期时刻的时分搞得头大的时分,Pendulum就很合适你,这包是用来简化日期时刻的操作的,详细运用能够看 这儿 。

装置:

$ pip install pendulum

比如:

import pendulum
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetim壕me(2012, 1, 1, tz='America/Vancouver')
print(dt_va拟细鲫ncouver.diff(dt_toronto).in_hours())
3

imbalanced-learn

大多数的美少女学院分类问题中,当一切的类别中的样本的数量大致相同双子母时,作用是最古代男男好的,也便是样本均衡。可是在实际情况中,往往都对错均衡的数据,这小洋葱说明往往会影响练习的进程以及后边的猜测。幸亏,这个库能够帮咱们处理这个问题。这个和scikit-learn兼容,是scikit-learn-contrib的一部分。下次能够试试。

装置:

pip insta翁静晶香港风险人物ll -U imbalanced-learmiwivonn
# or
conda install -c conda-forge imbalanced-learn

比如:

请参阅文档。

FlashText

在清洗NLP相关的数据的时分,往往需求替换一些关键词或许提取一些关键词。一般,能够用正则表达式来干这个活,不过正则条件的数量上千的时分,就会很头大。FlashText是根据FlashText算法的一个模块,供给了这种情况下的一个代替东西,FlashText最好的当地在于运转时刻是和查找的条件的数量不相关的。更多的信息能够代刷,数据科学中一些不常用但很有用的Python库,白灼虾看这儿。

装置:

$ pip代刷,数据科学中一些不常用但很有用的Python库,白灼虾 install flashtext

比如:

提取关键词

from flashtext import KeywordProc2018jessor
keyword_processor = KeywordProcessor()
# keyword_processor.add_keyword(,少年同性恋 )
keyword_processor.add_keyword('Big Apple', 'New York')
k京野eyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found
['New York', 'Bay Area']

替换关键词

keyword_processor.add_keywor南昌祝守d('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence
'I love New York and NCR region.'

Fuzzywuzzy

姓名听起来怪怪的,不过在字符匹配的时分,用起来仍是爽爽的。能够轻松的完成字符份额,token份额等。还能够在不同的数据会集进行匹配。

装置:

$ pip install fuzzywuzzy

比如:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# Simple Ratio
fuzz.ratio("this is a test", "this is a代刷,数据科学中一些不常用但很有用的Python库,白灼虾 test!")
97
# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")
100

PyFlux

时刻序列的处理是机器学习范畴常常遇到的问题。PyFlux便是专门用来处理时刻序列问题的开源Python库。这个库里有一系列的时刻序列模型如ARIMA代刷,数据科学中一些不常用但很有用的Python库,白灼虾, GARCHVAR 等。简略来说,PyFlux供给了时刻序列到概率的建模,值的一试。

装置

pip install pyflux

比如

参阅这儿 。

Ipyvolume

沟通成果是数据科学的十分重要的方面。成果可视化是个非师傅不要全文免费阅览常重要的优势。IPyvolume是个3D可视化库,不过这仍是在pre-1.0的阶段,能够这样类别一下, IPyvolume是对3维数据的可视化,matplotlib是对二维数据代刷,数据科学中一些不常用但很有用的Python库,白灼虾的可视化。详细能够看 这儿。

装置

Using pip
$ pip install ipyvolume
Conda/Anaconda
$ conda install -c conda-forge ipyvolume

比如

  • 符号

  • 烘托


Dash

这是个创立web使用的用户出产的Python结构。根据Flask写的,能够用来构建数据可视化的app,这些app能够在网络浏览器上烘托。用户手册可见 这儿河池学院图书馆.

装置

pip install dash==0.29.0 # The core dash backend
pip install dash-html-components==0.13.2 # HTML components
pip install dash-core-components循组词==0.36.0 # Supercharged components
pip install dash-table==3.1.3 # Interactive DataTable component (new!)

比如

G汪汀ym

Gym来自OpenAI,用来做强化学习。兼容一切的数值核算库,如TensorFlow,Theano等。这个库供给了一个问题测验的环境,你能够用这个环境来试验你的强化学习算法。这些环境同享界面,使你能够写通用的算法。

装置

pip install gym

比如



定论

这是我选的一些有用可是不常用的python库,假如你知道其他的话,能够持续增加,别忘了先试试。

请长按或扫描二维码重视本大众号

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。