Python
帮助文档
语言包
- NLTK
- NumPy/SciPy
NumPy是一个科学计算库。 - pandas
官网,开源数据分析库。 - Scikit-learn
官网
Scikit-learn是传统的机器学习库,提供了完整的特征工程工具,比如归一化、one-hot编码,实现了很多经典机器学习算法,如线性回归、决策树、各种Boost、SVM、神经网络,并封装成为类库模块,运行于CPU,最后还有交叉验证等评估工具。如果是深度学习框架请选用tensorflow。 - Matplotlib
官网pyplot模块提供一个MATLAB-lik接口。- 安装方法1
tony:~ xdwang$ pip3 install matplotlib - 安装方法2:
git clone https://github.com/matplotlib/matplotlib
cd matplotlib
python3 -mpip install . - 安装方法3:
在tensorflow中安装matplotlib的方法
git clone https://github.com/matplotlib/matplotlib
cd matplotlib
source /var/app/software/tensorflow/bin/activate
python3 -mpip install . - matplotlib跨越tensorflow虚拟环境的问题
注意:在tensorflow虚拟环境的python3中使用matplotlib是需要修改配置文件 ~/.bash_profile,增加如下
function fwpython3 {
if [[ ! -z "$VIRTUAL_ENV" ]]; then
PYTHONHOME=$VIRTUAL_ENV /usr/local/bin/python3 "$@"
else
/usr/local/bin/python3 "$@"
fi
}
然后在tensorflow虚拟环境下运行fwpython3
tony:data xdwang$ source /var/app/software/tensorflow/bin/activate
(tensorflow) tony:data xdwang$ fwpython3 test1.py
test1.py的代码如下:
import matplotlib.image as img
import matplotlib.pyplot as plot
myfile = "abc.png"
myimage = img.imread(myfile)
plot.imshow(myimage)
plot.show()
- 安装方法1
- TextTeaser
python代码github下载, TextTeaser是用于nlp自动摘要的一个python框架库。其商业支持由DataTeaser提供。 - xlrd
用于从excel中抽取数据。
安装方法 tony:~ xdwang$ pip3 install xlrd
精编教程
变量
var_float=1.23
var_bool=True
var_int=2注释
单行主使用#,多行注释使用两个三引号"""把块括起来。数学计算
加法+,减法-,求密**,除法/,求模%,字符串
三种方法创建字符串:
'Alpha'
"Bravo"
str(3)
字符串方法:
len("Charlie")
"Delta".upper()
"Echo".lower()
打印字符串:
print "Foxtrot"
高级打印字符串:
g = "Golf"
h = "Hotel"
print "%s, %s" % (g, h)-
内置数据类型
Python中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。python内置
数据类型包括- int、float、bool、complex(复数)
a, b, c, d = 20, 5.5, True, 4+3j - str
s = 'Yes,he doesn't',Python中的字符串str用单引号(‘ ')或双引号(“ ”)括起来,同时使用反斜杠()转义特殊字符,Python中的字符串不能改变;字符串有两种索引方式,从左往右以0开始,从右往左以-1开始。 - list(列表)
a = ['him', 25, 100, 'her'] ,列表中元素的类型可以不相同,列表中的元素是可以改变的。 - tuple(元组)
a = (1991, 2014, 'physics', 'math'),元组中的元素类型也可以不相同,元组的元素不能修改,但它可以包含可变的对象,比如list列表。 - set(集合)
student = {'Tom', 'Jim', 'Mary', 'Tom', 'Jack', 'Rose'},set是一个无序不重复元素的集。 - dictionary(字典)
tel = {'Jack':1557, 'Tom':1320, 'Rose':1886} ,一个无序的键 : 值对集合
- int、float、bool、complex(复数)
-
容器数据类型
collections模块在python内置数据类型的基础上,提供了几个额外的数据类型。- namedtuple(): 生成可以使用名字来访问元素内容的tuple子类
- deque: 双端队列,可以快速的从另外一侧追加和推出对象
- Counter: 计数器,主要用来计数
- OrderedDict: 有序字典
- defaultdict: 带有默认值的字典
- ChainMap: ChainMap类可把多个字典或者其它映射对象放在一起,组成一个单一的、可更新的映射对象。
- UserDict: 用户自定义字典类UserDict,它是封装了一个字典类dict。主要使用来拷贝一个字典的数据,而不是共享同一份数据。
- UserList: 用户自定义列表类UserList
- UserString: 用户自定义字符串类UserString
-
模块Modules
一个模块就是一个文件,以.py结尾。- 模块引用
import fibo
fibo.fib(1000)
1 1 2 3 5 8 13 21 34 55 89 144 233 377 610 987
fibo.name //name是模块缺省的一个成员,其值为该模块的名字
也可以通过另一种方式引用模块:
from fibo import fib, fib2
fib(500) - 模块执行
python3 fibo.py <arguments> - 标准模块
python解释器自带一些标准模块。import sys ,import builtins,from collections import Counter, - dir()函数
dir(modulename)列出指定模块中所有的命名列表。dir()列出当前模块中所有的命名列表。 - 包Packages
包是模块的路径,模块相当于java的类文件,包相当于java的包名。如下echo是模块名字。
import sound.effects.echo
sound.effects.echo.echofilter(input, output, delay=0.7, atten=4)
或者
from sound.effects import echo
echo.echofilter(input, output, delay=0.7, atten=4)
或者
from sound.effects.echo import echofilter
echofilter(input, output, delay=0.7, atten=4)
- 模块引用