前言
这次给大家带来的是pandas库的介绍及应用,pandas库作为python最有用的库之一,是以Numpy库为基础设计的,能进行数据处理、数据抽取和数据操作,是一个非常方便的数据分析工具。
首先学习pandas的安装,跟python众多库的安装类似。第一,可以利用Anaconda安装,之前的报道中就已经介绍过Anaconda的安装了,在这里就不做详细的介绍。使用Anaconda的方式安装,命令为conda install pandas,更新pandas的命令是conda update pandas。第二,可以使用PyPI安装,命令也十分简单,pipinstall pandas。
接下来我们可以测试pandas是否安装成功,安装后,可以使用以下命令进行测试:nosetests pandas,可能会花费几分钟的时间。(注:确保nose模块已经安装)
下面介绍本篇报道的重点,pandas有两种主要的数据结构:Series和DataFrame。
(1)Series对象
Series对象是用来表示一维的数据结构,类似于数组,但是数据都有一个标签—index。调用Series()构造函数,以数组的形式把数据存入Series中。
声明Series时,若不给定标签,pandas就会默认从0开始递增的整数做为标签。我们有时需要自己指定index,标签为字符串类型。
Series有两个属性,分别是index(索引)和values(元素)。
调用Series中的元素时,可以使用标签调用,也可以使用索引调用,可以调用单个元素,也可以调用多个因素。
为元素赋值的话,大家就明白了,使用索引跟标签的方式来赋值就可以了。
Series对象的运算
适用于Numpy的运算符和其他数学函数在Series中也适用。
Series对象之间也可以进行运算,优点是能够识别标签对齐不一致的数据。
这就是今天所使用的所有代码,都特别简单,但是在应用中,还是要不断尝试,小编也是初学者,带大家了解的十分有限。
下次带大家了解pandas的另一种数据结构—DataFrame。
往期「 精彩内容 」,点击回顾
DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位
BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析
乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图
KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵
精彩会议及课程 ,点击回顾
计算表观遗传学大数据前沿学术论坛会议记实
哈尔滨医科大学2017年全国生物信息学暑期学校
2017龙星课程系列(一)
2017龙星课程系列(二) 2017龙星课程系列(三)
2017龙星课程系列(四)
2017龙星课程系列(五)