Scikit-Learn是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。可使用pip工具,在安装前需要安装NumPy和SciPy,打开一个命令行中端并输入:
pip install -U scikit-learn
基本操作:
1.数据加载:
Scikit拥有优秀的numpy,pandas接口,
对于具有一定格式的文本文件或二进制文件,可使用NumPy进行数据加载:
import numpy as np
data_file='dataset.txt'
所以对于通常csv文件,pandas库提供的pandas.read_csv能够快速的加载并根据提供的参数可进行数据的处理,生成DataFrame:
import pandas as pd
df=pd.read_csv('data.csv')
X=np.load_txt(data_file)
对于其他格式的文件,可以自由处理并加载到二维数组中,最终可生成DataFrame
2.数据处理:
在将数据加载到DataFrame中后可方便地对数据进行处理,也可以方便地进行特征选择与提取,对于scikit的机器学习方法,视情况导入数据。
3.方法:
Sklearn中有多种类型方法方便我们使用。常见的SVM SVR K-MEANS PCA等都有例子。
这里我们先举一个小例子:
Nearest Neighbors Classification
对于主页面中的Nearest Neighbors Classification点击一下鼠标左键。进入其页面之后可以看到
可以看到这个函数的相关例子,因为是官方的例子所以很好理解。
同时 官方还提供python的源代码文件。以及jupyter上的ipynb文件。方便我们学习。
查看更多关于python-sklearn学习的详细内容...