python-sklearn学习

Scikit-Learn是用Python开发的机器学习库，其中包含大量机器学习算法、数据集，是数据挖掘方便的工具。可使用pip工具，在安装前需要安装NumPy和SciPy，打开一个命令行中端并输入：

pip install -U scikit-learn

基本操作：

1.数据加载：

Scikit拥有优秀的numpy，pandas接口，

对于具有一定格式的文本文件或二进制文件，可使用NumPy进行数据加载：

import numpy as np

data_file='dataset.txt'

所以对于通常csv文件，pandas库提供的pandas.read_csv能够快速的加载并根据提供的参数可进行数据的处理，生成DataFrame:

import pandas as pd

df=pd.read_csv('data.csv')

X=np.load_txt(data_file)

对于其他格式的文件，可以自由处理并加载到二维数组中，最终可生成DataFrame

2.数据处理：

在将数据加载到DataFrame中后可方便地对数据进行处理，也可以方便地进行特征选择与提取，对于scikit的机器学习方法，视情况导入数据。

3．方法：

Sklearn中有多种类型方法方便我们使用。常见的SVM SVR K-MEANS PCA等都有例子。

这里我们先举一个小例子：

Nearest Neighbors Classification

对于主页面中的Nearest Neighbors Classification点击一下鼠标左键。进入其页面之后可以看到

可以看到这个函数的相关例子，因为是官方的例子所以很好理解。

同时官方还提供python的源代码文件。以及jupyter上的ipynb文件。方便我们学习。

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did163081

更新时间：2023-01-02 阅读：68次