机器学习:Python实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.2 导入数据

导入项目所需的类库和鸢尾花(Iris Flower)数据集。

3.2.1 导入类库

导入在项目中将要使用的类库和方法。代码如下:

    # 导入类库
   from pandas import read_csv
   from pandas.plotting import scatter_matrix
   from matplotlib import pyplot
   from sklearn.model_selection import train_test_split
   from sklearn.model_selection import KFold
   from sklearn.model_selection import cross_val_score
    from sklearn.metrics import classification_report
    from sklearn.metrics import confusion_matrix
    from sklearn.metrics import accuracy_score
    from sklearn.linear_model import LogisticRegression
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.naive_bayes import GaussianNB
    from sklearn.svm import SVC

所有类库的导入都不应有错误提示。如果出现了错误提示,那么暂时停下来,先设置一个能够运行的SciPy环境。

3.2.2 导入数据集

我们可以在UCI机器学习仓库下载鸢尾花(Iris Flower)数据集(http://archive.ics.uci.edu/ml/datasets/Iris),下载完成后保存在项目的统计目录中。在这里将使用Pandas来导入数据和对数据进行描述性统计分析,并利用Matplotlib实现数据可视化。需要注意的是,在导入数据时,为每个数据特征设定了名称,这有助于后面对数据的展示工作,尤其是通过图表展示数据。代码如下:

    # 导入数据
   filename='iris.data.csv'
   names = ['separ-length',  'separ-width',  'petal-length',  'petal-width',
   'class']
   dataset=read_csv(filename, names=names)