机器学习:Python实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.1 CSV文件

CSV文件是用逗号(,)分隔的文本文件。在数据导入之前,通常会审查一下CSV文件中包含的内容。在审查CSV文件时,通常要注意以下几个方面。

5.1.1 文件头

如果CSV的文件里包括文件头的信息,可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息,需要自己手动设定读入文件的字段属性名称。数据导入时,设置字段属性名称,有助于提高数据处理程序的可读性。

5.1.2 文件中的注释

在CSV文件中,注释行是以“井”号(#)开头的。是否需要对读入的注释行做处理,取决于采用什么方式读入CSV文件。

5.1.3 分隔符

CSV文件的标准分隔符是逗号(,),当然也可以使用Tab键或空格键作为自定义的分隔符。当使用这两种分隔符时,文件读取是要指明分隔符的。

5.1.4 引号

当有的字段值中有空白时,这些值通常都会被引号引起来,默认使用双引号来标记这些字段值。如果采用自定义格式,那么在文件读取时要明确在文件中采用的自定义格式。