好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

PythonForDataAnalysis学习之路

在引言章节里,介绍了MovieLens 1M数据集的处理示例。书中介绍该数据集来自GroupLens Research(),该地址会直接跳转到,这里面提供了来自MovieLens网站的各种评估数据集,可以下载相应的压缩包,我们需要的MovieLens 1M数据集也在里面。

下载解压后的文件夹如下:

这三个dat表都会在示例中用到。我所阅读的《Python For Data Analysis》中文版(PDF)是2014年第一版的,里面所有示例都是基于Python 2.7和pandas 0.8.2所写的,而我安装的是Python 3.5.2与pandas 0.20.2,里面的一些函数与方法会有较大的不同,有些是新版本中参数改变了,而有些是新版本里弃用了某些旧版本的函数,这导致我运行按照书中示例代码时,会遇到一些Error和Warning。在测试MovieLens 1M数据集代码时,在和一样我的配置环境下,会遇到如下几个问题。

在将dat数据读入到pandas DataFrame对象中时,书中给出代码为:

users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)

rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)

mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames) 

查看更多关于PythonForDataAnalysis学习之路的详细内容...

  阅读:41次