[Kaggle实战] Titanic 逃生预测 (1) - 项目起步_JAVA_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > JAVA > [Kaggle实战] Titanic 逃生预测 (1) - 项目起步

[Kaggle实战] Titanic 逃生预测 (1) - 项目起步

 2014/6/2 0:20:38  RangerWolf  程序员俱乐部  我要评论(0)
  • 摘要:这次实战的Kaggle比赛,其实只是其中一个没有奖金的公益比赛。主页:http://www.kaggle.com/c/titanic-gettingStarted主题是:Titanic:MachineLearningfromDisaster在比赛之中,官方给出了一些原始的一半的数据作为比赛用的训练集与测试集。另外一半作为官方自己的测试集。最后成绩评定也是会使用官方自己留着的一半数据进行评比。注意:有一个取巧的方式,那就是去网上去搜索全部原始数据并依此为基础提交算法。好吧,我用的是比这个笨的方法
  • 标签:项目

这次实战的Kaggle比赛,其实只是其中一个没有奖金的公益比赛。

主页:?http://www.kaggle.com/c/titanic-gettingStarted

主题是:

Titanic: Machine Learning from Disaster

在比赛之中,官方给出了一些原始的一半的数据作为比赛用的训练集与测试集。另外一半作为官方自己的测试集。最后成绩评定也是会使用官方自己留着的一半数据进行评比。

注意: 有一个取巧的方式,那就是去网上去搜索全部原始数据并依此为基础提交算法。 好吧,我用的是比这个笨的方法:)

?

?

在这里介绍一下,我比较擅长的是java,并且也希望使用java完成这次比赛。

如果希望使用Python,可以参考:http://triangleinequality.wordpress.com/2013/09/05/a-complete-guide-to-getting-0-79903-in-kaggles-titanic-competition-with-python/

?

为了完成这次比赛,首先需要下载官方的数据集。



?训练集用Excel打开之后的样子:




?

下面解释一下训练集之中的数据:

PassengerId 旅客ID? 这条数据应该没啥用 Survived 是否活下来了,1:yes ?0:no 这个应该是对我们很有用的一个数据 Pclass ?旅客等级 1 2 3 分别代表不同的等级 ? Name 名字? ? ?Sex ?性别 ? ?Age ?年龄 ? ?SibSp

?有多少兄弟姐妹/配偶同船

Number of Siblings/Spouses Aboard

? ?Parch

?有多少父母/子女同船

Number of Parents/Children Aboard

? ?Ticket

?船票号码?

? ?Fare ?船票收费 ? ?Cabin ?所在小屋 ? ?Embarked

?登船城市

Port of Embarkation

?C Q S 分别代表不同的城市

? ? ?

?

最后,在打开看了一下训练数据之后,第一反应就是使用决策树来实现预测功能。

?

下一篇文章将讲诉我是如何进行 数据预处理 的

  • 大小: 13.8 KB
  • 大小: 14.7 KB
  • 查看图片附件
发表评论
用户名: 匿名