数据挖掘_Tag标签_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
当前位置:程序员俱乐部 >>Tag标签 >> 数据挖掘 >>列表
1月19日,在国家天文台-阿里云天文大数据联合研究中心2017年度工作会议上,中国科学院国家天文台台长严俊、阿里云总裁胡晓明共同宣布启动“天文数据挖掘”天池大赛。[图注:严俊、胡晓明共同开启“天文数据挖掘”天池大赛]大赛要求参赛者对郭守敬望远镜(LAMOST)观测获得的上千维光谱数据进行分类,设计出高效高准确率的天体分类算法。组委会提供了郭守敬望远镜所采集到的百万级别的真实光谱数据,每一条光谱数据包含3690... 查看全文
· 7种常用的互联网数据挖掘技术发布时间:2015-04-07
数据挖掘的技术有很多种,按照不同的分类有不同的分类法。下面着重讨论一下互联网数据挖掘中常用的一些技术:统计技术,关联规则,连接分析,决策树,神经网络,差别分析,概念描述七种常用的互联网数据挖掘的技术。1、统计技术数据挖掘涉及的科学领域和技术很多,如统计技术。统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。2、关联规则数据关联是数据库中存在的一类重要的可被发现的知识... 查看全文
每年一到要找工作的时候,我就能收到很多人给我发来的邮件,总是问我怎么选择他们的offer,去腾讯还是去豆瓣,去外企还是去国内的企业,去创业还是去考研,来北京还是回老家,该不该去创新工场?该不该去thoughtworks?……等等,等等。今年从7月份到现在,我收到并回复了60多封这样的邮件。我更多帮他们整理思路,帮他们明白自己最想要的是什么。(注:我以后不再回复类似的邮件了)。我深深地发现,对于我国这样从小被父母和老师安排各种事情长大的人,当有一天... 查看全文
大数据时代,虽然数据安全被一而再的强调,但是人们显然更乐于大数据和数据发掘的探索。无论是商业、医学、政治等领域,从巨量数据中提取出有用的信息,创造有用的价值都是各个领域在不断努力的方向。以下为原文:泄密者爱德华·斯诺登(EdwardSnowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒。奥巴马当局声称,监听数据带来了安全,然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。数据不是信息,而是有待理解的原材料... 查看全文
· 数据挖掘笔记-分类-决策树-5发布时间:2014-05-28
上篇文章里面虽然结合hadoop用到mapreduce去计算属性的增益率,但是发现整个程序似乎也并没有做到并行化处理。后面又看了一些网上的资料,自己又想了想,然后又重新实现了一下决策树,大体思路如下:1、将一个大数据集文件拆分成N个小数据集文件,对数据做好预处理工作,上传到HDFS2、计算HDFS上小数据集文件的最佳分割属性与分割点3、汇总N个小数据集文件的最佳划分,投票选出最佳划分4、N个小数据集的节点根据最终的最佳划分,分割自己节点上的数据,上传到HDFS,跳转到第二步下面是具体的实现代码... 查看全文
· 数据挖掘算法之决策树算法发布时间:2014-04-29
今天主要讲到的是决策树算法,这是一种非常经典的分类算法,经过数据集的训练,能够高效的判断出一个数据项所属的类别。决策树算法是一种有监督的学习,也就是说会事先给定一定类别和数据集合。通过学习,能够判定出进来数据所属的类。当然,很多聚类算法都是无监督学习的,我们以后再进行讨论。顾名思义,决策树是一颗树形的数据结构,决策树可以是多叉树也可以二叉树。决策树实际上是一种基于贪心策略构造的,每次选择的都是最优的属性进行分裂。常用的决策树算法有ID3,C4.5。其实这两种算法本质上是一样的... 查看全文
据一名熟知内情的消息人士透露,大数据挖掘分析公司PalantirTechnologies即将宣布一个新的融资回合,该融资回合对这家公司的估值将会达到90亿美元左右。Palantir成立于2004年,其客户包括美国中情局(CIA)和联邦调查局(FBI)等。消息人士称,在周四向美国证券交易委员会(SEC)提交的证券文件中,Palantir预计将披露信息称,该公司在这个最新的融资回合中筹集了5800万美元资金。该消息人士透露,Palantir可能会将这个融资回合中的筹资额扩大至最多1亿美元... 查看全文
2013-11-1917:25:37来源:网易科技报道有1人参与分享到11月19日消息,在今日中兴努比亚新品发布会上,京东首次对外公布了“JDPhone计划”,将通过对消费者的数据挖掘定制手机。京东副总裁王笑松今日透露了上述计划。王笑松表示,京东已经有一亿以上的注册用户,已经销售3000多万部智能手机,已经具备了通过对用户的积累和反馈,进而定制手机的能力。根据京东方面介绍,该计划已经酝酿一年多,主要锁定价格在1500-2000元的手机用户... 查看全文
美国专业数据挖掘公司SocialgistSocialgist周二宣布,该公司已与人人达成合作关系。Socialgist称,对于来自人人的社交媒体数据,该公司是首家中国大陆市场以外的官方数据提供商。Socialgist的主要业务是为数量庞大的社交媒体分析、研究和商业情报平台提供社交数据解决方案。Socialgist总裁达伦·凯利(DarrenKelly)表示:“全球品牌正在继续提高自身投资,以更好地了解和接触全球消费者。与人人达成合作一直都是我们的首要任务... 查看全文
英文原文:29FreeeBooksOnDatabases,DataMiningAndInformationRetrieval信息检索、数据库和数据挖掘是IT世界目前最流行的事情!要对这方面的知识了解更多,可以在线阅读和下载下面29本绝对免费的电子书。阅读愉快!1.高级文本挖掘理论及其应用ShigeakiSakurai编写,InTech在2012年出版为了从数据中取知识,文本挖掘技术得到了积极地研究。这本书介绍了高级文本挖掘技术。其中包括从关系获取到实力不强的语言的各种技术。2... 查看全文
英文原文:HowdoyouexplainMachineLearningandDataMiningtononComputerSciencepeople?有网友在Quora上提问:对于那些非计算机科学行业的人,你会如何向他们解释机器学习和数据挖掘?斯坦福大学的印度学生、机器学习爱好者PararthShah在2012年12月22日的回复,非常经典,得赞数有3700+。下面内容,由@jiqihuman编译。买点芒果去假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑... 查看全文
ThinkUp是个消费级别的数据挖掘应用,它为普通的个人提供科技和市场营销公司常做的数据解析服务。只不过ThinkUp在理念上更尊重用户的利益,更注重通过社交网络数据的解读让用户进一步的发现自己。打通Facebook、Twitter和Instagram等社交网络,它以故事化的图说方式帮你提炼出生活中有价值的事情,让用户以一种更细腻、更贴近生活的方式利用社交网络。比如它可能会把这些信息汇集起来告诉你,这周Facebook上最关注你的人是谁,哪个朋友是不是刚好住在附近,你最近是不是有点太自恋... 查看全文
· 神奇的数据挖掘发布时间:2013-10-10
谈到BI,就会谈到数据挖掘(Datamining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例子来学习什么是数据挖掘。案例“上大学分析”-体验什么是数据挖掘某社会机构,收集了大量的学生考大学的数据。该机构希望找出一些规律,以推动更多的学生考大学。该机构委托你来做这个分析工作,给出具体的可以推动更多学生考大学的建议。收集到的数据如下:你可能会考虑用SQL语句进行查询分析。但问题是:1.用什么语句查呢?要组合什么条件呢... 查看全文
8月28日消息,百度地图官方微博今日发布消息称,百度导航未来将“永久免费”。在此前的百度世界大会LBS分论坛中,百度方面表示百度导航即将进行全新升级,未来的发展方向将是云技术和大数据挖掘。数据显示,百度导航目前拥有3500万地标信息,344个城市卫星图,500万商户,及420万公里路网实况信息。... 查看全文
· 谷歌与Facebook的数据挖掘之战发布时间:2013-08-22
科技博客AllthingsD对谷歌与Facebook的关系数据业务进行了分析,并指出关系数据(Affinitydata)业务将是未来互联网巨头的又一块大蛋糕。作者认为谷歌在诸多方面都有着Facebook无法比拟的优势。所以即使Facebook主导社交网络,但是谷歌会赢下关系数据之战。以下是文章主要内容:每个月,用户在Facebook上点“赞”超过80亿次。他们在Twitter上更新发布超过10亿条信息,在亚马逊和Yelp网站上撰写写的数以百万计的产品评论... 查看全文
· 五个免费开源的数据挖掘软件发布时间:2013-07-26
在网上看到一篇文章介绍五个免费开源的数据挖掘软件,转过来。OrangeOrange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++和Python开发,它的图形库是由跨平台的Qt框架开发。RapidMinerRapidMiner,以前叫YALE... 查看全文
Twitter不仅是一个绝妙的实时社交网络工具,其还是一个可供数据挖掘用的丰富信息的来源。平均而言,Twitter用户每天生成一亿四千万条关于各种主题的消息。本文向你介绍数据挖掘,并说明面向对象的Ruby语言的一些概念。阅读全文...... 查看全文
· 马云的秘密武器:数据挖掘发布时间:2011-01-03
导语:最新一期英国《经济学人》杂志印刷版撰文称,阿里巴巴手中掌握着中国中产阶级的大量购物数据,可以借此开展更多业务,另外一个有潜力的领域是信贷。阿里巴巴已经成为了中国电子商务之王。以下为文章全文:小个子马云脱颖而出墙上挂着十几个大屏幕,地图不停地闪动,数字则不断地滚动着。阿里巴巴集团的“实时数据检测室”为我们提供了一幅繁忙的景象:中国企业与外国企业之间的交易;中国消费者之间的服装交易。阿里巴巴旗下各类网络服务的用户大约为5亿人。作为该集团的创始人,个子矮小的马云笑着说... 查看全文
据Oracle官方博客最近更新的NewRInterfacetoOracleDataMiningAvailableforDownload,甲骨文开始正式支持R语言在Oracle数据库中的应用(简单的非官方说法是:甲骨文贡献了一个提供Oracle和R之间接口的附加包)。援引博客中对R-ODM(R-OracleDataMining)的介绍:R-ODMisespeciallyusefulfor:Quickprototypingofverticalordomain... 查看全文