基于机器学习(machine learning)的SEO实战日记3--构思_JAVA_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > JAVA > 基于机器学习(machine learning)的SEO实战日记3--构思

基于机器学习(machine learning)的SEO实战日记3--构思

 2019/12/5 12:51:02  黄国甫  程序员俱乐部  我要评论(0)
  • 摘要:在明确了切入点以后,就可以着手开发了,但在动手之前,还需要理清思路,好让我们的每一步都方向明确的,避免在迷茫中胡乱写代码。所以本篇的任务是梳理思路,包括明确目标、确定所需的资源、主要的实现步骤;一、目标:观察Searchviu网站中给出的案例,可以知道,它的目标是找出可以让网页排名进谷歌前十的热词,同时找出该词应该在的位置。当然这也可以作为我们的目标,简单的说,我们的目标就是百度SEO,提升网站排名,SEO的目的是提升网站流量;为了实现这个目标,我们需要“找出访问量大,竞争又不激烈的词”
  • 标签:学习 machine SEO Mac
    在明确了切入点以后,就可以着手开发了,但在动手之前,还需要理清思路,好让我们的每一步都方向明确的,避免在迷茫中胡乱写代码。所以本篇的任务是梳理思路,包括明确目标、确定所需的资源、主要的实现步骤;
一、 目标:
观察Searchviu网站中给出的案例,可以知道,它的目标是找出可以让网页排名进谷歌前十的热词,同时找出该词应该在的位置。当然这也可以作为我们的目标,简单的说,我们的目标就是百度SEO,提升网站排名,SEO的目的是提升网站流量;为了实现这个目标,我们需要“找出访问量大,竞争又不激烈的词” (看上去像是矛盾的) 。
二、 资源:
做SEO,当然需要有个网站,网站由域名、服务器、web应用服务器、web应等组成;至于如何搭建网站不在本系列的博客讨论范围中,读者如果需要了解相关的知识可以到网络上找相关资料;所以此处假设读者已经搭建了一个网站;除了网站,做ML我们还需要数据和算法,Searchviu网中描述的数据是从SEMrush直接获取,而我们没有SEMrush的账号,由于网络原因,也无法注册该网站;所以相关的数据需要我们自己从互联网抓取。以下列出此次准备的资源清单:
1)51msg.net 网站(读者可替换成自己的网站),这个网站是作者搭建的开发测试用网站,目前除了有一些爬虫和攻击访问外,就是作者本人在访问,此外就没有其他人访问了。
2)jsoup、httpclient (基于java的网页抓取工具类包)
3)weka、xbgoost(基于java的机器学习算法工具包)
三、 步骤:
1、 准备搜索关键词:搜索、搜索引擎、搜索导航、搜索大全、搜索引擎大全、国外搜索引擎、网页搜索、谷歌搜索、谷歌镜像、综合搜索;
2、 从百度搜索结果,并抓取数据,每个词60页,总共6000条记录,保存到数据库中;
3、 抓取网站内容,并进行保存;
4、 对网页内容进行分词、统计词频、抓取每个词的百度指数(热度),将结果保存到数据库中;
5、 对词进行排序(热度、词频梳理),根据词进行百度搜索抓取,每个词10页,预计抓取50万条记录,保存到数据库中;
6、 准备模型训练数据和测试数据(比例10:1),关键词、title中出现次数、description中出现次数、keywords中出现次数、其他地方出现次数、 网页排名;
7、 训练模型、测试模型结果;
8、 输出预测数据,关键词、关键词在网页中各个地方出现,可能获得的网页排名;
9、 根据预测结果,修改网站首页,等待百度爬虫抓取,观察实际排名变化,观察网站流量
10、 总结效果。
上一篇: 海南供卵生孩子试管选性别包男孩18823350811 下一篇: 没有下一篇了!
发表评论
用户名: 匿名