找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 40862|回复: 45

火车头的终极伪原创(一)

[复制链接]
发表于 2009-7-7 10:42:43 | 显示全部楼层 |阅读模式
火车头的终极伪原创(一)
通常我们采集的文章都不包含关键词,这些文章的标题八辈子也不会有一个人搜索,所以鄙人想出一个办法,用火车头给文章加上关键词。
采集的时候加个[标签:百度],使用跨页采集的方法采集以标题作为关键词去采集百度的相关搜索,这10个相关搜索都是因为有很多人搜索才显示的,而且和内容是相关的,这样包含关键词的伪原创文章才是我们需要的。
比如一篇文章:家有痴呆的老人
采集百度相关搜索的10个词语分别是:老人痴呆症 老人痴呆 家有老人 家有老人是个宝 老年痴呆有什么症状 老人家读老人与海有感 喝红酒有益老人 老人言有听头 老人之家
我们优先提取含有怎么 什么 如何 之类的词语 因为这些词语搜索的人比较多,如果没有这些词 我们提取第一个词语作为后缀
重组后的文章标题是:家有痴呆的老人|老人痴呆症  当然我这里设置的是随机作为前缀或者后缀的
然后将剩余9个关键词随机插入文章中。

鄙人不懂程序,参照一些代码用java拼凑出的程序,详情见附件。

火车头的终极伪原创(二) 预告
简介:将文章分词后 逆向近义词替换 ,比如“今天真不错” 分词后变成 “今天 真 不错” 避免用火车头替换后变成“今 可爱 不错”
逆向替换的好处是避免 A-B B-A 结果未替换,逆向替换后 相当于替换了2次,12000组近义词相当于24000次替换,伪原创更突出。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

发表于 2009-7-7 10:46:37 | 显示全部楼层
第一个办法实现起来,估计长尾效果明显。
发表于 2009-7-7 10:48:15 | 显示全部楼层
百度会封你IP,你这样采集的后果,GG也一样!
 楼主| 发表于 2009-7-7 10:48:58 | 显示全部楼层
逆向近义词替换还有个好处就是 近义词替换后 文章可读性依然很强!缺点也很突出,那就是1W篇文章用了跑了20+分钟。。。。
 楼主| 发表于 2009-7-7 10:51:02 | 显示全部楼层
3# cshack
事实证明 4个月 依然坚挺……
发表于 2009-7-7 10:57:21 | 显示全部楼层
你这个附件怎么用哟?
 楼主| 发表于 2009-7-7 11:13:22 | 显示全部楼层
6# monface
用java弄的 电脑上装java运行环境的就可以了 就像火车要在dotnet环境下一样。
实在不会的话 可以直接采集百度相关搜索的第一个词作为标题后缀
发表于 2009-7-7 11:19:11 | 显示全部楼层
楼主,问题是你这样百度,会给百度封IP啊!
发表于 2009-7-7 11:33:40 | 显示全部楼层
规则封IP可能倒不太可能。
只要不堆砌关键字,加一两个长尾,也是正常的优化方法。

我在想有没有办法,实现把这些关键字采集回来以后,将内容中的匹配关键字做一些加粗或者链接。
发表于 2009-7-7 13:03:34 | 显示全部楼层
牛a啊
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表