火车头的终极伪原创（一）

wmdly 发表于 2009-7-7 10:42:43

火车头的终极伪原创（一）
通常我们采集的文章都不包含关键词，这些文章的标题八辈子也不会有一个人搜索，所以鄙人想出一个办法，用火车头给文章加上关键词。
采集的时候加个[标签:百度]，使用跨页采集的方法采集以标题作为关键词去采集百度的相关搜索，这10个相关搜索都是因为有很多人搜索才显示的，而且和内容是相关的，这样包含关键词的伪原创文章才是我们需要的。
比如一篇文章：家有痴呆的老人
采集百度相关搜索的10个词语分别是：老人痴呆症老人痴呆家有老人家有老人是个宝老年痴呆有什么症状老人家读老人与海有感喝红酒有益老人老人言有听头老人之家
我们优先提取含有怎么什么如何之类的词语因为这些词语搜索的人比较多，如果没有这些词我们提取第一个词语作为后缀
重组后的文章标题是：家有痴呆的老人｜老人痴呆症　　当然我这里设置的是随机作为前缀或者后缀的
然后将剩余９个关键词随机插入文章中。

鄙人不懂程序，参照一些代码用java拼凑出的程序，详情见附件。

火车头的终极伪原创（二）预告
简介：将文章分词后逆向近义词替换，比如“今天真不错” 分词后变成 “今天真不错” 避免用火车头替换后变成“今可爱不错”
逆向替换的好处是避免 A-B B-A 结果未替换，逆向替换后相当于替换了2次，12000组近义词相当于24000次替换，伪原创更突出。

vus520 发表于 2009-7-7 10:46:37

第一个办法实现起来，估计长尾效果明显。

cshack 发表于 2009-7-7 10:48:15

百度会封你IP,你这样采集的后果,GG也一样!

wmdly 发表于 2009-7-7 10:48:58

逆向近义词替换还有个好处就是近义词替换后文章可读性依然很强！缺点也很突出，那就是1W篇文章用了跑了20+分钟。。。。

wmdly 发表于 2009-7-7 10:51:02

3# cshack
事实证明 4个月依然坚挺……

monface 发表于 2009-7-7 10:57:21

你这个附件怎么用哟?

wmdly 发表于 2009-7-7 11:13:22

6# monface
用java弄的电脑上装java运行环境的就可以了就像火车要在dotnet环境下一样。
实在不会的话可以直接采集百度相关搜索的第一个词作为标题后缀

cshack 发表于 2009-7-7 11:19:11

楼主,问题是你这样百度,会给百度封IP啊!

vus520 发表于 2009-7-7 11:33:40

规则封IP可能倒不太可能。
只要不堆砌关键字，加一两个长尾，也是正常的优化方法。

我在想有没有办法，实现把这些关键字采集回来以后，将内容中的匹配关键字做一些加粗或者链接。

pp0613 发表于 2009-7-7 13:03:34

牛a啊
{:4_180:}

页: [1] 2 3 4 5

火车采集器软件交流官方论坛's Archiver

火车头的终极伪原创（一）