wmdly 发表于 2009-7-7 10:42:43

火车头的终极伪原创(一)

火车头的终极伪原创(一)
通常我们采集的文章都不包含关键词,这些文章的标题八辈子也不会有一个人搜索,所以鄙人想出一个办法,用火车头给文章加上关键词。
采集的时候加个[标签:百度],使用跨页采集的方法采集以标题作为关键词去采集百度的相关搜索,这10个相关搜索都是因为有很多人搜索才显示的,而且和内容是相关的,这样包含关键词的伪原创文章才是我们需要的。
比如一篇文章:家有痴呆的老人
采集百度相关搜索的10个词语分别是:老人痴呆症 老人痴呆 家有老人 家有老人是个宝 老年痴呆有什么症状 老人家读老人与海有感 喝红酒有益老人 老人言有听头 老人之家
我们优先提取含有怎么 什么 如何 之类的词语 因为这些词语搜索的人比较多,如果没有这些词 我们提取第一个词语作为后缀
重组后的文章标题是:家有痴呆的老人|老人痴呆症  当然我这里设置的是随机作为前缀或者后缀的
然后将剩余9个关键词随机插入文章中。

鄙人不懂程序,参照一些代码用java拼凑出的程序,详情见附件。

火车头的终极伪原创(二) 预告
简介:将文章分词后 逆向近义词替换 ,比如“今天真不错” 分词后变成 “今天 真 不错” 避免用火车头替换后变成“今 可爱 不错”
逆向替换的好处是避免 A-B B-A 结果未替换,逆向替换后 相当于替换了2次,12000组近义词相当于24000次替换,伪原创更突出。

vus520 发表于 2009-7-7 10:46:37

第一个办法实现起来,估计长尾效果明显。

cshack 发表于 2009-7-7 10:48:15

百度会封你IP,你这样采集的后果,GG也一样!

wmdly 发表于 2009-7-7 10:48:58

逆向近义词替换还有个好处就是 近义词替换后 文章可读性依然很强!缺点也很突出,那就是1W篇文章用了跑了20+分钟。。。。

wmdly 发表于 2009-7-7 10:51:02

3# cshack
事实证明 4个月 依然坚挺……

monface 发表于 2009-7-7 10:57:21

你这个附件怎么用哟?

wmdly 发表于 2009-7-7 11:13:22

6# monface
用java弄的 电脑上装java运行环境的就可以了 就像火车要在dotnet环境下一样。
实在不会的话 可以直接采集百度相关搜索的第一个词作为标题后缀

cshack 发表于 2009-7-7 11:19:11

楼主,问题是你这样百度,会给百度封IP啊!

vus520 发表于 2009-7-7 11:33:40

规则封IP可能倒不太可能。
只要不堆砌关键字,加一两个长尾,也是正常的优化方法。

我在想有没有办法,实现把这些关键字采集回来以后,将内容中的匹配关键字做一些加粗或者链接。

pp0613 发表于 2009-7-7 13:03:34

牛a啊
{:4_180:}
页: [1] 2 3 4 5
查看完整版本: 火车头的终极伪原创(一)