wmdly 发表于 2009-9-26 00:13:19

火车头终极伪原创(三)

本帖最后由 wmdly 于 2009-9-26 00:27 编辑

一直都是用免费版本的火车采集器,当然如果有实力还是建议购买全功能的火车头。

说是终极伪原创(三),其实这个方法并不是专门用于伪原创的,甚至你可以用它实现任何你想实现的功能。

思路:用php通过file_get_contents函数抓取url源码,根据需要处理后调用echo输入 采集这个输入页面。由于抓取到本地,火车头再读取本地,所以整体效率并不降低多少。在这个过程中你可以格式化源码 可以重组标签,可以跨1页 2页 10页甚至更多页

核心代码: 采集网址的时候禁用自动获取 手动改成类似这样的http://127.0.0.1/xxx.php?k=http://xxxxx
<?php
    $url = $_GET['k'];
    $file = file_get_contents($url);
   //此处可以实现任何你想要的功能 比如 近义词替换 分词过滤少于多少字或者多余多少字的文章 删除含有某些敏感词的文章 附件里的演示是将繁体转换成简体
    echo $file;
?>

kjmdiba 发表于 2009-9-26 00:15:50

占位置 慢慢看...

kjmdiba 发表于 2009-9-26 00:19:11

懂PHP的话, 可以实现很多功能.

wmdly 发表于 2009-9-26 14:58:25

还有很重要的一个功能已经加上了就是可以调用googleAPI 将中文翻译英文,做英文站是个不错的选择。有人直接翻译后做英文站做到了1万刀每月看到那些每天嚷嚷说直接翻译google不收录的朋友,我想问一句,你去做了么?

aven 发表于 2009-9-27 00:57:38

1W?

不要人云亦云啦

soarb 发表于 2009-9-27 08:31:17

4楼的吹牛不上税. google 翻译api早几年就在研究,技术上是不可能实现大批量采集的. 用入万刀的,靠英文站的我没见过几个,靠做鬼的大有人在.

wmdly 发表于 2009-9-27 14:36:09

本帖最后由 wmdly 于 2009-9-27 14:38 编辑

回复5楼 6楼

大批量采集从技术上无法实现?为什么无法实现?因为采集250次会要求输入验证码?我采集了3万数据 照样采集
就算要求输入验证码那又怎样。 解决办法很简单,数据库里直接放采集原文,有人访问的时候由用户触发翻译API 这样约等于每个访客都是你的翻译工,大批量的问题不就解决了么?

你没见过几个超过一万到的,就不允许别人见过的?说实在的,我也没见到,我只是根据我的结果推测的。下面图片也不全是英文站的收入。



顺便说一句,不要以为自己硬不起来都说别人是软的。而且我的翻译也不是直接汉语转英语的,直接翻译后的文章不和老外的口味。

qquxi 发表于 2009-9-27 17:39:21

要顶下楼主,上次楼主教的很细心,因自己太菜,后来自己换个方式做到了

519team 发表于 2009-9-27 22:47:33

还有很重要的一个功能已经加上了就是可以调用googleAPI 将中文翻译英文,做英文站是个不错的选择。有人直接翻译后做英文站做到了1万刀每月看到那些每天嚷嚷说直接翻译google不收录的朋友,我想问一句,你去做了么 ...
wmdly 发表于 2009-9-26 14:58 http://bbs.locoy.com/images/common/back.gif

楼主,你说加上了,在哪呀,为什么没找到呢?

xhei 发表于 2009-9-28 00:24:44

这个要顶!!!ali54ls
页: [1] 2
查看完整版本: 火车头终极伪原创(三)