火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7049|回复: 11

利用GOOGLE +火车头做多种语言的站

[复制链接]
发表于 2008-10-10 23:08:15 | 显示全部楼层 |阅读模式
前一段时间.做外文站时.
朋友有提示…不如使用翻译软件..将原来的英文站.译成其它外文.比如法文/德文等…
这样的话.翻译的质量会是不错的.
不像是英中互译….不知译成什么样…
而且.那些外文的流量单价比英文的还要高…
于是我就研究了一下他们的翻译组件.

发觉现在几大在线翻译..对于网页的翻译效果..还是GG老大的最好.
于是我用WP作实验.
先是试验在WP服务器端进行翻译处理…也就是就算是采集..采集回来后发布..都是使用原来的语言[也就是英语]
但到了WP服务器再由PHP再向GG提交翻译….
这样实现的方法也不难….难度只是向GG提交翻译..及翻译回来的文本处理…
后来.朋友说用火车头采集器..直接采集回来的就是翻译后的文本…
因为我之前一直是使用ET采集的..没有用火车头…
当时我还以为是火车头采集器的特色功能呢…
但当我按我朋友的介绍..使用他所谓的插件..
原来这并不复杂..不过思路很好…用ET也同样能实现..
原来只是在采集的过程中.取得文章列表后…将文章的读取URL改为GG翻译后的列表….
比如文章URL是
http://www.ibendy.cn/archives/42.html
而在采集的时候.将它变为
http://translate.google.com/translate?hl=en&langpair=zh%7Cen&u=http://www.ibendy.cn/archives/42.html
这个URL里面…langpair后面ZH是表示源语言…ZH中文…%7C实际是|   EN表示目标语言  …
当然如果你的URL含有?之类的特别符号…就需要转为URL..
/   :    %2F
? :     %3F
=:      %3D
等…
采集回来后…再按采集器的功能…将相应的内容过滤掉…在这里.我给些规则给大家来过滤掉GG翻译的页面内多余的东西…
<span class="google-src-text"%var%</span>
<span%var%>
</span>
http://64.233.%var%;u=
第一行是过滤掉那个提示原文部分..
第二/三行是过滤掉所有的span标记
第四行是过滤掉添加在<a  href>里面的多余部分…
过滤掉这几个后…你的文章主文内容部分应该就是网站翻译机器翻译结果了…
[如果你是用火车头…将%var%改为(*)  
其它的就和正常采集一样操作了…

评分

1

查看全部评分

发表于 2008-10-11 00:11:47 | 显示全部楼层
下次做英文站再试试看效果如何
发表于 2008-10-11 00:38:11 | 显示全部楼层
没实践不要拿出来哦。
你用wp发请求试试,一个月后就有得你哭。

要想用google的翻译得抓住那七个机器人。而不是一个
发表于 2008-10-11 00:38:47 | 显示全部楼层
好像不停的翻译google会封IP吧
发表于 2008-10-11 01:02:54 | 显示全部楼层
经典
发表于 2008-10-11 01:08:21 | 显示全部楼层
好像不停的翻译google会封IP吧

我之前的工作要不停的用翻译,没有出现IP被封的现像。
发表于 2008-10-11 08:00:35 | 显示全部楼层
这个好用吗?
发表于 2008-10-11 13:42:26 | 显示全部楼层
有翻译插件 的

wp 的翻译插件
发表于 2008-10-11 13:58:41 | 显示全部楼层
行不通 的
发表于 2008-10-11 15:09:15 | 显示全部楼层
好文章,转走了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-4 01:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表