cnies 发表于 2008-10-10 23:08:15

利用GOOGLE +火车头做多种语言的站

前一段时间.做外文站时.
朋友有提示…不如使用翻译软件..将原来的英文站.译成其它外文.比如法文/德文等…
这样的话.翻译的质量会是不错的.
不像是英中互译….不知译成什么样…
而且.那些外文的流量单价比英文的还要高…
于是我就研究了一下他们的翻译组件.

发觉现在几大在线翻译..对于网页的翻译效果..还是GG老大的最好.
于是我用WP作实验.
先是试验在WP服务器端进行翻译处理…也就是就算是采集..采集回来后发布..都是使用原来的语言[也就是英语]
但到了WP服务器再由PHP再向GG提交翻译….
这样实现的方法也不难….难度只是向GG提交翻译..及翻译回来的文本处理…
后来.朋友说用火车头采集器..直接采集回来的就是翻译后的文本…
因为我之前一直是使用ET采集的..没有用火车头…
当时我还以为是火车头采集器的特色功能呢…
但当我按我朋友的介绍..使用他所谓的插件..
原来这并不复杂..不过思路很好…用ET也同样能实现..
原来只是在采集的过程中.取得文章列表后…将文章的读取URL改为GG翻译后的列表….
比如文章URL是
http://www.ibendy.cn/archives/42.html
而在采集的时候.将它变为
http://translate.google.com/translate?hl=en&langpair=zh%7Cen&u=http://www.ibendy.cn/archives/42.html
这个URL里面…langpair后面ZH是表示源语言…ZH中文…%7C实际是|   EN表示目标语言…
当然如果你的URL含有?之类的特别符号…就需要转为URL..
/   :    %2F
? :   %3F
=:      %3D
等…
采集回来后…再按采集器的功能…将相应的内容过滤掉…在这里.我给些规则给大家来过滤掉GG翻译的页面内多余的东西…
<span class="google-src-text"%var%</span>
<span%var%>
</span>
http://64.233.%var%;u=
第一行是过滤掉那个提示原文部分..
第二/三行是过滤掉所有的span标记
第四行是过滤掉添加在<ahref>里面的多余部分…
过滤掉这几个后…你的文章主文内容部分应该就是网站翻译机器翻译结果了…
[如果你是用火车头…将%var%改为(*)
其它的就和正常采集一样操作了…

bigbother 发表于 2008-10-11 00:11:47

下次做英文站再试试看效果如何

soarb 发表于 2008-10-11 00:38:11

没实践不要拿出来哦。
你用wp发请求试试,一个月后就有得你哭。

要想用google的翻译得抓住那七个机器人。而不是一个

lylover 发表于 2008-10-11 00:38:47

好像不停的翻译google会封IP吧

hutaodewang 发表于 2008-10-11 01:02:54

经典

xyz5200 发表于 2008-10-11 01:08:21

好像不停的翻译google会封IP吧
我之前的工作要不停的用翻译,没有出现IP被封的现像。

zzwl 发表于 2008-10-11 08:00:35

这个好用吗?:ali0ls

haidawang 发表于 2008-10-11 13:42:26

有翻译插件 的

wp 的翻译插件

haidawang 发表于 2008-10-11 13:58:41

行不通 的:Q :Q :Q :Q

dumu 发表于 2008-10-11 15:09:15

好文章,转走了:lol
页: [1] 2
查看完整版本: 利用GOOGLE +火车头做多种语言的站