test519 发表于 2006-11-14 14:58:38

这个站点用光电采集器能采下来,但用火车不能采

http://www.cnpharm.org/ArticleList/Article_206_AddDate_Desc_1.Htm

看起来应该很容易采,都是静态的,但就是采不下来,
高手试试.
无论怎么采,都只能采到右侧的列表.

用 光电采集器 很容易就采下来了,用火车头的1.21和3.0版都采不下来,
莫非这个站点针对火车头作了特殊处理?

可惜光电不能连MYSQL........郁闷

呼唤版主和火车.......

本帖原本发在规则区,但没人回应,删除原帖,转发到讨论区,看是否有人能解答这个问题.

ok123zyz 发表于 2006-11-14 19:04:54

呵,,,偶去试试看。

想问一下,这样大家采来采去的,网上还有什么有价值的呀,呵。

ok123zyz 发表于 2006-11-14 19:18:43

看这里
<li>&nbsp;<a href="../../ArticleView/2005-10-27/Article_View_21340.Htm" target="_blank">“亚健康”状态,离疾病不远了!</a>&nbsp;<font color="#cccccc">2005-10-27</font>&nbsp;<font color="#800000">Browse:5</font>&nbsp;Review:0</li>

中间href="../../ArticleView    问题应该出在这里,这是相对路径。

再研究一会看应该怎么弄,呵,,,我瞎扪的,不知道对不对。

ok123zyz 发表于 2006-11-14 19:39:47

http://www.cnpharm.org/ArticleView/2005-10-27/Article_View_21340.Htm
http://www.cnpharm.org/ArticleView/2005-10-27/Article_View_21140.Htm
以上是文章完整页面地址,这个网站用以下这种方法作的连接,
<a href="../../ArticleView/2005-10-27/Article_View_21340.Htm" target="_blank">“
所以用普通的采集是采不到连接了,
这里应该用“自定义链接格式”
我定义成这样的
<a href="[参数1](*)>(*)</a>
http://www.cnpharm.org/ArticleView/2005-10-27/Article_View_=[参数1]
呵,,我想一定是错了,所以我采到了这样的链接
--http://www.cnpharm.org/ArticleList/Article_206_AddDate_Desc_1.Htm
   http://www\.cnpharm\.org/ArticleView/2005-10-27/Article_View_=
一级网址四个,二级网址四个。
错误在哪里,我还没有找到,请哪位高手帮我看看,错在哪了!!
谢谢

ok123zyz 发表于 2006-11-15 14:47:36

高手来指点一下,上边哪个地方出错了。

test519 发表于 2006-11-16 09:34:10

和相对路径没关系.右边的随机文章列表用的也是相对路径,却能采到.

monface 发表于 2006-11-16 13:24:54

确实不能得到列表,怪

monface 发表于 2006-11-16 13:26:18

是否是编码问题,我用UTF-8能得到他右边随机出现的列表,但是其他的确得不到,郁闷.

[ 本帖最后由 monface 于 2006-11-16 13:33 编辑 ]

梦想中文 发表于 2006-11-16 20:23:59

在网页上面用查看源代码看一下,应该会提供全的连接,然后把前面的部分替换就可以了

test519 发表于 2006-11-17 01:42:22

晕,已经说了不是相对连接的问题.....

原帖由 梦想中文 于 2006-11-16 20:23 发表
在网页上面用查看源代码看一下,应该会提供全的连接,然后把前面的部分替换就可以了
页: [1] 2
查看完整版本: 这个站点用光电采集器能采下来,但用火车不能采