这个站点用光电采集器能采下来,但用火车不能采
http://www.cnpharm.org/ArticleList/Article_206_AddDate_Desc_1.Htm看起来应该很容易采,都是静态的,但就是采不下来,
高手试试.
无论怎么采,都只能采到右侧的列表.
用 光电采集器 很容易就采下来了,用火车头的1.21和3.0版都采不下来,
莫非这个站点针对火车头作了特殊处理?
可惜光电不能连MYSQL........郁闷
呼唤版主和火车.......
本帖原本发在规则区,但没人回应,删除原帖,转发到讨论区,看是否有人能解答这个问题. 呵,,,偶去试试看。
想问一下,这样大家采来采去的,网上还有什么有价值的呀,呵。 看这里
<li> <a href="../../ArticleView/2005-10-27/Article_View_21340.Htm" target="_blank">“亚健康”状态,离疾病不远了!</a> <font color="#cccccc">2005-10-27</font> <font color="#800000">Browse:5</font> Review:0</li>
中间href="../../ArticleView 问题应该出在这里,这是相对路径。
再研究一会看应该怎么弄,呵,,,我瞎扪的,不知道对不对。 http://www.cnpharm.org/ArticleView/2005-10-27/Article_View_21340.Htm
http://www.cnpharm.org/ArticleView/2005-10-27/Article_View_21140.Htm
以上是文章完整页面地址,这个网站用以下这种方法作的连接,
<a href="../../ArticleView/2005-10-27/Article_View_21340.Htm" target="_blank">“
所以用普通的采集是采不到连接了,
这里应该用“自定义链接格式”
我定义成这样的
<a href="[参数1](*)>(*)</a>
http://www.cnpharm.org/ArticleView/2005-10-27/Article_View_=[参数1]
呵,,我想一定是错了,所以我采到了这样的链接
--http://www.cnpharm.org/ArticleList/Article_206_AddDate_Desc_1.Htm
http://www\.cnpharm\.org/ArticleView/2005-10-27/Article_View_=
一级网址四个,二级网址四个。
错误在哪里,我还没有找到,请哪位高手帮我看看,错在哪了!!
谢谢 高手来指点一下,上边哪个地方出错了。 和相对路径没关系.右边的随机文章列表用的也是相对路径,却能采到. 确实不能得到列表,怪 是否是编码问题,我用UTF-8能得到他右边随机出现的列表,但是其他的确得不到,郁闷.
[ 本帖最后由 monface 于 2006-11-16 13:33 编辑 ] 在网页上面用查看源代码看一下,应该会提供全的连接,然后把前面的部分替换就可以了 晕,已经说了不是相对连接的问题.....
原帖由 梦想中文 于 2006-11-16 20:23 发表
在网页上面用查看源代码看一下,应该会提供全的连接,然后把前面的部分替换就可以了
页:
[1]
2