11 12
发新话题
打印

请高人指点:2.0版和1.2.1版都采集不到的奇怪网址(公司黄页)?

请高人指点:2.0版和1.2.1版都采集不到的奇怪网址(公司黄页)?

首页:http://www.allchinacom.com/news/regirect/search.asp?keyname=%E6%B7%B1%E5%9C%B3&leibie=3&fangshi=2&PageAction=1
下页:http://www.allchinacom.com/news/regirect/search.asp?keyname=%E6%B7%B1%E5%9C%B3&leibie=3&fangshi=2&PageAction=3

这个面页很怪呀,用1.2.1版和2.0版都不行,哪位指点一下?

1.列表页有21页,其首页,上页,下页,尾页分别对应的action值为1,2,3,4,但网址(列表页)无法在火车中定义.

2.二级网址(企业)在火车中无法采集到,但查看源码时明明可以看到的呀?

[ 本帖最后由 sunway888 于 2006-7-18 13:59 编辑 ]

TOP

我是菜鸟。。但我帮顶

TOP

好象是用了函数,不知该如何处理?火车在么?请教呀

TOP

你不能分版块去采吗?

TOP

我看了 如果单独采这六个版块的其中的一个是可以采到地址的

TOP

引用:
原帖由 mytoms 于 2006-7-14 22:03 发表
你不能分版块去采吗?
谢谢mytoms,不过我要采集的是企业黄页,不是6个板块中的文章,你有办法么?

TOP

它的下一页的链接一直是:http://www.allchinacom.com/news/regirect/search.asp?keyname=广&leibie=3&fangshi=2&PageAction=3

估计它用了SESSION来记着页码链接。所以,你重复采集这一个地址,直到没有内容,就行了。
即“发表”,在完成后,再次“发表”

TOP

引用:
原帖由 dr5d 于 2006-7-17 19:08 发表
它的下一页的链接一直是:http://www.allchinacom.com/news/regirect/search.asp?keyname=广&leibie=3&fangshi=2&PageAction=3

估计它用了SESSION来记着页码链接。所以,你重复采集这一 ...
感谢dr5d,你的估计应该是对的!但正是由于用了SESSION,如果在火车中直接输入网址http://www.allchinacom.com/news/regirect/search.asp?keyname=深圳&leibie=3&fangshi=2&PageAction=3显示的并不是我想要的页面(黄页列表),在IE中直接输入测试,效果是一样的,都是只有6个文章板块,并无黄页列表(因为不是由搜索页面进入的,没有建立SESSION),仍然无法采集.对这类问题有什么别的方法么?

TOP

中文地址在火车的测试中有问题,遇到中文地址的就没办法了,除非你会转换字符

TOP

有办法啊,你在火车头中设置好COOKIE值,就会共用IE的SESSION了啊。

设置COOKIE的办法,是:用winsock expert监测IE,拦截COOKIE,然后在火车头“采集需要登录的网址”,设置COOKIE
估计你应该会。如果还不会,你仔细一下,我觉得你是理解得到的。

TOP

 11 12
发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.228036 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-22 05:28 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档