没见过这么无耻的网站,URL ID 竟然这么长找不到规则,怎么办?标题好长好长
http://www.fjax.gov.cn/news/newslist.aspx?articletypeid=%7b6609C1BC-FCE2-4B8C-A812-8215BD8ED061%7d看看上面这个URL如何采集啊。。。哭啊。
http://www.fjax.gov.cn/news/newslist.aspx?articletypeid={AF1DBBE9-EBC7-47E0-8047-91572A5B7E57}
全部都是这样的。。。。要怎么编写规则呢??还有一个更变态的,文章页面也全是不规则的。。。搞不定。。 的确够变态的,好像参数都传递到服务器端处理了 这种很简单啊,是你搞错了吧 这种站都拿不下来 ? 的确很难。我承认。有搞的出来的讲一下吧 呵呵 偷人家东西偷不着就说人家无耻? 本帖最后由 闲鸟归来 于 2009-11-27 09:04 编辑
ali63ls 无语!ali84ls 这个是GUID码编排方式,对于这种无规律的URL采集,需要对每个母页面做文章即可.不难,只是你可能没试过这种方法. 呵 楼主言语不对.... 我估计是链接数据库的物理地址,读物理地址比读ID快多了
页:
[1]