请火车头的专家们学习一下NINIDOWN采集器抓cookie的方法吧
我对NINIDOWN这个采集器研究了一下,在登录采集问题上有它的长处,你们登录不进去的,人家的就可以,但他们的功能确实没你们的强,你们能不能在登录方面改进一下?另外,在多网址采集方面能不能把超大的网址列表放进去?比如说我有个几千万的网址列表......当然这个网址列表可能是一个网站上的数据库检索穷举......
我造了个几百兆的网址列表,放不进你们的程序中.....很是郁闷.... 收到您的建议。谢谢。
网址列表几百兆只有换数据库了。新版本用nosql 我一直关注你们的采集器,但始终不敢买,原因是我不会用,水平有限啊......怕买了来跟领导交不了差...但我感觉你们的东东应该是不错的....
这个登录的问题,我遇到的是用KEY登录,火车始终进不去,用登录后的网址,火车只抓到登录界面,很郁闷.
但NINIDOWN可以抓到里面的东东..... 今天也遇到了,
采集论坛采集不了,
前几天还能呢,
同一个论坛,现在只能采集到登陆页,
页:
[1]