如何只采集部分内容
例如http://news.soso.com/n.q?sc=news&pid=n.res.i&ch=n.res.uf&num=20&st=t&w=%22%B4%F3%D1%A7%C9%FA%BC%C6%BB%AE%22&ty=c
这种页面,body内容有”几小时前“,,和日期 08-10-18
我只想采集 日期 08-10-18 的。而”几小时前“的。不想采集。。
如何在body标签中设置? 这是个问题。规则相同,不太好切割,火车没有字符串比较。 例如以下。只需要采集其中一部分(几小时前的。。)。08-10-19日期,和1小时前
1小时前
2小时前
3小时前
4小时前
08-10-19
08-10-18
08-10-17
08-10-16 这种不好采。。。除非去编写程序去辨别应该可以实现。。。 采集了之后在用sql语句编辑. 编程的话就可以过滤掉了。
不知道不用编程的话用正则如何呢? 不太好办,学习以下
页:
[1]