lzq
发表于 2011-6-20 20:26:00
你好这个能采集吗,http://cq.edai.com/daikuan/页面的信息,(含信息的标题、内容及自定义字段,重要的是须采集每条信息的联系方式:姓名、联系电话、QQ、邮箱等及用户名)。这样我好以原发布人的用户名、姓名注册发布,网站程度是phpcms2008。
shikun520
发表于 2011-6-21 14:51:42
谢谢,我今天第一次使用火车头采集器,不知道怎么下手;
http://www.plasticsindustry.org/membership/directory/results.cfm?keywords=&x=35&y=16&state=
就是一个简单的分页(A-Z),我想把分页后下面的数据采集下来(Commpany,Location,Category,这里是字段),并导出。。
zhouchanglin
发表于 2011-6-23 21:09:44
回复 161# yuhaibo
看了下,这个是js的分页,但是第一页里有全部的分页数据,就是说根本不需要获取分页var htmlContent = "<p></p><div style='margin: 15.6pt 0cm' align='center'><b>财政部 </b><b>海关总署 </b><b>国家税务总局</b></div><div style='margin: 15.6pt 0cm' align='center'><b>关于印发《 </b><b>动漫企业进口动漫开发生产用品免征进口税收的暂行规定 </b><b>》 </b><b>的通知</b></div><div style='margin: 15.6pt 0cm; text-indent: 21.1pt' align='center'><b> </b></div><div style='margin: 15.6pt 0cm'>各省、自治区、直辖市、计划单列市财政厅(局)、国家税务局,新疆生产建设兵团财务局,海关总署广东分署、各直属海关:</div><div style='margin: 15.6pt 0cm; text-indent: 21pt'>根据 《 国务院办公厅转发财政部等部门关于推动我国动漫产业发展若干意见的通知 》 (国办发32号)的精神,经国务院有关部门认定的动漫企业自主开发、生产动漫直接产品,确需进口的商品可享受免征进口关税及进口环节增值税的政策。为促进我国动漫产业健康快速发展,增强动漫产业的自主创新能力。。。。。。。省略部分代码。。。。。。。。。。。。。。第一页结束 第2页开始<br /><strong>附:动漫企业免税进口开发生产用品清单(图片另存为查看详细信息)</strong></p><div style='margin: 15.6pt 0cm; text-align: center'> <img height='1208' alt='动漫企业免税进口动漫开发生产用品清单' width='560' src='/usr/cms/rich/2011/6/10/image/FUJIAN.jpg' /></div>";这里是全部的内容,而 是每页内容的分割付,js就是用这个分页的
zhouchanglin
发表于 2011-6-23 21:48:54
回复 163# lzq
页面分页没有特别的地方,列表地址http://cq.edai.com/daikuan/?mod=daikuan&action=index&page=(*),不知道你有什么搞不定
zhouchanglin
发表于 2011-6-23 21:57:09
回复 164# shikun520
第3页http://www.plasticsindustry.org/membership/directory/results.cfm?keywords=&state=&category=&x=35&y=16&startrow=41&endrow=767第4页http://www.plasticsindustry.org/membership/directory/results.cfm?keywords=&state=&category=&x=35&y=16&startrow=21&endrow=767间隔20,火车头有网址生成工具,你可以试下
zhouchanglin
发表于 2011-6-23 21:59:45
回复 162# webdigger
比较复杂,本人眼睛也不行了,看时间长了,眼睛难受,抓包页没有解决,post数据没有看明白,是jq的,以后再看看怎么回事
webdigger
发表于 2011-6-27 15:45:12
回复 168# zhouchanglin
这种JS要怎么采方便呢?
var hrefs="/gds/category01.jsp,/click/click_odd_even.jsp,/info/p313.jsp,/info/p3188.jsp,
var srcs="/sitetop/banner/mel110624.jpg,/sitetop/banner/26.jpg,/sitetop/banner/313.jpg,/sitetop/banner/3188.jpg,/sitetop/banner/point.jpg";
lee1986320
发表于 2011-6-29 16:10:25
https://acs71.recruitmax.com/main/careerportal/Job_List.cfm?szSearchType=Advanced
这个网站请问如何记录中国的招聘信息?
我想采集中国的招聘信息,可是我看不到他的POST信息
COOKIES好像也不是,就是普通的递交表单吗?
zhuzhengxiang
发表于 2011-6-29 17:21:31
楼主,求http://www.cs.com.cn/xwzx/11/201106/t20110629_2944596.html网址规则,JS控制翻页,在线等
zhuzhengxiang
发表于 2011-6-29 17:26:21
████████████████████████████████████
█此页面包含多个分页:
█1:http://www.cs.com.cn/xwzx/11/201106/t20110629_2944596.html
█2:http://www.cs.com.cn/xwzx/11/201106/\t20110629_2944596.html\
█3:http://www.cs.com.cn/xwzx/11/201106/\t20110629_2944596+_
█4:http://www.cs.com.cn/xwzx/11/201106/\t20110629_2944596
█5:http://www.cs.com.cn/xwzx/11/201106/\t20110629_2944596_
█有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]
████████████████████████████████████
【标题】:券商中期策略多胜空 波段策略别具一格|||404 Not Found|||404 Not Found|||404 Not Found|||404 Not Found