测试可以采集 开始采集就不行了
测试可以得到数据【作者】: <a href="http://www.locoy.com" target="_blank">火车采集器</a>
【出处】:
【标题】: 《火影忍者》全集
【内容】: mm_disd_6/连续剧/火影忍者/006.rmvb?Sc918f715__854b0_17_6ff7_687
【时间】: 2007-12-30 18:16:56
但已开始运行任务就不行了
采集内容全部完成√共采集到有效内容0条;
我刚才搜索下有位朋友说是编码问题 我采集用的编码是GB2312 测试时也是用的这个编码啊
第一次用火车头,以前用的是网络采集大师,希望达人关注解决一下
不胜感激:ali0ls
[ 本帖最后由 kl19872 于 2007-12-31 18:08 编辑 ] 我的是3.2sp3
参考这个还不能解决 试用了 街头篮球.ljob 这个规则还不能采集
http://bbs.locoy.com/viewthread.php?tid=21306&highlight=%B2%E2%CA%D4 是否勾了 urlencode 目标网页源码如下
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta http-equiv="Content-Language" content="zh-cn">
<meta name="keywords" content="北辰影视.火影忍者">
<meta name="description" content="播放电影">
<link href="../images/include/player/index.css" rel="stylesheet" type="text/css">
<script src="../index/atclick.asp?id=1016"></script>
<title>您正在收看影片《火影忍者》全集</title>
</head>
<body leftmargin="0" topmargin="0">
<EMBED NAME=RealObj SRC="test.rpm" height=80% width=100% CONSOLE=one CONTROLS=ImageWindow MAINTAINASPECT=true><br>
<object id=WMPObj classid="CLSID:6BF52A52-394A-11d3-B153-00C04F79FAA6" height=80% width=100% viewastext=""
CODEBASE="http://activex.microsoft.com/activex/controls/mplayer/en/nsmp2inf.cab#Version=5,1,52,701"
STANDBY="Loading Microsoft Windows Media Player components..."
TYPE="application/x-oleobject" style="display:none">
<param name="URL" value="">
<PARAM NAME="animationatStart" VALUE="true">
<PARAM NAME="autoStart" VALUE="false">
<PARAM NAME="showControls" VALUE="true">
</object>
<Object id="BoBo" width=100% height=22 classid='clsid:EC0978ED-24E3-403C-AB7A-060E388553E6' codebase='http://www.17bobo.com/Software/BoBo_ActiveX_V3.ocx'>
<PARAM NAME="MaxLinkCount" VALUE=100>
<PARAM NAME="MaxCacheTimeS" VALUE=100>
<PARAM NAME="MinCacheTimeS" VALUE=50>
<PARAM NAME="MaxCacheSizeMB" VALUE=100>
<PARAM NAME="MaxDownloadKbps" VALUE=0>
<PARAM NAME="MaxUploadKbps" VALUE=0>
<PARAM NAME="TextAd" VALUE="BoBo">
<PARAM NAME="RealMediaType" VALUE=".mp4,.mp3">
<PARAM NAME="AllowDrag" VALUE=1>
<PARAM NAME="ActName" VALUE="mm_disd_6/连续剧/火影忍者/006.rmvb?Sc918f715__854b0_17_6ff7_687">
</Object><br>
<EMBED SRC="test.rpm" width=100% HEIGHT=30 CONSOLE=one CONTROLS=ControlPanel NOJAVA=true MAINTAINASPECT=true style="display:inline">
<EMBED SRC="plugin.rpm" WIDTH=120 HEIGHT=30 NOJAVA=true CONTROLS=PositionField CONSOLE=one>
<script>
var urls='连续剧/火影忍者/001.rmvb';
var bWMPs = true;
if( urls.indexOf( ".rmvb" ) > 0 ){bWMPs = false;}
else if( urls.indexOf( ".rm" ) > 0 ){bWMPs = false;}
if(bWMPs){document.all.rmfull.style.display="none";}
</script>
</body>
</html>
我采集<title></title> 和<PARAM NAME="ActName" VALUE="">
中间的内容
回复 3楼 的帖子
没找到urlencode在哪里 请指点下 编辑任务 -> 发布内容设置采集不成功有很多原因. 不好判断. 发现问题你可以用抓包软件抓包看看返回数据是什么.
回复 6楼 的帖子
我勾了 urlencode还是不行我使用的是保存本地文件.txt文件:Q 抓包了但是看不懂:(
这是一部分
send
47 45 54 20 2F 66 69 6C 6D 2F 69 6E 64 65 78 2F
70 6C 61 79 2E 61 73 70 3F 75 72 6C 69 64 3D 31
30 31 36 26 6D 6F 76 69 64 3D 35 20 48 54 54 50
2F 31 2E 31 0D 0A 55 73 65 72 2D 41 67 65 6E 74
3A 20 4D 6F 7A 69 6C 6C 61 2F 34 2E 30 20 28 63
6F 6D 70 61 74 69 62 6C 65 3B 20 4D 53 49 45 20
37 2E 30 3B 20 57 69 6E 64 6F 77 73 20 4E 54 20
35 2E 31 3B 20 54 65 6E 63 65 6E 74 54 72 61 76
65 6C 65 72 20 3B 20 2E 4E 45 54 20 43 4C 52 20
32 2E 30 2E 35 30 37 32 37 3B 20 2E 4E 45 54 20
43 4C 52 20 31 2E 31 2E 34 33 32 32 29 0D 0A 52
65 66 65 72 65 72 3A 20 68 74 74 70 3A 2F 2F 77
77 77 2E 6E 73 73 61 74 2E 63 6F 6D 2F 66 69 6C
6D 2F 69 6E 64 65 78 2F 70 6C 61 79 2E 61 73 70
3F 75 72 6C 69 64 3D 31 30 31 36 26 6D 6F 76 69
64 3D 35 0D 0A 48 6F 73 74 3A 20 77 77 77 2E 6E
73 73 61 74 2E 63 6F 6D 0D 0A 0D 0A 15,测试正常,采集不了?
答:这一般不是规则的问题,是你发布有问题.一般请说明你的操作过程,图等...
这是我的发布图 ali16ls 找答案