津报网娱乐网址采集遇到的问题:javascript/xml类的如何设置规则?
津报网-娱乐-娱乐要闻:http://ent.tianjindaily.com.cn/node/node_4306.htm 这一页的娱乐要闻网址如何采?网址代码如下,有javascript/xml .我用的是3.01版<table width="500" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#D0D1D4">
<tr>
<td valign="top" bgcolor="#FFFFFF" class="style6"><p>
<xml id="ICSTitleListPreRepeat">
<data><!]></data>
</xml><xml id="ICSTitleListEndRepeat">
<data><!]></data>
</xml><div id="ICSTitleList"></div>
<xml id="titleList"><data></data></xml>
<xml id="worker"></xml>
<script language="javascript">
var pageSize=50;
var pageTotal=500;
var fileName="4306_";
var maxFileID=8;
</script>
<script src="scroll.js"></script>
<script language="javascript">
dataNode = titleList.selectSingleNode("data");
worker.async=false;
nextPage();
var currentip = "";
doTitleList();
</script>
<table> 好像是JSP网页写的,是XML,目前采不了! 其实,你可以用其他的方法先采集所有的链接,然后再用火车采!转个弯而已!采集xml链接的很多的!
自制一个网页来采集
谢谢了。在下是初学者,刚练习采集就遇到了这样一个问题。经嘉宾先生指点,找到了方法:复制所采集网页上的网址,粘贴在一个新的html文件上,把这个文件上传到网站上,再采集这个自制的网页,就行了。不知各位有什么好方法?[ 本帖最后由 dangshi 于 2007-1-1 12:55 编辑 ]
页:
[1]