津报网娱乐网址采集遇到的问题：javascript/xml类的如何设置规则？

dangshi 发表于 2006-12-30 14:40:15

津报网－娱乐－娱乐要闻：http://ent.tianjindaily.com.cn/node/node_4306.htm　这一页的娱乐要闻网址如何采？网址代码如下，有javascript/xml .我用的是3.01版

<table width="500" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#D0D1D4">
<tr>
<td valign="top" bgcolor="#FFFFFF" class="style6"><p>
<xml id="ICSTitleListPreRepeat">
<data><!]></data>
</xml><xml id="ICSTitleListEndRepeat">
<data><!]></data>
</xml><div id="ICSTitleList"></div>
<xml id="titleList"><data></data></xml>
<xml id="worker"></xml>
<script language="javascript">
var pageSize=50;
var pageTotal=500;
var fileName="4306_";
var maxFileID=8;
</script>
<script src="scroll.js"></script>
<script language="javascript">
dataNode = titleList.selectSingleNode("data");
worker.async=false;
nextPage();
var currentip = "";
doTitleList();
</script>
<table>

xyyfx 发表于 2006-12-30 16:49:58

好像是JSP网页写的，是XML，目前采不了！

xyyfx 发表于 2006-12-30 17:22:49

其实，你可以用其他的方法先采集所有的链接，然后再用火车采！转个弯而已！采集xml链接的很多的！

dangshi 发表于 2007-1-1 10:32:33

自制一个网页来采集

谢谢了。在下是初学者，刚练习采集就遇到了这样一个问题。经嘉宾先生指点，找到了方法：复制所采集网页上的网址，粘贴在一个新的html文件上，把这个文件上传到网站上，再采集这个自制的网页，就行了。不知各位有什么好方法？

[ 本帖最后由 dangshi 于 2007-1-1 12:55 编辑 ]

页: [1]

火车采集器软件交流官方论坛's Archiver

津报网娱乐网址采集遇到的问题：javascript/xml类的如何设置规则？

自制一个网页来采集