火车头采集如何除去汉字信息?
采集案例信息:<img src="/Image/2010051015472027.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>二室二厅一卫B户型
<img src="/Image/2010051015472028.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>三室二厅二卫A户型
<img src="/Image/2010051015472029.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>三室二厅二卫A1户型
<img src="/Image/2010051015472030.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>二室二厅一卫户型
<img src="/Image/2010051015472031.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>二室二厅一卫户型
要求结果:
<img src="/Image/2010051015472027.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>
<img src="/Image/2010051015472028.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>
<img src="/Image/2010051015472029.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>
<img src="/Image/2010051015472030.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>
<img src="/Image/2010051015472031.jpg" alt="龙城四季户型图" title="龙城四季户型图"/> 把规则 传上来 比较好改一点。 采集目标地址 http://xa.focus.cn/votehouse/984.html 页面的户型图栏目里的图片,只要<img src="/Image/2010051015472031.jpg" alt="龙城四季户型图" title="龙城四季户型图"/>里面的2010051015472031.jpg如何写,请指导???
页:
[1]