如何采集通过JS加载进来的内容

dreamtiny 发表于 2013-6-5 13:51:49

通过火车头测试地址返回来看源码是一些类似数组，好像HTML内容是通过这个数组组合起来的。
像这种情况应该怎么采？

内容页面：http://huaban.com/pins/67584141/

内容页面里又有其它推荐的文章，但他们的结构都是一样的（正文和推荐），类似于这种结构：
{"pin_id":67584141, "user_id":857953, "board_id":3849809, "file_id":14090602, "file":{"farm":"farm1", "bucket":"hbimg", "key":"02836104002b0e8140b0eaf3a8179c7e3a9f99c75876c-1YvdyP", "type":"image/png", "width":550, "height":825, "frames":1}, "media_type":0, "source":"yingyong.so", "link":"http://www.yingyong.so/blog/1/513/", "raw_text":"恶搞闹钟 Android版起床大作战实测", "text_meta":null, "via":56612547, "via_user_id":925794, "original":56612547, "created_at":"1369477387", "like_count":1, "comment_count":0, "repin_count":0, "is_private":0, "orig_source":null},

我现在可以通过标签循环拿到每一项的内容，但是因为正文和其它文章结构是一样的，所以没法判断哪一项才是正文的内容。

不知各位有什么办法？或者火车头能不能设置拿特定第N次循环取到的值？

303718 发表于 2013-6-5 15:01:38

不会一样的比如这些就跟别的不同呀 "raw_text":"

dreamtiny 发表于 2013-6-5 15:20:49

结构都一样，只是值不一样而已。
但没办法判断哪个才是正文的内容

页: [1]

火车采集器软件交流官方论坛's Archiver

如何采集通过JS加载进来的内容