如何采集通过JS加载进来的内容
通过火车头测试地址返回来看源码是一些类似数组,好像HTML内容是通过这个数组组合起来的。像这种情况应该怎么采?
内容页面:http://huaban.com/pins/67584141/
内容页面里又有其它推荐的文章,但他们的结构都是一样的(正文和推荐),类似于这种结构:
{"pin_id":67584141, "user_id":857953, "board_id":3849809, "file_id":14090602, "file":{"farm":"farm1", "bucket":"hbimg", "key":"02836104002b0e8140b0eaf3a8179c7e3a9f99c75876c-1YvdyP", "type":"image/png", "width":550, "height":825, "frames":1}, "media_type":0, "source":"yingyong.so", "link":"http://www.yingyong.so/blog/1/513/", "raw_text":"恶搞闹钟 Android版起床大作战实测", "text_meta":null, "via":56612547, "via_user_id":925794, "original":56612547, "created_at":"1369477387", "like_count":1, "comment_count":0, "repin_count":0, "is_private":0, "orig_source":null},
我现在可以通过标签循环拿到每一项的内容,但是因为正文和其它文章结构是一样的,所以没法判断哪一项才是正文的内容。
不知各位有什么办法?或者火车头能不能设置拿特定第N次循环取到的值? 不会一样的比如这些就跟别的不同呀 "raw_text":" 结构都一样,只是值不一样而已。
但没办法判断哪个才是正文的内容
页:
[1]