原文链接:https://www.chenweiliang.com/cwl-1906.html
常规的文章采集简单,但是高铁(火车)采集器采集JS分页、瀑布流比较困难,点击加载的JavaScript,下拉加载类似ajax的列表页面,让很多新手无法下手。
陈沩亮博客会在此分享高铁火车采集器如何采集JS分页、点击加载ajax的列表。
火车采集器采集内容页网址写在JS中
首先目标页面需要抓包,简单的从网站抓取json数据,比较难的网站需要post方法,还需要填cookies,随机值,比如蘑菇街等等……
今天就来一个简单的火车头采集器如何获取JS调用的内容,以果壳网为例。
高铁火车头采集器如何获取JS调用的内容?
首先需要使用的是Chrome浏览器 ▼
1、首先在目标页面按F12
或Ctrl+Shift+C
打开检查元素,然后点击Network选项卡 ▼
2、点击XHR按钮,在页面上触发ajax加载,浏览器会监听页面数据的执行和变化 ▼
红框是抓取数据的地址 ▲
3、点击数据地址,右侧出现详细信息。 注意请求地址url的规律。 比如下图中,有时间戳和页码 ▼
四、在火车采集器中添加如下捕获的地址,并设置地址规则,然后是常规火车采集器设置。
欢迎转载《高铁火车采集器如何采集JS分页/点击加载ajax列表内容》
欢迎分享本文链接:https://www.chenweiliang.com/cwl-1906.html
网站地址:https://www.chenweiliang.com/
欲获取更多资讯内幕和秘技,欢迎进入Telegram频道:https://www.chenweiliang.com/go/tgchannel
没有评论:
发表评论