一点概念:
大多数网站都是以列表页和详情页的层次结构进行组织的,例如我们进入新浪新闻频道,有很多标题链接,这可认为是列表页,点标题链接后进入的新闻正文便是详情页。
列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。主要作用:通过列表页可获取多个详情页的链接。
详情页:包含具体内容的页面,如一篇网页文章,里面含有:标题,作者,发布日期,正文内容,标签等。
提示:详细说明可见列表页概念、详情页概念;
使用文章采集软件一般目的:大批量地获取详情页里面的具体内容数据,并使用这些数据进行各种分析,发布自有网站等等。详细步骤如下:
第一步:登录简数控制台
打开
简数数据采集平台-http://www.yuzn.com
页面,点击右上角控制台,注册账号并登录进入控制台。
第二步:创建采集任务
用户需先寻找要采集的网页,一般是 “列表页 + 详情页” 模式,教程以IT168网络安全频道--http://www.yuzn.com为例,用户可以跟着教程操作一遍。