绵新网
 
当前位置: 首页 » 资讯 » 科技 » 正文

什么是网络爬虫?

放大字体  缩小字体 发布日期:2018-09-15  来源:信息链  作者:毛胜  浏览次数:48871
核心提示:什么是爬虫?爬虫架构是怎么回事呢?
        互联网的爬虫是怎么来的,很多小伙伴可能都不知道吧!
我们平常使用的浏览器里面的内容大部分都是由爬虫在各大网页中抓取出来的,在经过一系列的程序来供我们搜索浏览。
例如我们熟悉的百度、360、搜狗等浏览器都有自己专属的爬虫,那么爬虫是怎样组成的呢?
爬虫主要是由三大块组成的:
        URL管理器网页下载器网页解析器
所谓的URL管理器是管理待抓取URL集合和已抓取URL的集合。
那为什么要对URL进行管理呢?
  为了防止重复抓取、循环抓取。
只有避免了这些,才能不断的更新内容。
网页下载器是将互联网上URL对应的网页下载到本地的工具。
将搜索到的信息,以HTML的形式保存为一组字符串。
网页解析器是从网页中提取有价值的数据工具。
从HTML网页字符串中解析出有价值的数据然后再创建一个新的URL列表。
经过这些程序在输出
这就是简单爬虫的架构了。
想了解更多的资讯请上信息链

 
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
推荐图文
推荐资讯
点击排行