Java爬虫(1)Jsoup入门

来源：图腾培训网更新：2021-12-05 13:59:14 | 关注2人

1.网络爬虫概述

1.1.什么是爬虫

简单的说，网络爬虫就是使用程序模拟人浏览网页的行为，并把看到的数据采集并整理下来。从功能上讲，爬虫程序一般分为三个步骤，采集，处理，存储。爬虫从一个或若干初始网页的URL开始，获得原始页面数据；针对页面内容进行分析并筛选页面的有效数据；把数据整理并持久化。

1.2.爬虫的作用

搜索引擎：爬虫自动地采集互联网中的信息，采集回来后进行相应的存储或处理，在需要检索某些信息的时候，只需在采集回来的信息中进行检索，即实现了私人的搜索引擎。当然还需要有其他技术的支持，爬虫只是解决原始数据问题。

数据对比：例如很多商品在各大电商网站的平台上都有出售。可能每个平台的零售价都不一样，那么就可以获取每个电商网站的商品售价数据。类似的应用场景还非常多，例如收集招聘信息，收集音视频网站即将下架的影视作品。

写在最后：本文仅仅致力于技术方面的研究。对于爬虫的应用需要注意相关的法律法规。

2.程序入门

2.1.爬取数据的原理

以前是使用浏览器获取页面数据，使用爬虫就是模拟人打开浏览器访问服务器的过程。程序获取数据以后对页面数据进行分析并解析存储。

从刚刚下载的test.html中解析数据

public static void main(String] args) throws Exception {

Document doc = Jsoup.parse(new File(\"C:/Users/tree/Desktop/test.html\"), \"UTF-8\");

// 使用dom方式获取数据

Element element = doc.getElementsByClass(\"job-sec\").child(0);

System.out.println(element.text());

}

点击排行

热门话题

19974831731