1.网络爬虫概述
1.1.什么是爬虫
简单的说,网络爬虫就是使用程序模拟人浏览网页的行为,并把看到的数据采集并整理下来。 从功能上讲,爬虫程序一般分为三个步骤,采集,处理,存储。爬虫从一个或若干初始网页的URL开始,获得原始页面数据;针对页面内容进行分析并筛选页面的有效数据;把数据整理并持久化。
1.2.爬虫的作用
搜索引擎:爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在采集回来的信息中进行检索,即实现了私人的搜索引擎。当然还需要有其他技术的支持,爬虫只是解决原始数据问题。
数据对比:例如很多商品在各大电商网站的平台上都有出售。可能每个平台的零售价都不一样,那么就可以获取每个电商网站的商品售价数据。类似的应用场景还非常多,例如收集招聘信息,收集音视频网站即将下架的影视作品。
写在最后:本文仅仅致力于技术方面的研究。对于爬虫的应用需要注意相关的法律法规。
2.程序入门
2.1.爬取数据的原理
以前是使用浏览器获取页面数据,使用爬虫就是模拟人打开浏览器访问服务器的过程。程序获取数据以后对页面数据进行分析并解析存储。
从刚刚下载的test.html中解析数据
public static void main(String] args) throws Exception {
Document doc = Jsoup.parse(new File(\"C:/Users/tree/Desktop/test.html\"), \"UTF-8\");
// 使用dom方式获取数据
Element element = doc.getElementsByClass(\"job-sec\").child(0);
System.out.println(element.text());
}