java爬虫详解及简单实例

Java爬虫

成都创新互联-成都网站建设公司，专注成都网站制作、做网站、网站营销推广，域名注册，网页空间，网站托管、服务器租用有关企业网站制作方案、改版、费用等问题，请联系成都创新互联。

一、代码

爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。

打开网页：

URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);

读取网页内容：

BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));

正则表达式进行匹配：

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果：

List list = new ArrayList();

/*
* 获取
* 将正则规则进行对象的封装。
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {

  public static void main(String[] args) throws IOException {
//    List list = getMails();
//    for(String mail : list){
//      System.out.println(mail);
//    }
  
    List list = getMailsByWeb();
    for(String mail : list){
      System.out.println(mail);
    }
  }

  public static List getMailsByWeb() throws IOException{
    //1,读取源文件。
    //URL url = new URL("http://192.168.1.100:8080/myweb/mail.html");
    //URL url = new URL("http://localhost:8080/SecondWeb/index.jsp");
    URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");

    BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List list = new ArrayList();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static List getMails() throws IOException{
    //1,读取源文件。
    BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List list = new ArrayList();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

当前名称：java爬虫详解及简单实例
转载源于：http://chengdu.cdxwcx.cn/article/pojipj.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

java爬虫详解及简单实例

其他资讯

丰台html5培训丰台php培训

jquerynow的简单介绍

linux撤销u命令 linux如何撤销

android技术选型 android技术路线

关于html5喷射效果的信息

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

java爬虫详解及简单实例

其他资讯

丰台html5培训 丰台php培训

jquerynow的简单介绍

linux撤销u命令 linux如何撤销

android技术选型 android技术路线

关于html5喷射效果的信息

成都网站建设设计将想法与焦点和您一起共享

丰台html5培训丰台php培训