如何解决java网络爬虫连接超时的问题

这篇文章将为大家详细讲解有关如何解决java网络爬虫连接超时的问题，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

成都创新互联主要业务有网站营销策划、成都网站设计、做网站、成都外贸网站建设公司、微信公众号开发、微信小程序定制开发、HTML5建站、程序开发等业务。一次合作终身朋友，是我们奉行的宗旨；我们不仅仅把客户当客户，还把客户视为我们的合作伙伴，在开展业务的过程中，公司还积累了丰富的行业经验、成都全网营销资源和合作伙伴关系资源，并逐渐建立起规范的客户服务和保障体系。

具体如下。

在网络爬虫中，经常会遇到如下报错。即连接超时。针对此问题，一般解决思路为：将连接时间、请求时间设置长一下。如果出现连接超时的情况，则在重新请求【设置重新请求次数】。

Exception in thread "main" java.net.ConnectException: Connection timed out: connect

下面的代码便是使用httpclient解决连接超时的样例程序。直接上程序。

package daili;
import java.io.IOException;
import java.net.URI;
import org.apache.http.HttpRequest;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.params.CookiePolicy;
import org.apache.http.client.protocol.ClientContext;
import org.apache.http.impl.client.BasicCookieStore;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.impl.client.DefaultHttpRequestRetryHandler;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.cookie.BasicClientCookie2;
import org.apache.http.params.HttpConnectionParams;
import org.apache.http.params.HttpParams;
import org.apache.http.protocol.BasicHttpContext;
import org.apache.http.protocol.ExecutionContext;
import org.apache.http.protocol.HttpContext;
import org.apache.http.util.EntityUtils;
/*
 * author:合肥工业大学 管院学院 钱洋 
 *1563178220@qq.com
*/
public class Test1 {
	public static void main(String[] args) throws ClientProtocolException, IOException, InterruptedException {
		getRawHTML("http://club.autohome.com.cn/bbs/forum-c-2098-1.html#pvareaid=103447");
	}
	public static String getRawHTML ( String url ) throws ClientProtocolException, IOException, InterruptedException{
		//初始化
		DefaultHttpClient httpclient = new DefaultHttpClient();
		httpclient.getParams().setParameter("http.protocol.cookie-policy", 
		        CookiePolicy.BROWSER_COMPATIBILITY);
		//设置参数
		HttpParams params = httpclient.getParams();
		//连接时间
		HttpConnectionParams.setConnectionTimeout(params, 6000);
		HttpConnectionParams.setSoTimeout(params, 6000*20);
		//超时重新请求次数
		DefaultHttpRequestRetryHandler dhr = new DefaultHttpRequestRetryHandler(5,true);
		HttpContext localContext = new BasicHttpContext();
		HttpRequest request2 = (HttpRequest) localContext.getAttribute( 
		        ExecutionContext.HTTP_REQUEST);
		httpclient.setHttpRequestRetryHandler(dhr);
		BasicCookieStore cookieStore = new BasicCookieStore();
		BasicClientCookie2 cookie = new BasicClientCookie2("Content-Type","text/html;charset=UTF-8");
		BasicClientCookie2 cookie1 = new BasicClientCookie2("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");
		cookieStore.addCookie(cookie);
		cookieStore.addCookie(cookie1);
		localContext.setAttribute(ClientContext.COOKIE_STORE, cookieStore);
		HttpGet request = new HttpGet();
		request.setURI(URI.create(url));
		HttpResponse response = null;
		String rawHTML = "";
		response = httpclient.execute(request,localContext);
		int StatusCode = response.getStatusLine().getStatusCode();
		//获取响应状态码
		System.out.println(StatusCode);
		if(StatusCode == 200){
			//状态码200表示响应成功
			//获取实体内容
			rawHTML = EntityUtils.toString (response.getEntity());
			System.out.println(rawHTML);
			//输出实体内容
			EntityUtils.consume(response.getEntity());
			//消耗实体
		} else {
			//关闭HttpEntity的流实体
			EntityUtils.consume(response.getEntity());
			//消耗实体
			Thread.sleep(20*60*1000);
			//如果报错先休息30分钟
		}
		httpclient.close();
		System.out.println(rawHTML);
		return rawHTML;
	}
}

结果：

如何解决java网络爬虫连接超时的问题

关于“如何解决java网络爬虫连接超时的问题”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

当前标题：如何解决java网络爬虫连接超时的问题
当前网址：http://chengdu.cdxwcx.cn/article/igshho.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

如何解决java网络爬虫连接超时的问题

其他资讯

二维背包java代码,背包 java

python读取月份函数,输出某个月的月历 python

html5手机相册,html5电子相册

包含macos系统beta版的词条

mysql不启动怎么操作,mysql不能启动是什么原因

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

如何解决java网络爬虫连接超时的问题

其他资讯

二维背包java代码,背包 java

python读取月份函数,输出某个月的月历 python

html5手机相册,html5电子相册

包含macos系统beta版的词条

mysql不启动怎么操作,mysql不能启动是什么原因

成都网站建设设计将想法与焦点和您一起共享