Java爬虫之下载全世界国家的国旗图片

介绍

  本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗 的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片。项目不再过多介绍,具体可以参考上一篇博客。
  我们将全世界国家的名称放在一个txt文件中,每一行一个国家名字,该文件位于E盘flag目录下,名称为countries.txt, 部分内容如下:

countries.txt

爬虫程序

  我们这个爬虫的思路还是和上一篇博客的思路一样:先是读取countries.txt中的国家名称,以国家名称为参数,读取该国家搜索后的所在网页,再找到该搜索网页中的国家的国旗图片,并实现下载。这个搜索的过程,我们可以用Java的URL包中的POST方法来实现,关于POST方法的请求头和请求体,可以用Fiddler工具进行抓包分析。
  该Java项目的具体结构如下:

项目结构

其中用到的第三方API为commons-io和Jsoup,主函数为Country_Flag_Download.java,其java代码完整如下:

package wikiScrape;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

import org.apache.commons.io.FileUtils;

public class Country_Flag_Download {

    public static void main(String[] args){
        
        String fileName ="E://flag/countries.txt";
        // 读取countries.txt文件中的国家名,储存在ArrayList中
        ArrayList<String> countries = readFileByLines(fileName);
        
        for(String country: countries) {
            String page = doPost(country); // 获取国家所在的网页
            if (page.indexOf("html") >= 0) { // 获取成功
                getContent(page);            // 下载该国国家的国旗
            }
        }
        
        System.out.println("国旗下载完毕!");
        
    }

    /* 发送HTTP的POST请求,获取指定国家的网页地址
     * 传入参数:country(国家): String类型
     */
    public static String doPost(String country){

        String url = "http://country.911cha.com/";

        try {
            // 设置网址,打开连接
            URL obj = new URL(url);
            HttpURLConnection conn = (HttpURLConnection) obj.openConnection();
            
            // 设置POST请求头和请求体,请求体的参数为国家(country)
            conn.setUseCaches(false);
            conn.setRequestMethod("POST");
            String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36";
            conn.setRequestProperty("User-Agent", USER_AGENT);
            conn.setRequestProperty("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
            String postParams = String.format("q=%s", country);

            // 传入POST请求体的参数
            conn.setDoOutput(true);
            OutputStreamWriter os = new OutputStreamWriter(conn.getOutputStream(),"UTF-8");
            os.write(postParams);
            os.flush();
            os.close();
            
            // 获取响应结果状态码
            int responseCode = conn.getResponseCode();

            if (responseCode == HttpURLConnection.HTTP_OK) { //如果响应状态码为200

                // 将HTML内容解析成UTF-8格式
                Document doc = Jsoup.parse(conn.getInputStream(), "utf-8", url);
                // 刷选需要的网页内容
                String page = doc.select("div.mcon").get(1)
                                        .selectFirst("ul")
                                        .selectFirst("li")
                                        .selectFirst("a")
                                        .attr("href");
                return page;

            } 
            else { // 如果响应状态码不是200, 则返回"Get page failed!"
                return "Get page failed.!";
            }
        }
        catch(Exception e){
            return "Get page failed.";
        }
    }
    
    // getContent()函数主要实现下载指定国家的国旗
    public static void getContent(String page){
        
        String base_url = "http://country.911cha.com/";
        String url = base_url+page;
        
        try{
            // 利用URL解析网址
            URL urlObj =  new URL(url);
            // URL连接
            URLConnection urlCon = urlObj.openConnection(); // 打开URL连接
            // 将HTML内容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 刷选需要的网页内容
            Element image = doc.selectFirst("img");
            String flag_name = image.attr("alt").replace("国旗", "");
            String flag_url = image.attr("src");
            
            URL httpurl = new URL(base_url+'/'+flag_url);
            // 利用FileUtils.copyURLToFile()实现图片下载
            FileUtils.copyURLToFile(httpurl, new File("E://flag/"+flag_name+".gif"));
            
            System.out.println(String.format("%s国旗下载成功~", flag_name));
            
        }
        catch(Exception e){
            e.printStackTrace();
            System.out.println("下载失败!");
            
        }

    }
    
    // 以行读取文件,返回ArrayList, 里面的元素为每个国家的名称
    public static ArrayList<String> readFileByLines(String fileName) {  

        File file = new File(fileName);  
        BufferedReader reader = null;  // 设置reader为null
        ArrayList<String> countries = new ArrayList<String>();

        try {  

            reader = new BufferedReader(new FileReader(file));  
            String tempString = null;  
            
            // 一次读入一行,直到读入null为文件结束  
            while ((tempString = reader.readLine()) != null)
                countries.add(tempString); // 在列表中添加国家名称
             
            reader.close(); // 关闭reader
            
            return countries;
        } 
        catch (IOException e) {  
            return countries;  
        } 
        finally {  
            if (reader != null) {  
                try {  
                    reader.close();  
                }
                catch (IOException e1) {  
                    e1.printStackTrace();
                }  

            }  

        }  

    } 
    

}

运行结果

  点击运行该Java程序,可以发现在E盘的flag目录下已经下载了全世界国家的国旗图片,查看如下:

国旗图片

  Bingo, 我们的Java爬虫程序运行成功!本次爬虫的主要目标是为了在Java中实现类似于Python中的requests模块的POST方法~

注意:本人现已开通两个微信公众号: 因为Python(微信号为:python_math)以及轻松学会Python爬虫(微信号为:easy_web_scrape), 欢迎大家关注哦~~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容