URL 源码分析

需要了解的知识点:
URI、 URL 和 URN 的区别
URI 源码分析

URL 和URI的最大区别是:
URL可以定位到一个资源,也就是说,URL类可以访问URL指定的资源信息。
URI只是标识一个对象,所以URI类无法获取URI标识的对象。

下面通过源码来分析URL类的实现细节:

构造

public URL(String spec);
public URL(String protocol, String host, String file);
public URL(String protocol, String host, int port, String file)
public URL(String protocol, String host, int port, String file,
               URLStreamHandler handler);
public URL(URL context, String spec);
public URL(URL context, String spec, URLStreamHandler handler);

URL提供了6种不同的构造方法,使用那个构造方法取决你有那些信息以及信息形式。

  1. 根据一个字符串形式的URL,来构建URL对象。
  2. 根据 协议、主机名、文件来构造一个URL。
    使用该协议默认的端口,并且file参数应当以斜线开头,包括文件路径、文件名称和片段。
  3. 根据 协议、主机名、端口、文件来构造一个URL。
  4. 根据 协议、主机名、端口、文件和URLStreamHandler来构造一个URL。
    URLStreamHandler:主要是用来读取指定的资源,并返回该资源的一个流。
  5. 根据一个基础URL和一个相对URL来构建一个绝对URL。
  6. 根据一个基础URL和一个相对URL来构建一个绝对URL,并传入一个URLStreamHandler对象。

解析URL

URL主要是通过7部分组成,如下图:

URL格式
  1. 获得URL的协议
    public String getProtocol()

  2. 获得授权机构信息(包括用户信息、主机和端口)
    public String getAuthority()

  3. 获得用户信息(用户名和密码)
    public String getUserInfo()

  4. 获取主机地址(域名或ip地址)
    public String getHost()

  5. 获得端口
    public int getPort()

  6. 获得文件信息(路径、文件名和查询参数)
    public String getFile()

  7. 获得路径信息(路径、文件名)
    public String getPath()

  8. 获取查询参数信息
    public String getQuery()

  9. 获得片段信息
    public String getRef()

  10. 获得该协议默认端口
    public int getDefaultPort()

解析URL 示例

URL url = new URL("http://user:pass@localhost:8080/infcn/index.html?type=type1#aaa");
System.out.println("protocol   :\t"+url.getProtocol());
System.out.println("authority  :\t"+url.getAuthority());
System.out.println("userinfo   :\t"+url.getUserInfo());
System.out.println("host       :\t"+url.getHost());
System.out.println("port       :\t"+url.getPort());
System.out.println("file       :\t"+url.getFile());
System.out.println("path       :\t"+url.getPath());
System.out.println("query      :\t"+url.getQuery());
System.out.println("ref        :\t"+url.getRef());
System.out.println("defaultport:\t"+url.getDefaultPort());
URL 解析

URL 获取数据

从概念上区分:URI只是标识一个资源,而URL可以定位一个资源。
所以java总URI只负责解析URI功能,而URL有解析URL的功能,还有获取URL指定资源的数据。

可以通过以下5个方法来获取URL指定的资源数据
public URLConnection openConnection();
public URLConnection openConnection(Proxy proxy);
public final InputStream openStream();
public final Object getContent();
public final Object getContent(Class[] classes);

openConnection()方法

public URLConnection openConnection() throws java.io.IOException {
    return handler.openConnection(this);
}

直接调用URLStreamHandler.openConnection()方法获取URLConnection对象。URLConnection 对象可以获取原始的文档(如:html、纯文本、二进制图像等),还可以获取访问这个协议指定的所有的元数据(如:http协议的请求头信息)。URLConnection 对象除了从URL中读取资源外,还允许向URL中写入数据。(如:http post提交表单数据,mailto 发送电子邮件等)

URLStreamHandler可以让系统根据当前URL协议来选择响应的Handler,也可以使用扩展URLStreamHandler类来自定义实现相应资源的获取,也可以扩展协议。

URLStreamHandler 类结构

public abstract class URLStreamHandler{
    abstract protected URLConnection openConnection(URL u) throws IOException;

    protected URLConnection openConnection(URL u, Proxy p) throws IOException {
        throw new UnsupportedOperationException("Method not implemented.");
    }

    protected void parseURL(URL u, String spec, int start, int limit){
        ...
    }
    protected int getDefaultPort() {
        return -1;
    }

    protected boolean equals(URL u1, URL u2) {
        String ref1 = u1.getRef();
        String ref2 = u2.getRef();
        return (ref1 == ref2 || (ref1 != null && ref1.equals(ref2))) &&
               sameFile(u1, u2);
    }

    protected int hashCode(URL u){
        ...
    }

    protected boolean sameFile(URL u1, URL u2) {
        // Compare the protocols.
        if (!((u1.getProtocol() == u2.getProtocol()) ||
              (u1.getProtocol() != null &&
               u1.getProtocol().equalsIgnoreCase(u2.getProtocol()))))
            return false;

        // Compare the files.
        if (!(u1.getFile() == u2.getFile() ||
              (u1.getFile() != null && u1.getFile().equals(u2.getFile()))))
            return false;

        // Compare the ports.
        int port1, port2;
        port1 = (u1.getPort() != -1) ? u1.getPort() : u1.handler.getDefaultPort();
        port2 = (u2.getPort() != -1) ? u2.getPort() : u2.handler.getDefaultPort();
        if (port1 != port2)
            return false;

        // Compare the hosts.
        if (!hostsEqual(u1, u2))
            return false;

        return true;
    }

    ......
}

由此类可以看出,子类必须覆盖的方法是openConnection(URL u)方法,如果该协议支持代理模式,则也需要覆盖openConnection(URL u, Proxy p)方法。

URLStreamHandler 实例化

如果用户传过来的URLStreamHandler 实例,则需要验证安全性问题。比如:applet程序是在客户的浏览器端运行的java程序,他如果读取服务器上jar文件的时候就可以通过,如果读取客户端本地磁盘中的文件则不允许访问。代码如下图:


安全检查

如果用户没有指定URLStreamHandler实例,则通过protocol协议来决定使用哪个协议的URLStreamHandler的实例。代码如下:


Paste_Image.png

jdk的sun.net.www.protocol包中默认支持以下几种协议,当然用户也可以扩展URLStreamHandler实例,来实现自定义的协议。
java中默认支持的协议如下图:

Paste_Image.png

openConnection(Proxy proxy) 方法

public URLConnection openConnection(Proxy proxy) throws java.io.IOException {
    if (proxy == null) {
        throw new IllegalArgumentException("proxy can not be null");
    }

    // Create a copy of Proxy as a security measure
    Proxy p = proxy == Proxy.NO_PROXY ? Proxy.NO_PROXY : sun.net.ApplicationProxy.create(proxy);
    SecurityManager sm = System.getSecurityManager();
    if (p.type() != Proxy.Type.DIRECT && sm != null) {
        InetSocketAddress epoint = (InetSocketAddress) p.address();
        if (epoint.isUnresolved())
            sm.checkConnect(epoint.getHostName(), epoint.getPort());
        else
            sm.checkConnect(epoint.getAddress().getHostAddress(), epoint.getPort());
    }
    return handler.openConnection(this, p);
}

可以通过URL对象设置的代理来获取URLConnection对象。

openStream() 方法

public final InputStream openStream() throws java.io.IOException {
    return openConnection().getInputStream();
}

直接获取URL指定资源的流InputStream对象,该方法无法向URL中写如数据,也无法访问这个协议的所有的元数据(如:html协议的请求头)。

getContent() 方法

public final Object getContent() throws java.io.IOException {
    return openConnection().getContent();
}

getContent() 方法返回由URL引用的数据,尝试由它建立某种类型的对象。如果URL指定的资源是文本类型(如:html、asciii 文件),返回的就是InputStream对象。如果URL指定的资源是图片则返回java.awt.ImageProducer对象。

getContent(Class[] classes) 方法

final Object getContent(Class[] classes) throws java.io.IOException {
    return openConnection().getContent(classes);
}

该方法允许用户选择希望将内容作为那个类型返回。
例如,如果首先将HTML文件作为一个String返回,而第二个选择是Reader,第三个选择是InputStream,就可以编写一下代码:

URL u = new URL("http://www.jijianshuai.com");
Class<?> types = new Class[3];
types[0] = String.class;
types[1] = Reader.class;
types[2] = InputStream.class;
Object obj = u.getContent(types);

equals 方法

URL类的equals方法是调用URLStreamHandler对象的equals方法。

protected boolean equals(URL u1, URL u2) {
    String ref1 = u1.getRef();
    String ref2 = u2.getRef();
    return (ref1 == ref2 || (ref1 != null && ref1.equals(ref2))) &&
           sameFile(u1, u2);
    }

equals方法会对比 URL指向的主机、端口、文件路径和片段标识。当所有的都一样才会返回true,但equals方法也会尝试解析DNS,来判断两个主机是否相同。如:可以判断http://localhost:8080/index.htmlhttp://127.0.0.1:8080/index.html 两个URL是相等的。
equals方法底层是调用了sameFile()方法。

注意:
因为equals方法有解析DNS的功能,解析DNS是一个阻塞IO操作!所以应当避免URL存储在依赖equals()的数据结构中,如HashMap。如果要存储最后是使用URI来进行存储。URI的equals方法是不会解析DNS的。

sameFile(URL u1, URL u2) 方法

该方法作用和equals基本相同,这里也包括DNS解析,不过sameFile()不考虑片段标识问题。下面通过代码来解析sameFIle的实现。

protected boolean sameFile(URL u1, URL u2) {
    if (!((u1.getProtocol() == u2.getProtocol()) ||
          (u1.getProtocol() != null &&
           u1.getProtocol().equalsIgnoreCase(u2.getProtocol()))))
        return false;

    if (!(u1.getFile() == u2.getFile() ||
          (u1.getFile() != null && u1.getFile().equals(u2.getFile()))))
        return false;

    int port1, port2;
    port1 = (u1.getPort() != -1) ? u1.getPort() : u1.handler.getDefaultPort();
    port2 = (u2.getPort() != -1) ? u2.getPort() : u2.handler.getDefaultPort();
    if (port1 != port2)
        return false;

    if (!hostsEqual(u1, u2))
        return false;

    return true;
}
  1. 判断两个URL的协议是否一致
  2. 判断两个URL的获得文件信息是否一致。文件信息包括:路径、文件名和查询参数
  3. 判断两个URL的端口是否一致
  4. 判断host是否一致。调用hostsEqual方法来判断。

hostsEqual(URL u1, URL u2) 方法

protected boolean hostsEqual(URL u1, URL u2) {
    InetAddress a1 = getHostAddress(u1);
    InetAddress a2 = getHostAddress(u2);
    // if we have internet address for both, compare them
    if (a1 != null && a2 != null) {
        return a1.equals(a2);
    // else, if both have host names, compare them
    } else if (u1.getHost() != null && u2.getHost() != null)
        return u1.getHost().equalsIgnoreCase(u2.getHost());
     else
        return u1.getHost() == null && u2.getHost() == null;
}

该方法使用两个URL的host来构造InetAddress对象,调用InetAddress对象的getHost() 方法 来判断两个host是否一致。
InetAddress.getHost()可以通过DNS解析域名,来获取域名绑定的ip地址。


想了解更多精彩内容请关注我的公众号

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,602评论 18 399
  • 前言 多年以前自学Java,在本地做了一些笔记。最近几年流行播客,一方面防止丢失,一方面可以帮助其他小伙伴...
    chaohx阅读 1,032评论 0 3
  • 1 XML解析No29 【 XML:可拓展标记语言,语言和HTML类似,也是一种标记语言。 特点:标记是自定义...
    征程_Journey阅读 1,632评论 0 9
  • 一直想着要减肥,但是却总是为自己找借口; 第一次,在室友的带领下,差不多一小时跑了7公里,原来,我是可以跑这么长时...
    快乐的小胖胖阅读 466评论 1 1