记一次vpc迁移
关键词
VPC , Docker network
起因
公司新买了几台服务器当海外服,都是在同一个VPC下的,但因为之前还有一台服务器运行在阿里云的经典网络下,并不在这个VPC内,所以我想把服务器都迁过来,好管理,搭建服务也比较方便.
以防万一,在预约了经典网络迁移到专有网络之前, 我详细地询问了阿里云的工作人员相关迁移事宜,包括停机时间,RDS 数据库访问,vpc迁移网络变化等等一系列问题,结果大概就是停机15分钟左右,RDS 可以正常访问,不会影响该vpc中其他的主机等,也大致看了相关的文档,了解了一下有什么风险点.
迁移
在确保没什么问题之后,我就预约了迁移.大概等了20分钟后,登录! 重新启动了docker server,启动web服务器,在此之前仿佛一切都很顺利.
查看日志,在运行到Hibernate Commons Annotations
的时候突然卡着不动了,我仿佛感觉到一个不详的预兆,没过几秒程序就报错了.
Caused by: java.net.UnknownHostException: xxxx-xxxx.mysql.rds.aliyuncs.com
at java.net.InetAddress.getAllByName0(InetAddress.java:1280)
at java.net.InetAddress.getAllByName(InetAddress.java:1192)
at java.net.InetAddress.getAllByName(InetAddress.java:1126)
at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:188)
at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:298)
... 67 more
UnknownHostException
看到 UnknownHostException
我的第一个反应就是地址写错了?但又想了想迁移之前明明运行的好好的?带着疑惑,我还是检查了RDS的地址是否正确.嗯,仔细地对照了控制台上的RDS地址,确实没错.
然后又检查了一遍 RDS 的白名单,对照了服务器的公网/内网ip,没错呀.虽然都没错,但是我发现RDS 实例还是经典网络,并不是使用 VPC 的网络.带着疑惑,我检查了一遍以后,决定将 RDS 也迁移到这个 VPC 中来.
RDS 迁移的过程很顺利,并且提示我保留了原来的经典网络地址.在迁移之后,将地址改为迁移之后的内网地址,重新打包上传了代码.重启服务! 结果仍然是 UnknownHostException
.我仍然没死心,在本地准备连 RDS 迁移后的外网地址试试, 原本以为会失败,结果没想到成功了.
我越来越不明白了.
重新上传了这份代码,放到服务器上,重启服务.程序运行到一半卡住的时候,我就感觉到这次又失败了.果然一样的 UnknownHostException
难道是域名解析的问题?
在网上搜了下 UnknownHostException
,但是没有什么结果.
想了一会儿,又测试了几次.原有的经典网络地址也没法访问,没法子,就下了个阿里云工单,问问是不是迁移时出了什么问题.
阿里云的工程师让我直接用 迁移后RDS 的ip试试, 我在服务器 ping 了RDS的地址,ping通了, 找到了这个域名的ip .然后重新改了数据库的地址,上传了代码,重启服务.
Caused by: java.net.NoRouteToHostException: No route to host (Host unreachable)
at java.net.PlainSocketImpl.socketConnect(Native Method)
at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
at java.net.Socket.connect(Socket.java:589)
at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:211)
at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:298)
... 67 more
第一次失败!
然后我又尝试在 docker 启动容器时指定 dns 地址
docker run -d --dns 8.8.8.8 -p 8000:8080 -name [容器名] -v xxx:xxx [镜像名]
启动之后,还是连接不上!
看来,也不是域名解析的问题.
折中的办法
在上面的测试中,我开始意识到容器内部的网络好像是出了什么问题.
我继续测试了宿主机(也就是这台迁移的服务器)
telnet [rds地址] 3306
ping [vpc中其他主机 ip]
连接都成功了
接着,进入了容器的内部:
docker exec -it [容器名] /bin/bash
继续ping了vpc中其他主机
ping [vpc中其他主机 ip]
连接失败,外网也是如此.看来问题就出在这里了.
在网上搜了搜,docker 容器内使用宿主机网络, 看了半天好像没有什么和我的情况一样的.
为了了解地更深一点,我又大致看了看 docker 的网络管理, 默认docker 使用bridge驱动的. 我想了想,是不是这部分出了问题.于是重新启动了一个镜像.
docker run --net=host -v xxx:xxx -name xxx [镜像名]
启动成功了,数据库也连上了,也明确了确实是docker network bridge驱动
的问题,事情就这样解决了么?
尝试重置
查看了下 docker server 的版本是1.12
,心想难道是 docker 版本过低了?
在备份了服务器的 docker 日志之后,我决定更新下 docker.
更新重启之后,然而事实还是,使用 docker network bridge
在容器内部仍然连不上宿主机的网络.(这里并没有使用--net=host
)
在 google 上搜索了 docker bridge network not working
之后, 我极不情愿的使用了StackOverFlow.com: My docker container has no internet 中的方法 -- 重置docker网络. 一来我对这些命令并不是特别熟悉,二来重装docker之后没有成功,让我失去了对这个方法的信心
命令如下
pkill docker
iptables -t nat -F
ifconfig docker0 down
brctl delbr docker0
sudo systemctl start docker
查了点资料,具体解释如下
iptables
iptables -t nat -F
简单的来讲就是: 删除 nat(Network Address Translation) 中所有规则
注 意 : 其实 iptables -F -X
这些命令十分危险,谨慎使用 ! 连远程主机的时候,一不小心就把自己也关在外面了,然后再也进不来了...
ifconfig
ifconfig docker0 down
关闭名称为 docker0 的网桥
docker0
到底是什么呢 ? 它 docker server 在启动时,会创建一个 docker0
的网桥,默认所有的容器都通过它访问宿主机的网络
brctl
需要先安装yum install bridge-utils
brctl delbr docker0
brctl 是一个管理网桥的工具,这个命令的意思是: 删除 docker 默认的网桥
重启docker
最后重新启动 docker server, 启动 web 服务容器,不幸的是, 容器内部依然无法和外部通讯.
最终解决
尝试了各种方法无法成功的我 , 确实有点心灰意冷.
翻着网页上的解决方案 , 翻着翻着, 开始想到这个故事的源头 -- 没错,就是 VPC .
会不会是 VPC 的IP地址段和 docker 内部的IP地址段冲突了呢?
查看了 VPC 的 IP 地址,又看了看 docker0
的ip,果然 冲突了!
问题源头找到了, 那就好办了.
修改了 /etc/docker/daemon.josn
, 自定义了docker0
默认 ip 段
"bip":"170.26.0.1/24"
重启了 docker server ,启动 web 服务器 , RDS 连接正常!
终于问题解决!
对于折中方法的思考
虽然使用 host 驱动(docker network 有 默认的bridge驱动,host驱动,overlay驱动,null驱动等)解决了上面容器中访问不了网络的问题,但是和宿主机使用了同一个网络栈,但实际没有进行 network namespace
隔离,缺乏安全性,容器之间容易相互干扰.
反思
这次的事情也给我提了个醒,迁移之中出现问题是相对大概率的事件,一来我没有好好准备,二来对 docker 内部的原理并没有真正的了解,导致了这个问题花了我相当长的时间才解决这个问题.
说不多说,继续加油吧,毕竟还有那么多血小板等着我养呢 Σ(  ̄□ ̄||)
讨论
最后,对这篇文章有疑问的欢迎来 Github: 记一次vpc迁移 讨论哦
参考
Docker : docker 官网介绍 network bridge
StackOverFlow : My docker container has no internet
StackOverFlow : How to change Docker IP address on Centos 7?
转载事宜
请在转载文章显著位置给出原文出处:
记一次vpc迁移 https://github.com/giraffe-tree/giraffe-tree.github.io/issues/1