配置信息
角色 | IP地址:端口 | 说明 |
---|---|---|
master | localhost:6543 | 主 |
slave | localhost:6544 | 备 |
准备工作
# 主备目录都放在此目录下
mkdir /opt/pgsql/rep
cd /opt/pgsql/rep
# 归档日志存放目录
mkdir archives
# 启动日志存放目录
mkdir logs
创建主备的环境变量文件, 因为是在同一台机上起两个PG实例, 环境变量要各自设置。
vi master.env
export PGHOST=localhost
export PGPORT=6543
export PGMAJOR=12
export PGROOT=/opt/pgsql
export PGHOME=$PGROOT/pgsql-$PGMAJOR
export PGDATA=$PGROOT/rep/master
export PGLOGS=$PGDATA/pg_log
export PGARCHIVES=$PGROOT/rep/archives/master
export LD_LIBRARY_PATH=$PGHOME/lib
export PATH=$PGHOME/bin:$PATH
vi slave.env
export PGHOST=localhost
export PGPORT=6544
export PGMAJOR=12
export PGROOT=/opt/pgsql
export PGHOME=$PGROOT/pgsql-$PGMAJOR
export PGDATA=$PGROOT/rep/slave
export PGLOGS=$PGDATA/pg_log
export PGARCHIVES=$PGROOT/rep/archives/slave
export LD_LIBRARY_PATH=$PGHOME/lib
export PATH=$PGHOME/bin:$PATH
初始化master实例
新开一个shell终端(后续称为terminal_master
)
cd /opt/pgsql/rep
# 设置环境变量
source master.env
# 初始化主数据库
mkdir $PGARCHIVES
mkdir master
initdb
# 修改配置文件postgresql.conf
# vi master/postgresql.conf
# 找到对应的配置项, 改成下面的样子,
# 或者直接添加到文件末尾应该也可以,因为默认这些配置项都是注释掉的
listen_addresses = '*'
wal_level = replica
max_wal_senders = 20
wal_keep_segments = 64
archive_mode = on
archive_command = 'test ! -f $PGARCHIVES/%f && cp %p $PGARCHIVES/%f'
restore_command = 'cp $PGARCHIVES/%f %p'
recovery_target_timeline = 'latest'
full_page_writes = on
wal_log_hints = on
# 启动服务
pg_ctl -l logs/master.log start
less logs/master.log
# 创建流复制用户
psql -c " CREATE USER repuser replication LOGIN ENCRYPTED PASSWORD 'repuser';"
# 修改配置文件pg_hba.conf
# vi master/pg_hba.conf
host replication all localhost md5
# 重启服务
pg_ctl -l logs/master.log restart
# 停止服务的命令
pg_ctl stop
pg_ctl stop -m fast
新开一个shell终端(后续称为terminal_slave
)
cd /opt/pgsql/rep
# 设置环境变量
source slave.env
# 初始化从数据库
mkdir $PGARCHIVES
mkdir slave
chmod 0700 slave
# 拉取全量备份, 注意master用的端口是6543
pg_basebackup -D $PGDATA -Fp -Xs -v -P -h localhost -p 6543 -U repuser
# 因为postgresql.conf和pg_hba.conf都是从master拉取过来的, 所以不需要修改
# 如果slave/目录下没有standby.signal, 手工创建,添加以下内容
# vi slave/standby.signal
primary_conninfo = 'user=repuser password=repuser host=localhost port=6543'
archive_cleanup_command = 'pg_archivecleanup $PGARCHIVES %r'
standby_mode = on
# vi slave/postgresql.auto.conf
primary_conninfo = 'user=repuser password=repuser host=localhost port=6543'
archive_cleanup_command = 'pg_archivecleanup $PGARCHIVES %r'
# 启动服务
pg_ctl -l logs/slave.log start
less logs/slave.log
验证
经过上面几步, 一个一主一备的集群就搭建好了, 下面开始验证流复制是否工作正常。
验证角色
切换到terminal_master
终端
postgres@W520:/opt/pgsql/rep$ psql
psql (12.1)
Type "help" for help.
postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
f
(1 row)
切换到terminal_slave
终端
postgres@W520:/opt/pgsql/rep$ psql
psql (12.1)
Type "help" for help.
postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
t
(1 row)
一个false一个tree, 证明目前主备状态正常。
验证同步
切换到terminal_slave
终端
postgres=# \d
Did not find any relations.
切换到terminal_master
终端
postgres=# create table rep_test(id int,name text);
CREATE TABLE
切换到terminal_slave
终端
postgres=# \d
List of relations
Schema | Name | Type | Owner
--------+----------+-------+----------
public | rep_test | table | postgres
(1 row)
DDL能顺利同步。
验证从库只读
切换到terminal_slave
终端
postgres=# create table rep_test(id int,name text);
ERROR: cannot execute CREATE TABLE in a read-only transaction
验证主备切换
切换到terminal_master
终端
# 模拟主库宕机
pg_ctl stop -m fast
切换到terminal_slave
终端
# 查看当前角色: in archive recovery
pg_controldata | grep cluster
# 切换角色
pg_ctl promote
# 再次查看角色: in production
pg_controldata | grep cluster
# standby.signal文件已经被删除
ls slave | grep standby
vi slave/postgersql.auto.conf
# 发现primary_conninfo的配置还在, 虽然它现在已经是主了, 但primary_conninfo并没有删除
# 不知道是否需要手工删除???
切换到terminal_master
终端
# 如果master/目录下没有standby.signal, 手工创建,添加以下内容
# 注意端口是6544
# vi master/standby.signal
primary_conninfo = 'user=repuser password=repuser host=localhost port=6544'
archive_cleanup_command = 'pg_archivecleanup $PGARCHIVES %r'
standby_mode = on
# vi master/postgresql.auto.conf
primary_conninfo = 'user=repuser password=repuser host=localhost port=6544'
archive_cleanup_command = 'pg_archivecleanup $PGARCHIVES %r'
# 启动服务
pg_ctl -l logs/master.log start
less logs/master.log
# 验证主库变成了从库
postgres@W520:/opt/pgsql/rep$ psql
psql (12.1)
Type "help" for help.
postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
t
(1 row)
postgres=# \d
Did not find any relations.
# 因为做了`drop table rep_test;`操作, 所以现在没有表了。
切换到terminal_slave
终端
create table rep_test(id int,name text);
insert into rep_test values(1,'slave instance added');
select * from rep_test;
切换到terminal_master
终端
postgres=# select * from rep_test;
id | name
----+----------------------
1 | slave instance added
(1 row)
主备切换完成, 且数据同步工作正常。
练习
目前虽然工作正常, 但是角色是互换了的, 后续可以停掉slave
,再做一次主备切换, 恢复成原始状态。
这个就作为练习了, 不再贴出操作步骤。
后续
目前是靠手工切换主备的, 线上系统一般都要配置成自动切换, 这个时候就需要引入一些其他手段了, 譬如patroni
之类的HA工具。