基于bbr拥塞控制的云盘提速实践,bbr拥塞云盘提速

基于bbr拥塞控制的云盘提速实践,bbr拥塞云盘提速

女主宣言

云盘的速度是业界硬指标,是产品口碑和形象。传统的提速手段是大多基于代理服务器,用合适的代理连接用户与存储服务器。此方式有一定效果,但未结合国内网络情况和网络原理进行解决。bbr拥塞控制算法针对长肥网络有很好的疗效,非常适合广域网情况,实践后速度迅猛提升。本文来自奇虎360云盘事业部,让我们来了解下,360云盘是怎样通过bbr拥塞控制算法来实现提速的。

PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!

引言

云盘作为数据存储产品,无论个人还是公司使用,其速度均是第一指标,也是用户评判云盘好坏的关键因素。速度上的提升会带来好的用户体验,以及用户粘连性。所以提速成为迫切需求。

传统tcp拥塞控制

1

广域网络环境

目前广域网普遍属于高带宽,高延迟,存在一定丢包率。网络丢包存在两种情况,第一为拥塞丢包,第二为错误丢包。错误丢包可能是网络传输过程中异常导致,大概有十万分之一的概率。

国内有很多二级运营商,它们大多为共享带宽,其网络buffer也是共享,网络共享buffer打满,会导致丢包,此类丢包造成滑动窗口折半,发送速率骤降。实则各用户带宽并未完全打满。

此类网络以下统称为长肥网络:即往返时间长,但带宽较大。

2

传统tcp拥塞控制算法

传统tcp拥塞控制目的是最大化打满网络带宽。一条链路就像水管,装满此水管需要估算管内容量。

管内容量 = 水管粗细(链路带宽) * 水管长度(往返延迟)

拥塞控制过程:慢启动、加性增、乘性减。开始指数增加发送窗口,遇到丢包快速折半发送窗口,降低发送速率。

3

 tcp拥塞控制无法解决如下问题

无法定位丢包原因

无法区分丢包是拥塞导致还是错误导致,如果是网络传输错误导致丢包,其实还未打满带宽。在有一定丢包率的长肥网络中发送窗口会收敛到很小,导致发包速率很小。

缓冲区膨胀问题

网络缓冲区膨胀,网络中有一些buffer,用于吸收波动的流量。开始阶段以指数级速率快速发包,导致buffer快速打满,buffer满后会产生丢包。丢包造成发送窗口骤降,而后发送窗口和buffer都会逐渐下降收敛。此情况未能打满带宽以及buffer使用率。认为此类丢包是带宽打满,实则不然,只是开始过快的增长导致buffer打满丢包而已。

图2.1 缓冲区膨胀现象

bbr拥塞控制

1

解决上述两类问题

  1. 不考虑丢包情况,因为无法区分拥塞丢包,错误丢包。

2.
缓冲区膨胀现象是同时估计带宽和延迟导致的。因为发送窗口需要这两参数计算出管内容量,但同时计算会导致不准。例如:要测最大带宽需灌满水管,此时延迟必然高,因为缓冲区占满,包排队需时间。而要测最低延迟,需网络流量低,此时缓冲区基本为空,延迟低,但此时管内带宽估值也低。所以无法同时测量带宽和延迟的最好情况,即最大带宽和最低延迟。这就是本质,为什么传统tcp在长肥网络中很难打满带宽。

解决办法:分别估算带宽和延迟,以计算出最合适的管内容量。

2

bbr拥塞控制过程

慢启动

指数增长发包,不理会丢包,不折半窗口,只检查有效带宽是否还再增长,直到有效带宽不再增长为止。有效带宽是指还未开始占用buffer。

排空阶段

慢启动后,发包量依然有3倍管内容量,此时降低发包速率,以免管中多余包占满buffer,导致丢包。

带宽探测阶段

每8个往返为一个周期,第一个往返,bbr尝试以
5/4速率增大发包,以估算带宽是否打满,第二个周期以
3/4速率降低发包,以排空buffer中的冗余包,避免发生膨胀。剩下6个往返以新的带宽估算速率发包。如此为一个周期,不断探测直到打满真实带宽,如图3.1所示。

延迟探测阶段

每隔10秒,如果未发现新的最低延迟。此时发送窗口减到4个包,以此段时间发包的最低延迟作为估值。然后发送窗口回到之前的状态。

图3.1 带宽检测持续增长,绿色为发包数量,蓝色为延迟

图3.2 丢包率和有效带宽示意图。绿色为bbr,红色为传统tcp

3

bbr小结

bbr开始阶段不会迅猛打满管道,主要是避免缓冲区膨胀带来的丢包和延迟,后续交替探测带宽和延迟。探测带宽时,先增大发送速率后减小,也是避免缓冲区膨胀问题,丢包率降低不断收到有效ack,进而持续增大发送窗口,如此轮回得到最大带宽。探测延迟时,发送窗口降为4个包,此时缓冲区未占满,管内通畅,探测到的延迟也是低而准的。交替探测带宽和延迟得到准确的管内容量,排空方式能避免缓冲区膨胀带来的丢包和延迟。

4

bbr适合场景

  1. 存在一定丢包率的高带宽,高延迟网络。

  2. buffer较小的慢接入网络。

bbr在云盘中的实践

内核升级

代理服务器内核升级到4.9以上

开启bbr拥塞控制算法

echo “net.core.default_qdisc=fq” >> /etc/sysctl.conf

       echo “net.ipv4.tcp_congestion_control=bbr” >>
/etc/sysctl.conf

       sysctl -p

       sysctl net.ipv4.tcp_available_congestion_control

       sysctl -n net.ipv4.tcp_congestion_control

调整tcp内核参数

调整tcp内核参数,让滑动窗口大小突破64kb

sysctl net.ipv4.tcp_window_scaling=1

提速结果

人均速度提升

图4.1 人均速度图

人均速度提升:50%左右

速度区域占比提升

图4.2 速度区域占比图,蓝色为1M/s- 2M/s,绿色为2M/s以上

1M以上人数占比提升:100%左右

参考文献:

[1] Cardwell, Neal, et al. “BBR: Congestion-Based Congestion Control.”
Queue14.5 (2016): 50.

扫描下方二维码了解更多内容

CentOS 7 开启 BBR 为VPS加速

Linux之TCPIP内核参数优化

什么是BBR

TCP
BBR是谷歌出品的TCP拥塞控制算法。BBR目的是要尽量跑满带宽,并且尽量不要有排队的情况。BBR可以起到单边加速TCP连接的效果。替代锐速再合适不过,毕竟免费。

Google提交到Linux主线并发表在ACM
queue期刊上的TCP-BBR拥塞控制算法。继承了Google“先在生产环境上部署,再开源和发论文”的研究传统。TCP-BBR已经再YouTube服务器和Google跨数据中心的内部广域网(B4)上部署。由此可见出该算法的前途。

TCP-BBR的目标就是最大化利用网络上瓶颈链路的带宽。一条网络链路就像一条水管,要想最大化利用这条水管,最好的办法就是给这跟水管灌满水。

 

BBR解决了两个问题:

再有一定丢包率的网络链路上充分利用带宽。非常适合高延迟,高带宽的网络链路。

降低网络链路上的buffer占用率,从而降低延迟。非常适合慢速接入网络的用户。

项目地址:

Google 在 2016年9月份开源了他们的优化网络拥堵算法BBR,最新版本的
Linux内核(4.9-rc8)中已经集成了该算法。

对于TCP单边加速,并非所有人都很熟悉,不过有另外一个大名鼎鼎的商业软件“锐速”,相信很多人都清楚。特别是对于使用国外服务器或者VPS的人来说,效果更佳。

网上有很多在 Debian 和 Ubuntu 系统下启用 BBR
的教程,我就不粘贴了,我自己一直用的是 CentOS,本文介绍一下在 64位
CentOS 7 系统下开启BBR的方法。

升级内核

/proc/sys/net目录

第一步首先是升级内核到支持BBR的版本:

# 下载 linux 内核 4.9-rc8 的 deb 包wget

加压缩下载好的 deb 包ar x
linux-image-4.9.0-rc8-amd64-unsigned_4.9~rc8-1~exp1_amd64.deb#
执行完上面的命令后,会得到 *control.tar.gz*, *data.tar.xz*,
*debian-binary* 三个文件# 继续解压 *data.tar.xz* 文件tar -Jxf
data.tar.xz# 执行完这一步的命令之后,会得到 *boot*, *lib*, *usr*
三个文件夹# 安装可引导的内核镜像install -m644
boot/vmlinuz-4.9.0-rc8-amd64 /boot/vmlinuz-4.9.0-rc8-amd64#
复制内核模块cp -Rav lib/modules/4.9.0-rc8-amd64 /lib/modules/#
分析可载入模块的相依性,产生模块依赖的映射文件depmod -a
4.9.0-rc8-amd64# centos 6 以上版本执行这条命令dracut -f -v –hostonly
-k ‘/lib/modules/4.9.0-rc8-amd64’/boot/initramfs-4.9.0-rc8-amd64.img
4.9.0-rc8-amd64# 更新 grub2 的配置文件grub2-mkconfig -o
/boot/grub2/grub.cfg

  所有的TCP/IP参数都位于/proc/sys/net目录下(请注意,对/proc/sys/net目录下内容的修改都是临时的,任何修改在系统重启后都会丢失),例如下面这些重要的参数:

调整GRUB启动顺序

在安装好新版本内核以后,要先用新安装的内核引导系统看看能否正常启动,下面是直接调整
GRUB2 启动顺序的命令:

# 查看可用的启动项cat /boot/grub2/grub.cfg |grep CentOS

执行完这条命令以后,能看到多条以 menuentry
开头的项目,每一项都是一个内核引导选项,紧跟在 menuentry
后面,以单引号包围的部分就是这一条启动项的 “title”,比如我的是:

menuentry ‘CentOS Linux (4.9.0-rc8-amd64) 7 (Core)’ –class rhel fedora
–class gnu-linux ….menuentry ‘CentOS Linux
(3.10.0-327.36.3.el7.x86_64) 7 (Core)’ –class rhel fedora –class
gnu-linux …menuentry ‘CentOS Linux
(0-rescue-731edbf944d54068a3249dee56ed3727) 7 (Core)’ –class rhel
fedora –class gnu-linux –class gnu …

可以看到第一条单引号中的就是我们新安装的 4.9-rc8
内核,我们要使用这一项来引导。

# 设置默认 4.9-rc8 的引导项为默认引导项grub2-set-default “CentOS Linux
(4.9.0-rc8-amd64) 7 (Core)”#
验证一下,如果上一条命令执行成功,执行下面的命令应该能看到
`saved_entry=CentOS Linux (4.9.0-rc8-amd64) 7 (Core)`grub2-editenv
list# 重新生成 grub2 的配置文件grub2-mkconfig -o /boot/grub2/grub.cfg#
重启系统reboot

 

修改sysctl 开启 BBR

重启系统之后,通过 uname -a 或者其它命令可以看到我们的内核已经是
4.9.0-rc8-amd64 了,接下来开启 BBR

echo “net.core.default_qdisc=fq” >> /etc/sysctl.confecho
“net.ipv4.tcp_congestion_control=bbr” >> /etc/sysctl.conf# 加载
/etc/sysctl.conf
文件中的参数并显示,主要看看有没有报错的设置(显示的结果与你的配置文件内容有关)sysctl
-p# 验证 bbr 是否开启,如果成功,应该会看到
net.ipv4.tcp_congestion_control = bbrsysctl
net.ipv4.tcp_available_congestion_control#
依然是验证,如果成功,应该会看到类似 tcp_bbr163843 这样的文字lsmod |
grep bbr

7 开启 BBR 为VPS加速 什么是BBR TCP
BBR是谷歌出品的TCP拥塞控制算法。BBR目的是要尽量跑满带宽,并且尽量不要有排队的情况。BBR可以起…

参数(路径+文件)

 

描述

 

默认值

 

优化值

 

/proc/sys/net/core/rmem_default

 

默认的TCP数据接收窗口大小(字节)。

 

229376

 

256960

 

/proc/sys/net/core/rmem_max

 

最大的TCP数据接收窗口(字节)。

 

131071

 

513920

 

/proc/sys/net/core/wmem_default

 

默认的TCP数据发送窗口大小(字节)。

 

229376

 

256960

 

/proc/sys/net/core/wmem_max

 

最大的TCP数据发送窗口(字节)。

 

131071

 

513920

 

/proc/sys/net/core/netdev_max_backlog

 

在每个网络接口接收数据包的速率比内核处理这些包的速率快时,允许送到队列的数据包的最大数目。

 

1000

 

2000

 

/proc/sys/net/core/somaxconn

 

定义了系统中每一个端口最大的监听队列的长度,这是个全局的参数。

 

128

 

2048

 

/proc/sys/net/core/optmem_max

 

表示每个套接字所允许的最大缓冲区的大小。

 

20480

 

81920

 

/proc/sys/net/ipv4/tcp_mem

 

确定TCP栈应该如何反映内存使用,每个值的单位都是内存页(通常是4KB)。第一个值是内存使用的下限;第二个值是内存压力模式开始对缓冲区使用应用压力的上限;第三个值是内存使用的上限。在这个层次上可以将报文丢弃,从而减少对内存的使用。对于较大的BDP可以增大这些值(注意,其单位是内存页而不是字节)。

 

94011  125351  188022

 

131072  262144  524288

 

/proc/sys/net/ipv4/tcp_rmem

 

为自动调优定义socket使用的内存。第一个值是为socket接收缓冲区分配的最少字节数;第二个值是默认值(该值会被rmem_default覆盖),缓冲区在系统负载不重的情况下可以增长到这个值;第三个值是接收缓冲区空间的最大字节数(该值会被rmem_max覆盖)。

 

4096  87380  4011232

 

8760  256960  4088000

 

/proc/sys/net/ipv4/tcp_wmem

 

为自动调优定义socket使用的内存。第一个值是为socket发送缓冲区分配的最少字节数;第二个值是默认值(该值会被wmem_default覆盖),缓冲区在系统负载不重的情况下可以增长到这个值;第三个值是发送缓冲区空间的最大字节数(该值会被wmem_max覆盖)。

 

4096  16384  4011232