IT博文
MySQL 事务隔离级别详解
使用 docker compose 安装 tidb
架构师日记-如何写的一手好代码
生产事故-记一次特殊的OOM排查
Docker安装RabbitMQ——基于docker-compose工具
使用 docker-compose 部署单机 RabbitMQ
只需3步,即刻体验Oracle Database 23c
长达 1.7 万字的 explain 关键字指南!
Redis为什么能抗住10万并发?揭秘性能优越的背后原因
深度剖析Redis九种数据结构实现原理
【绩效季】遇到一个好领导有多重要,从被打差绩效到收获成长
为什么Redis不直接使用C语言的字符串?
Java阻塞队列中的异类,SynchronousQueue底层实现原理剖析
如何调整和优化 Go 程序的内存管理方式?
应用部署引起上游服务抖动问题分析及优化实践方案
Java 并发工具合集 JUC 大爆发!!!
卷起来!!这才是 MySQL 事务 & MVCC 的真相。
JDK8 到 JDK17 有哪些吸引人的新特性?
告别StringUtil:使用Java 11的全新String API优化你的代码
从JDK8飞升到JDK17,再到未来的JDK21
Java JMH Benchmark Tutorial
linux和macOS下top命令区别
Windows10关闭Hyper-V的三种方法
为什么应该选择 POSTGRES?
阿里云对象存储 OSS 限流超过阈值自动关闭【防破产,保平安】
Java高并发革命!JDK19新特性——虚拟线程(Virtual Threads)
“请不要在虚拟机中运行此程序”的解决方案
Spring中的循环依赖及解决
浅谈复杂业务系统的架构设计 | 京东云技术团队
面试题:聊聊TCP的粘包、拆包以及解决方案
操作日志记录实现方式
字节跳动技术团队-慢 SQL 分析与优化
Spring Boot 使用 AOP 防止重复提交
Controller层代码就该这么写,简洁又优雅!
SpringBoot 项目 + JWT 完成用户登录、注册、鉴权
重复提交不再是问题!SpringBoot自定义注解+AOP巧妙解决
SpringBoot 整合 ES 实现 CRUD 操作
SpringBoot 整合 ES 进行各种高级查询搜索
SpringBoot操作ES进行各种高级查询
SpringBoot整合ES查询
如何做架构设计? | 京东云技术团队
最值得推荐的五个VPN软件(便宜+好用+稳定),靠谱的V2ray梯子工具
我说MySQL每张表最好不超过2000万数据,面试官让我回去等通知?
vivo 自研鲁班分布式 ID 服务实践
使用自带zookeeper超简单安装kafka
推荐 6 个很牛的 IDEA 插件
喜马拉雅 Redis 与 Pika 缓存使用军规
「程序员转型技术管理」必修的 10 个能力提升方向
jdk17 下 netty 导致堆内存疯涨原因排查 | 京东云技术团队
如何优雅做好项目管理?
MySQL 到 TiDB:Hive Metastore 横向扩展之路
聊聊即将到来的 MySQL5.7 停服事件
Linux终端环境配置
微软 Edge 浏览器隐藏功能一览:多线程下载、IE 模式、阻止视频自动播放等
Hutool 中那些常用的工具类和实用方法
clash 内核删库?汇总目前常用的内核仓库和客户端
JDK11 升级 JDK17 最全实践干货来了 | 京东云技术团队
我是如何写一篇技术文的?
虚拟线程原理及性能分析
Java线程池实现原理及其在美团业务中的实践
Editplus和EmEditor配置一键编译java运行环境
用Spring Boot 3.2虚拟线程搭建静态文件服务器有多快?
SpringBoot中使用LocalDateTime踩坑记录 - 程序员偏安 - 博客园
程序员必备!10款实用便捷的Git可视化管理工具 - 追逐时光者 - 博客园
基于Netty开发轻量级RPC框架
开发Java应用时如何用好Log
复杂SQL治理实践 | 京东物流技术团队
火山引擎ByteHouse:分析型数据库如何设计并发控制?
多次崩了之后,阿里云终于改了
推荐程序员必知的四大神级学习网站
初探分布式链路追踪
新项目为什么决定用 JDK 17了
Java上进了,JDK21 要来了,并发编程再也不是噩梦了
mapstruct这么用,同事也开始模仿
再见RestTemplate,Spring 6.1新特性:RestClient 了解一下!
【MySQL】MySQL表设计的经验(建议收藏)
如何正确地理解应用架构并开发
解读工行专利CN112905176B
工商银行取得「基于 Spring Boot 的 web 系统后端实现方法及装置」专利
IDEA 2024.1:Spring支持增强、GitHub Action支持增强、更新HTTP Client等
TIOBE 2 月:Go 首次进入前十、“上古语言” COBOL 和 Fortran 排名飙升
Java 21 虚拟线程如何限流控制吞吐量
🎉 通用、灵活、高性能分布式 ID 生成器 | CosId 2.6.6 发布
20年编程,AI编程6个月,关于Copliot辅助编码工具,你想知道的都在这里
Java 8 内存管理原理解析及内存故障排查实践
消息队列选型之 Kafka vs RabbitMQ
从 MongoDB 到 PostgreSQL 的大迁移
腾讯云4月8日故障复盘及情况说明
PHP 在 2024 年还值得学习吗?
AMD集显安装显卡驱动之后出现黑屏,建议这样解决
使用 Docker 部署 moments 微信朋友圈 - 谱次· - 博客园
Java 17 是最常用的 Java LTS 版本
盘点Lombok的几个骚操作
Llama 3 + Ollama + Open WebUI打造本机强大GPT
如何优雅地编写缓存代码
Gmeek快速上手
笔记软件思源远程和本地接入大语言模型服务Ollama实现AI辅助写作(Windows篇)
Git Subtree:简单粗暴的多项目管理神器
这款轻量级规则引擎,真香!!
Ollama教程:本地LLM管理、WebUI对话、Python/Java客户端API应用
GLM-4-9B支持 Ollama 部署
智谱AI开源代码生成大模型第四代版本:CodeGeeX4-ALL-9B
美团二面:如何保证Redis与Mysql双写一致性?连续两个面试问到了!
免费开源好用,Obsidian和Omnivore真正实现一键联动剪藏文章,手把手教程!
得物 Redis 设计与实践
架构图怎么画?手把手教您,以生鲜电商为例剖析业务/应用/数据/技术架构图
使用Hutool要注意了!升级到6.0后你调用的所有方法都将报错 - 掘金
别再用雪花算法生成ID了!试试这个吧
无敌的Arthas!
Navicat Premium v16、v17 破解激活
🎉 分布式接口文档聚合,Solon 是怎么做的?
深入体验全新 Cursor AI IDE 后,说杀疯了真不为过!
Nacos 3.0 架构全景解读,AI 时代服务注册中心的演进
本文档使用 MrDoc 发布
-
+
火山引擎ByteHouse:分析型数据库如何设计并发控制?
> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 分析型数据库设计并发控制的主要原因是为了确保数据的完整性和一致性,同时提高数据库的吞吐量和响应速度。并发控制可以防止多个事务同时对同一数据进行修改,导致数据不一致的情况发生。通过合理的并发控制策略,分析型数据库可以在保证数据一致性的前提下,最大限度地提高数据库的并发处理能力,从而提高整体性能。 此外,并发控制也可以有效减少事务因等待锁释放而造成的延迟,确保数据库能够快速响应用户的查询和更新操作。因此,设计合理的并发控制机制是分析型数据库中非常重要的一个环节,它能够确保数据库系统高效、稳定地运行,为数据分析、查询等应用提供强有力的支持。 作为火山引擎推出的一款分析型数据库,ByteHouse通过并发控制,让多个用户或应用程序可以同时访问和操作数据库,而不会产生冲突或破坏数据,提高数据库的利用率和响应速度,为用户提供更好的数据分析服务。 ## 事务和并发控制 ### 事务概览 在ByteHouse里,为了保证数据质量,我们提供了事务语义的支持。每条SQL 语句都会转换为一个事务去执行,事务提供了原子性、一致性、隔离性和持久性 (ACID) 属性的保证,旨在在并发读写,软件异常,硬件异常等各种情况下仍然可以保证数据的正确性和完整性。 原子性(Atomicity)保证每一个事物被视为一个单元,事物要么完全成功要么彻底失败。在事务成功之前,写入的数据不可见,不会出现部分数据可见的情况。事务失败之后,会把写入的部分数据自动清理掉,不会导致垃圾数据的残留。ByteHouse在各种情况下等会保证原子性,包括掉电,错误和宕机等各种异常情况。 一致性(consistency)保证数据库只会从一个有效的状态变成另外一个有效的状态,任何数据的写入必须遵循已经定义好的规则。 隔离性(isolation)确保数据库SQL并发执行(例如,同一时刻读写同一张表)的正确性,确保数据库的状态在并发场景下能等价于某种顺序执行的状态,事务之间互不影响。隔离性是并发控制的目标,可以有多种隔离级别的实现,ByteHouse为用户提供的是read committed(rc)隔离级别的支持。未完成的事务的写入对于其他事务是不可见的。 持久性(Durability)保证数据的高可用性。一旦事务成功提交,其写入的数据会被持久化,及时在出现各种系统failure的情况下不丢失。ByteHouse采取的存储计算分离结构,利用了成熟的高可用分布式文件系统或者对象存储(例如hdfs,S3),保证成功事务所提交数据的高可用。 ### 技术选型 ByteHouse是一款分析型数据库(OLAP),跟事务型数据库(OLTP)在事务上的需求是不同。分析型在事务上针对高吞吐低延迟的场景,相反,事务性数据库针对的是高QPS实时的场景。除了基本的ACID属性需要保证,ByteHouse在事务实现选型上主要有3个特别的需求。首先,ByteHouse单个事务可能涉及到海量数据(例如,上亿行级别),事务对数据吞吐和写入性能有较高要求,并且需要保证其原子性。其次,分析型数据库的workload中读的比例高于写,事务需要保证读workload不会被写workload影响和阻塞。最后,事务需要具备灵活可控的并发控制的功能,ByteHouse里除了需要处理用户侧并发的workload,还需要处理并发的后台任务。 ByteHouse事务处理主要是对用户数据的元数据进行管理,元数据包括用户的db,table和part(part是数据文件的元数据,包括了part名字,columns,行数,状态,版本,提交时间等信息)。随着数据的增长,元数据本身数量级也会线性增长,不能丢失并且需要高可用,所以需要一个分布式存储/数据库的方案。我们选择了成熟的分布式key-value数据库的作为ByteHouse的元数据的存储方案,通过抽象元数据读写API,后端适配了字节自研的ByteKV和苹果公司开发的FoundationDB。 ### 分布式时钟 事务在分布式系统中的执行需要在分布式不同节点中进行时钟同步。ByteHouse采取了简单实用的Timestamp Oracle(TSO)方案。其优点首先简单易懂,采取中心授时,能够确定唯一时间。然后是性能好,通常一个tso节点能支持1m+的QPS。缺点是不适合跨数据中心的场景,所有事务从tso获取时间延迟较高。由于TSO是中心化授时方案,ByteHouse为其提供了高可用服务。 TSO使用混合逻辑时钟,时钟由物理部分和逻辑部分组成,64位表示一个时间。为了避免TSO宕机导致的时间戳丢失,需要对时间戳持久化。但是如果每次授时都持久化将会降低性能,所以TSO会预申请一个可分配的时间窗口(例如3s)申请成功之后,TSO可以在内存中直接分配3秒窗口之内的所有时间戳。客户端请求时间戳,逻辑时钟部分随着请求递增。如果出现逻辑部分溢出情况,会睡眠50ms等待物理时钟被推进。TSO会每50ms检查时钟,如果当前TSO的物理时钟已经落后于当前时间,需要更新TSO的物理时钟部分为当前物理时间。如果逻辑时钟部分过半,也会增加TSO的物理时钟,一旦物理时钟增长,逻辑时钟清零。如果当前时间窗口已经用完,需要申请下一个时间窗口。同时更新持久化的窗口上界。  ### 事务处理 ByteHouse单个事务在元数据管理上有高吞吐读写的需求,由于分布式key-value数据库(例如ByteKV,FoundationDB)对单次原子写入的value都有大小限制(例如10MB),ByteHouse自己在分布式key-value存储之后实现了2阶段,使得单次写入大小不受限并且更加灵活可控。在第一阶段可以分批多次写入任意数据,并且不可见。第二阶段对事务进行提交,提交成功之后所有写入的数据同时可见。下面以一个insert sql为例,描述了2阶段原子提交的一个详细流程。 - 阶段1 - 1. a: 在kv里写入事务记录(txn record),唯一标识当前事务; - 1. c: 在远端文件系统或者对象存储写入数据之前,先把要写入数据的位置信息写入undo buffer(供失败情况下清理使用); - 阶段2 - 提交事务,并更新事务记录的提交时间; - 异步更新part数据的提交时间为事务的提交时间(part未更新提交时间之前,需要反查事务记录的提交时间);  事务提交详细流程图 ByteHouse选择的分布式key-value存储系统,ByteKV和Foundation已经提供了一致性的支持,直接复用即可。 ByteHouse对用户提供Read Committed(RC)隔离级别的支持。每个事务初始化的时候会从TSO服务获取一个timestamp作为其id和开始时间,提交的时候会再从TSO服务获取一个提交时间,在事务提交的时候更新kv里事务记录的提交时间并异步更新part的提交时间。读事务可以读取到已经提交成功(对应事务提交即成功)并且提交时间小于读事务开始时间的part元数据信息,从而实现RC语意。相比更加严格的隔离级别,RC隔离级别可以最大化读性能。而更严格的隔离级别例如Serializable Snapshot Isolation(SSI),读可能会被写入block。 ByteHouse元数据持久到ByteKV或者FoundationDB中,2个分布式key-value存储提供了持久化和高可用的保障。 ### 并发控制 ByteHouse利用多版本和锁来保证并发读写场景下数据的正确性。ByteHouse除了来自用户的workload,内部还有后台任务(merge/alter 任务和唯一键表的去重任务)的并发读写需要处理。ByteHouse选择了RC隔离级别,对于新的写入(例如insert),由于不可见,可以无锁执行。对于已有数据,在并发读写时,需要进行并发控制。对于并发读和写这种场景,ByteHouse利用多版本解决了读和写冲突,提供了读写性能。对于并发写写的场景(例如merge和唯一键表的去重任务),利用了加锁来保证数据的正确性。 #### 多版本 每个part的元数据除去其原有基本信息之外,都有一个对应的版本(version),每次对已有数据进行变更,都会产生一个新的版本,而不是直接在原有数据上进行更新。对于RC隔离级别,已经开始的读事务,仍然继续读取旧的版本,新版本对其不可见,这样读和写互相不影响,最大化读写性能。  #### 锁 ByteHouse对于DDL提供了全局KV排他锁避免并发的对table schema进行变更,分布式kv锁是全局共享,不同的节点都可以共享。 ByteHouse提供了多级细粒度DML读写锁的支持,DML相关的任务可以根据需求在不同粒度持不同类型的锁。 ``` Table / \ bucket \ / \ partition partition ``` ### 垃圾回收 ByteHouse对于不可见的part和版本会定期进行回收,例如merge任务生成新的part之后,对于旧的part,当不再被查询引用之后,就会进行回收,释放空间,降低成本。 点击跳转[ByteHouse](https://link.segmentfault.com/?enc=NR52G%2FSZAcNsxKCMBniIQw%3D%3D.ifdbSKuX7nJCtQ1DEH9RoQtR9nImKi1uAHw3Jg2dByrvA50uL9ppSbXqsAfMA20pr5EnVQFEO%2Bes9ri0z%2FgrYzOlkzD8ntFbtRNvO71by2hOd9cddFLaPHBqvxbX4riEC9JSDiMFx9RtNhH7zKr5QGCg0AD1sBlB9OY2ud%2FWEqU%3D)了解更多
admin
2024年2月6日 06:39
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码