02_SQL分库分表及Java实现

文章目录

- 一、分库分表逻辑
- - 1. 分库分表的目的
  - 2. 分库分表策略
  - 3. 分库分表后的挑战
  - - ①数据路由
    - ②数据聚合
    - ③事务处理
  - 4. 分布式事务协议：
  - - 1.两阶段提交（2PC）协议
    - 2.三阶段提交（3PC）协议
    - 3.其他协议及混合方案
- 二、Java分库分表实现
- - 一、导入ShardingSphere依赖
  - 二、配置数据源
  - 三、配置分片规则
  - 四、使用ShardingJdbcTemplate进行数据库操作

一、分库分表逻辑

1. 分库分表的目的

提高数据库性能：通过分散数据，减少单个数据库的负载。
扩展存储能力：随着数据量的增长，可以通过增加数据库或表来扩展存储。
提高可用性：通过分库，可以实现数据的冗余备份，提高系统的可用性。

2. 分库分表策略

范围分片：根据数据的某个范围值进行分片，如用户ID的范围。
哈希分片：通过哈希函数将数据分片到不同的库或表中。
一致性哈希分片：在哈希分片的基础上，引入一致性哈希算法，以减少节点增减时的数据迁移量。
目录分片：根据数据的某个目录后分类进行分片。

一致性哈希算法和普通哈希算法：

‌对比维度‌	‌普通哈希算法‌	‌一致性哈希算法‌
‌核心目标‌	生成唯一数据指纹、快速定位数据	动态节点环境下的负载均衡
‌节点变化影响‌	全局数据需重新分配	仅局部数据迁移
‌数据分布优化‌	依赖哈希函数设计	通过虚拟节点减少倾斜
‌适用场景‌	单机或静态分布式环境	高动态性分布式系统

3. 分库分表后的挑战

数据路由：如何根据分片键快速定位到目标库或表。
数据聚合：跨库或跨表查询时，如何高效的进行数据聚合。
事务处理：在分布式数据库环境下，如何保证事务的一致性。

上述挑战的具体解决方案：

①数据路由

分库分表架构中，如何根据分片键快速定位到目标库或表：

使用哈希分片或范围分片：根绝数据的特性选择合适的分片策略，以确保数据能够均匀分布到各个或表中。
中间件支持：利用ShardingSphere、MyCAT等中间件提供的数据路由功能。这些中间件可以根据配置的分片策略自动完成数据路由。
缓存路由信息：对呀频繁访问的数据，可以缓存路由信息以减少计算开销。例如，可以使用Redis等缓存系统存储数据路由的映射关系。

②数据聚合

跨库或跨表查询时，如何高效的将分散在不同库或表中的数进行整合：

尽量减少跨分片查询：通过优化业务逻辑，尽量减少需要跨分片的数据操作。例如，可以通过数据冗余或预计算的方式，将常用的聚合数据存储在单个分片或缓存中。
使用分布式查询中间件：如ShardingSphere、Vitess等，它们提供了透明的跨分片查询支持，可以简化跨库或跨表查询的过程。
应用层聚合：对于无法避免的跨分片查询，可以在应用层进行数据聚合。例如，可以使用Java的集合框架或Stream API对查询结果进行合并和处理。

③事务处理

在分布式数据库环境下，如何保障事务的一致性：

尽量减少跨分片事务：优化业务逻辑，将事务限制在单个分片内。
使用分布式事务协议：如两阶段提交（2PC）或三阶段提交（3PC），这些协议可以在分布式环境中保证事务的一致性。但需要注意，这些协议的性能开销较大，适用于对一致性要求较高的场景。
基于最终一致性的事务管理机制：如TCC（try-confirm-cancel）或Saga模式，这些机制可以在保证最终一致性的前提下，提高事务处理的性能。它们适用于对一致性要求不是特别严格的场景，如电商订单处理等。
事务补偿：在事务执行失败后，通过事务补偿机制来恢复数据的一致性。例如，可以记录事务的执行日志，在事务失败时根据日志进行回滚或补偿操作。

‌Apache ShardingSphere分布式事务：

模式
- XA事务：强一致性，基于两阶段提交协议（2PC）。
- BASE事务：最终一致性，适用于高吞吐场景。
应用

通过TransactionTypeHolder设置事务类型，支持跨库事务的线程级隔离。

4. 分布式事务协议：

1.两阶段提交（2PC）协议

核心流程：

准备阶段：
- 协调者向所有参与者发送Prepare请求，参与者执行事务操作但不提交，并将结果（Yes/No）反馈给协调者。
提交/回滚阶段：
- 若所有参与者返回Yes，协调者发送commit命令，参与者正式提交事务；
- 否则发送Rollback命令，参与者回滚事务。

SQL实现案例：

MySQL XA事务：通过XA START、XA END、XA　PREPARE和XA COMMIT等命令实现跨数据库的2PC事务。
Oracle分布式事务：支持跨数据库的COMMIT FORCE和ROLLBACK FORCE强制提交/回滚机制。

优缺点：

优点：
- 强一致性保障，适用于对数据一致性要求严格的场景（如金融交易）。
缺点：
- 同步阻塞：参与者需等待协调者指令，事务资源长时间锁定。
- 单点故障：协调者宕机可能导致事务挂起（需人工介入）。

2.三阶段提交（3PC）协议

核心流程：

CanCommit阶段：协调者预检查参与者是否具备执行事务的条件（如资源可用性）。
PreCommit阶段：
- 若所有参与者反馈Yes，协调者发送PreCommit命令，参与者锁定资源并反馈就绪；
- 任一参与者反馈No则中止事务。
DoCommit阶段：
- 协调者发送最终Commit命令，参与者提交事务。
- 若超时未收到指令，参与者自动提交（基于预设策略）。

SQL应用场景：

主要用于优化高可用场景（如微服务架构），通过超时自动提交减少阻塞风险。

优缺点：

优点：
- 降低阻塞时间，参与者超时可自主决策。
- 容错性增强，协调者故障时事务可继续推进。
缺点：
- 实现复杂度高，需额外维护预提交状态；
- 网络分区时仍可能出现数据不一致。

3.其他协议及混合方案

TCC（Try-Confirm-Cancel）：
- Try阶段：预留资源（如冻结账户余额）；
- Confirm/Cancel阶段：根据Try结果提交或回滚。
- 使用场景：高并发系统（如电商订单），需业务层实现补偿逻辑。
基于消息的最终一致性：
- 通过消息队列（如RocketMQ事务消息）实现异步提交，保证最终一致性。
- 使用场景：非强一致性要求的业务（如物流状态更新）。

二、Java分库分表实现

在Java中实现分库分表，可以采用多种方案和框架，其中ShardingSphere是一个广受欢迎的开源分布式数据库中间件，提供了完整的分库分表解决方案。以下是一个使用ShardingSphere实现分库分表的基本示例：

一、导入ShardingSphere依赖

首先，需要在项目的依赖管理工具（如Maven）中添加ShardingSphere相关依赖包。例如：

<dependency><groupId>org.apache.shardingsphere</groupId><artifactId>sharding-jdbc-spring-boot-starter</artifactId><version>5.0.0</version>
</dependency>

二、配置数据源

在application.properties或application.yml文件中配置数据源信息。例如：

spring.shardingsphere.datasource.names=ds0,ds1
spring.shardingsphere.datasource.ds0.jdbc-url=jdbc:mysql://localhost:3306/database0
spring.shardingsphere.datasource.ds0.username=root
spring.shardingsphere.datasource.ds0.password=123456
spring.shardingsphere.datasource.ds1.jdbc-url=jdbc:mysql://localhost:3306/database1
spring.shardingsphere.datasource.ds1.username=root
spring.shardingsphere.datasource.ds1.password=123456

三、配置分片规则

根据需要的分库分表情况，配置分片规则。例如：

spring.shardingsphere.sharding.default-database-strategy.inline.sharding-column=user_id
spring.shardingsphere.sharding.default-database-strategy.inline.algorithm-expression=ds$->{user_id % 2}
spring.shardingsphere.sharding.tables.user.actual-data-nodes=ds$->{0..1}.user_$->{0..1}
spring.shardingsphere.sharding.tables.user.table-strategy.inline.sharding-column=user_id
spring.shardingsphere.sharding.tables.user.table-strategy.inline.algorithm-expression=user_$->{user_id % 2}

上述示例中，使用了两个数据库database0和database1分别作为分片的库，每个库中有两个表user_0和user_1。使用user_id字段进行分片，根据user_id的奇偶性将数据分散到不同的库和表中。

四、使用ShardingJdbcTemplate进行数据库操作

在代码中使用ShardingJdbcTemplate进行数据库操作。例如：

javaCopy Code@Autowired
private ShardingJdbcTemplate shardingJdbcTemplate;// 使用shardingJdbcTemplate进行数据库操作

这是一个基本的示例，展示了如何使用ShardingSphere在Spring Boot项目中实现分库分表。实际上，根据具体的业务需求和场景，可能需要更复杂的配置和调整。建议参考ShardingSphere的官方文档以获取更详细的信息和指南。

另外，除了ShardingSphere，还有如MyBatis Sharding、TDDL等其他分库分表中间件或框架可供选择。在选择时，应综合考虑项目复杂度、性能需求以及开发团队的熟悉程度等因素。

	ShardingSphere	MyBatis Sharding	TDDL
‌简介‌	一套开源的分布式数据库中间件，提供了完整的分库分表解决方案	一个基于MyBatis的分库分表中间件，通过拦截SQL语句并重写为分片后的SQL实现自动分库分表	淘宝开源的一款分库分表中间件，提供了跨库事务、分库分表路由等功能
‌分片规则配置‌	支持灵活的分片规则配置，可根据需要定制	通过拦截SQL语句并实现分片逻辑	支持多种数据库的分片规则，提供了简单的配置方式
‌功能特性‌	提供数据分片、弹性伸缩、加密等能力；支持XA和BASE的混合事务引擎；提供跨数据源的复杂查询分析能力等	基于MyBatis，易于集成到现有项目中；通过拦截和重写SQL实现分片	支持数据库主备和动态切换；带权重的读写分离；单线程读重试等特性
‌兼容性与扩展性‌	兼容所有符合SQL-92标准语法的数据库	作为MyBatis的插件，兼容MyBatis的特性	基于JDBC规范，容易扩展支持实现JDBC规范的数据源
‌社区与支持‌	Apache基金会项目，社区活跃，获得广泛支持	-	淘宝内部广泛使用，具有稳定性和可靠性