查询优化
在面对大数据量(如 rumi_rmp_rating
表中的 1 千万 条记录)时,分区表是一种有效的优化手段。本文将详细探讨在将表转换为分区表后,查询和插入操作的变化,以及如何利用分区表进行优化。
一、索引
原始查询示例:
SELECT
id,
admin_reviewed_at,
attendance_mandatory,
clarity_rating_rounded,
class_name,
comment,
course_type,
date,
difficulty_rating_rounded,
flag_status,
grade,
helpful_rating_rounded,
would_like_take_again,
is_for_credit,
is_for_online_class,
mask_count,
quality_rating,
textbook_is_used,
thumbs_down_total,
thumbs_up_total,
class_name_vector
FROM rumi_rmp_rating
WHERE teacher_id = 868673;
在未优化前,此查询耗时约 19 秒。通过在 teacher_id
列上创建索引:
CREATE INDEX idx_rumi_rmp_rating_teacher_id
ON public.rumi_rmp_rating (teacher_id);
查询时间可缩短至约 5 秒。
二、分区表
为了进一步优化和管理大数据量,可以将 rumi_rmp_rating
表改为分区表。分区表按特定规则将数据拆分到多个子表中,从而在查询和维护上带来多方面的优势。
分区表示例:
创建父表:
CREATE TABLE public.rumi_rmp_rating_partitioned ( -- 字段定义同原表 ) PARTITION BY RANGE (teacher_id);
创建子分区:
CREATE TABLE public.rumi_rmp_rating_part_1 PARTITION OF public.rumi_rmp_rating_partitioned FOR VALUES FROM (0) TO (1000000); CREATE TABLE public.rumi_rmp_rating_part_2 PARTITION OF public.rumi_rmp_rating_partitioned FOR VALUES FROM (1000000) TO (2000000); -- 根据数据分布继续创建更多子分区
三、使用分区表后的查询和插入操作
1. 查询 SQL 的变化
在将表改为分区表后,日常查询的 SQL 语句基本保持不变。主要变化在于指定使用分区表的父表名。例如:
原始查询:
SELECT
id, admin_reviewed_at, attendance_mandatory, clarity_rating_rounded, ...
FROM public.rumi_rmp_rating
WHERE teacher_id = YOUR_TEACHER_ID;
分区表查询:
SELECT
id, admin_reviewed_at, attendance_mandatory, clarity_rating_rounded, ...
FROM public.rumi_rmp_rating_partitioned
WHERE teacher_id = YOUR_TEACHER_ID;
在此查询中:
- 只需将表名由原来的
rumi_rmp_rating
替换为父表rumi_rmp_rating_partitioned
。 - PostgreSQL 会根据
teacher_id
的值自动选择对应的子分区,从而利用分区裁剪(partition pruning)技术优化查询,仅扫描相关分区,提高查询性能。
2. 插入 SQL 的变化
插入操作同样保持简洁,无需指定具体的子分区。只需将目标表名替换为父表即可:
原始插入操作:
INSERT INTO public.rumi_rmp_rating (id, teacher_id, school_id, ...)
VALUES (1, 12345, 67890, ...);
使用分区表后的插入操作:
INSERT INTO public.rumi_rmp_rating_partitioned (id, teacher_id, school_id, ...)
VALUES (1, 12345, 67890, ...);
在插入时,数据库会根据记录中的 teacher_id
自动路由到对应的子分区,因此应用层不需要做额外的处理。
四、其他注意事项
DDL 操作与分区管理
- 定期需要添加新分区或调整分区范围,以适应数据增长和变化。这些操作通常不影响日常查询和插入,但需要数据库管理员进行规划和维护。
- 在创建子分区时或事后,需要为每个分区单独创建索引和约束,因为 PostgreSQL 不支持全局索引。可以在父表上定义索引模板,通过继承到各子分区。
索引与约束
- 每个子分区需单独管理索引和约束,以保证查询性能和数据完整性。
- 父表上的全局约束和索引不会自动应用到所有子分区,需要在每个子分区上重复创建。
性能影响
- 分区表能显著减少单次查询的数据扫描范围,尤其是在查询条件包含分区键(例如
teacher_id
)时,性能提升明显。 - 插入操作在路由到具体分区时有少量额外开销,但通常不影响整体性能。
- 分区表能显著减少单次查询的数据扫描范围,尤其是在查询条件包含分区键(例如
五、改造表为分区表
在 PostgreSQL 中,将现有的非分区表直接改造为分区表存在一定限制和复杂性。最推荐和稳妥的方法是创建新的分区表并迁移数据。下面详细介绍此方法的完整步骤和注意事项。
1. 挑战与背景
直接将已有普通表转换为分区表存在以下挑战:
- 较早版本的 PostgreSQL 不支持直接转换表为分区表,即使在较新版本中支持,也有诸多限制。
- 转换要求表上没有外键等依赖关系,操作期间可能锁定表,影响业务。
- 需要明确分区策略(如基于某字段范围),并处理已有数据如何分配到各子分区。
鉴于这些限制,建议采用创建新分区表并迁移数据的方式来实现改造。
2. 创建新分区表并迁移数据
这是最稳妥和推荐的方法。具体步骤如下:
步骤一:新建分区父表及子分区
- 创建父表
根据原表结构创建一个新的分区父表,并指定分区键。例如,以teacher_id
作为分区键:
CREATE TABLE public.rumi_rmp_rating_partitioned (
"id" "int8" NOT NULL,
"teacher_id" "int8",
"school_id" "int8",
"admin_reviewed_at" "timestamptz",
"attendance_mandatory" "varchar" ,
"clarity_rating_rounded" "int4",
"class_name" "varchar" ,
"comment" "varchar" ,
"course_type" "int4",
"created_by_user" "bool",
"date" "timestamptz",
"difficulty_rating_rounded" "int4",
"flag_status" "varchar" ,
"grade" "varchar" ,
"helpful_rating_rounded" "int4",
"would_like_take_again" "int4",
"is_for_credit" "bool",
"is_for_online_class" "bool",
"mask_count" "int4",
"quality_rating" "int4",
"rating_tags" "varchar" ,
"textbook_is_used" "bool",
"thumbs_down_total" "int4",
"thumbs_up_total" "int4",
"source_url" "varchar" ,
"remark" "varchar" ,
"creator" "varchar" ,
"create_time" "timestamptz" NOT NULL DEFAULT CURRENT_TIMESTAMP,
"updater" "varchar" ,
"update_time" "timestamptz" NOT NULL DEFAULT CURRENT_TIMESTAMP,
"deleted" "int2" NOT NULL DEFAULT 0,
"tenant_id" "int8" NOT NULL DEFAULT 0,
"class_name_vector" "vector"
) PARTITION BY RANGE (teacher_id);
- 创建子分区
根据业务需求和数据分布创建多个子分区。例如:
CREATE TABLE public.rumi_rmp_rating_part_1
PARTITION OF public.rumi_rmp_rating_partitioned
FOR VALUES FROM (0) TO (1000000);
CREATE TABLE public.rumi_rmp_rating_part_2
PARTITION OF public.rumi_rmp_rating_partitioned
FOR VALUES FROM (1000000) TO (2000000);
按需继续创建更多子分区,以覆盖所有可能的 teacher_id
范围。
步骤二:迁移数据
准备工作
- 暂时禁止向原表
rumi_rmp_rating
写入新数据,以保证数据一致性。 - 确保新分区表及其子分区已正确创建且结构与原表兼容。
- 暂时禁止向原表
执行数据迁移
使用INSERT INTO ... SELECT FROM ...
将数据从原表导入新分区表:
INSERT INTO public.rumi_rmp_rating_partitioned (
id, teacher_id, school_id, admin_reviewed_at, attendance_mandatory,
clarity_rating_rounded, class_name, comment, course_type, date,
difficulty_rating_rounded, flag_status, grade, helpful_rating_rounded,
would_like_take_again, is_for_credit, is_for_online_class, mask_count,
quality_rating, textbook_is_used, thumbs_down_total, thumbs_up_total,
class_name_vector
)
SELECT
id, teacher_id, school_id, admin_reviewed_at, attendance_mandatory,
clarity_rating_rounded, class_name, comment, course_type, date,
difficulty_rating_rounded, flag_status, grade, helpful_rating_rounded,
would_like_take_again, is_for_credit, is_for_online_class, mask_count,
quality_rating, textbook_is_used, thumbs_down_total, thumbs_up_total,
class_name_vector
FROM public.rumi_rmp_rating;
- 确保迁移过程中无数据丢失,并在迁移后验证数据完整性和一致性。
步骤三:切换表名
- 备份原表
在确认数据已经成功迁移且验证无误后,可以重命名原有表作为备份:
ALTER TABLE public.rumi_rmp_rating RENAME TO rumi_rmp_rating_backup;
- 重命名新分区表
将新分区表改名为原表名,以保持应用程序无需修改查询语句:
ALTER TABLE public.rumi_rmp_rating_partitioned RENAME TO rumi_rmp_rating;
步骤四:重新创建约束和索引
- 索引与约束
在新的分区表及各子分区上重新创建必要的索引和约束。例如:
CREATE INDEX idx_rumi_rmp_rating_teacher_id
ON public.rumi_rmp_rating (teacher_id);
此外,根据需要在各子分区上设置其他索引和约束,以保证性能和数据完整性。
- 验证与测试
- 运行典型查询,确保性能符合预期。
- 测试插入、更新和删除操作,验证它们在分区表上的正确性和高效性。
3. 总结
通过上述步骤:
- 创建新的分区父表及子分区。
- 迁移数据到新的分区表。
- 切换表名,将新分区表替换为原有表名。
- 在新表上重新创建索引和约束,并进行验证。
这种方法安全可靠,能够在生产环境中平稳地将非分区表转换为分区表,同时最小化对现有应用程序的影响。
4. 自动创建分区
PostgreSQL 本身不支持在创建分区父表时自动生成子分区。每个子分区必须显式创建,指定其范围或列表值。您可以通过编写脚本或使用程序化手段(如 PL/pgSQL 脚本或其他自动化工具)来批量生成多个子分区的创建语句,但数据库不会自动根据父表定义生成子分区。
例如,您可以编写一个循环在 PL/pgSQL 中动态创建多个分区:
DO $$
DECLARE
start_val INTEGER := 0;
end_val INTEGER;
step INTEGER := 1000000;
partition_name TEXT;
BEGIN
WHILE start_val < 10000000 LOOP -- 假设创建 10 个分区
end_val := start_val + step;
partition_name := format('rumi_rmp_rating_part_%s', start_val/step + 1);
EXECUTE format(
'CREATE TABLE public.%I PARTITION OF public.rumi_rmp_rating_partitioned
FOR VALUES FROM (%s) TO (%s);',
partition_name, start_val, end_val
);
start_val := end_val;
END LOOP;
END
$$;
上述脚本根据设定的范围循环创建多个子分区。您可根据实际业务需求调整循环参数和范围。
5. 迁移数据时字段完全相同
如果新分区表 rumi_rmp_rating_partitioned
与原表 rumi_rmp_rating
的结构完全一致,且字段顺序也相同,您可以简化迁移数据的 SQL 语句,而不必列出每个字段。可直接使用以下形式:
INSERT INTO public.rumi_rmp_rating_partitioned
SELECT * FROM public.rumi_rmp_rating;
此语句将从原表中选择所有列的数据并插入到新分区表中。使用此简化形式的前提条件是:
- 两个表的列完全一致且顺序相同。
- 不需要对部分字段或特定数据做转换。
注意事项:
- 尽管简化语句减少了代码量,但明确列出字段有助于防止因表结构不完全匹配导致的错误,尤其是在生产环境中。
- 在实际操作前,建议备份数据并在测试环境中验证迁移流程,以确保数据完整性。。
六、总结
在使用分区表后,绝大多数查询和插入 SQL 语句的写法与未分区时几乎相同。主要区别在于将操作对象换成父表名,PostgreSQL 底层会自动将数据路由到对应子分区,并利用分区裁剪优化查询。
通过引入分区表,可以在大数据量场景下进一步提升查询性能和系统的可维护性,而无需对应用层代码进行显著修改。开发人员应重点关注分区管理、索引策略以及定期维护,以确保系统持续高效运行。