Tio Boot DocsTio Boot Docs
Home
  • java-db
  • api-table
  • mysql
  • postgresql
  • oceanbase
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
Home
  • java-db
  • api-table
  • mysql
  • postgresql
  • oceanbase
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
  • 01_tio-boot 简介

    • tio-boot:新一代高性能 Java Web 开发框架
    • tio-boot 入门示例
    • Tio-Boot 配置 : 现代化的配置方案
    • tio-boot 整合 Logback
    • tio-boot 整合 hotswap-classloader 实现热加载
    • 自行编译 tio-boot
    • 最新版本
    • 开发规范
  • 02_部署

    • 使用 Maven Profile 实现分环境打包 tio-boot 项目
    • Maven 项目配置详解:依赖与 Profiles 配置
    • tio-boot 打包成 FatJar
    • 使用 GraalVM 构建 tio-boot Native 程序
    • 使用 Docker 部署 tio-boot
    • 部署到 Fly.io
    • 部署到 AWS Lambda
    • 到阿里云云函数
    • 使用 Deploy 工具部署
    • 使用Systemctl启动项目
    • 使用 Jenkins 部署 Tio-Boot 项目
    • 使用 Nginx 反向代理 Tio-Boot
    • 使用 Supervisor 管理 Java 应用
    • 已过时
    • 胖包与瘦包的打包与部署
  • 03_配置

    • 配置参数
    • 服务器监听器
    • 内置缓存系统 AbsCache
    • 使用 Redis 作为内部 Cache
    • 静态文件处理器
    • 基于域名的静态资源隔离
    • DecodeExceptionHandler
    • 开启虚拟线程(Virtual Thread)
    • 框架级错误通知
  • 04_原理

    • 生命周期
    • 请求处理流程
    • 重要的类
  • 05_json

    • Json
    • 接受 JSON 和响应 JSON
    • 响应实体类
  • 06_web

    • 概述
    • 接收请求参数
    • 接收日期参数
    • 接收数组参数
    • 返回字符串
    • 返回文本数据
    • 返回网页
    • 请求和响应字节
    • 文件上传
    • 文件下载
    • 返回视频文件并支持断点续传
    • http Session
    • Cookie
    • HttpRequest
    • HttpResponse
    • Resps
    • RespBodyVo
    • Controller拦截器
    • 请求拦截器
    • LoggingInterceptor
    • 全局异常处理器
    • 异步处理
    • 动态 返回 CSS 实现
    • 返回图片
    • 跨域
    • 添加 Controller
    • Transfer-Encoding: chunked 实时音频播放
    • Server-Sent Events (SSE)
    • handler入门
    • 返回 multipart
    • 待定
    • 自定义 Handler 转发请求
    • 使用 HttpForwardHandler 转发所有请求
    • 常用工具类
    • HTTP Basic 认证
    • Http响应加密
    • 使用零拷贝发送大文件
    • 分片上传
    • 接口访问统计
    • 接口请求和响应数据记录
    • WebJars
    • JProtobuf
    • 测速
    • Gzip Bomb:使用压缩炸弹防御恶意爬虫
  • 07_validate

    • 数据紧校验规范
    • 参数校验
  • 08_websocket

    • 使用 tio-boot 搭建 WebSocket 服务
    • WebSocket 聊天室项目示例
  • 09_java-db

    • java‑db
    • 操作数据库入门示例
    • SQL 模板 (SqlTemplates)
    • 数据源配置与使用
    • ActiveRecord
    • Db 工具类
    • 批量操作
    • Model
    • Model生成器
    • 注解
    • 异常处理
    • 数据库事务处理
    • Cache 缓存
    • Dialect 多数据库支持
    • 表关联操作
    • 复合主键
    • Oracle 支持
    • Enjoy SQL 模板
    • 整合 Enjoy 模板最佳实践
    • 多数据源支持
    • 独立使用 ActiveRecord
    • 调用存储过程
    • java-db 整合 Guava 的 Striped 锁优化
    • 生成 SQL
    • 通过实体类操作数据库
    • java-db 读写分离
    • Spring Boot 整合 Java-DB
    • like 查询
    • 常用操作示例
    • Druid 监控集成指南
    • SQL 统计
  • 10_api-table

    • ApiTable 概述
    • 使用 ApiTable 连接 SQLite
    • 使用 ApiTable 连接 Mysql
    • 使用 ApiTable 连接 Postgres
    • 使用 ApiTable 连接 TDEngine
    • 使用 api-table 连接 oracle
    • 使用 api-table 连接 mysql and tdengine 多数据源
    • EasyExcel 导出
    • EasyExcel 导入
    • 预留
    • 预留
    • ApiTable 实现增删改查
    • 数组类型
    • 单独使用 ApiTable
    • TQL(Table SQL)前端输入规范
  • 11_aop

    • JFinal-aop
    • Aop 工具类
    • 配置
    • 配置
    • 独立使用 JFinal Aop
    • @AImport
    • 自定义注解拦截器
    • 原理解析
  • 12_cache

    • Caffine
    • Jedis-redis
    • hutool RedisDS
    • Redisson
    • Caffeine and redis
    • CacheUtils 工具类
    • 使用 CacheUtils 整合 caffeine 和 redis 实现的两级缓存
    • 使用 java-db 整合 ehcache
    • 使用 java-db 整合 redis
    • Java DB Redis 相关 Api
    • redis 使用示例
  • 13_认证和权限

    • FixedTokenInterceptor
    • TokenManager
    • 数据表
    • 匿名登录
    • 注册和登录
    • 个人中心
    • 重置密码
    • Google 登录
    • 短信登录
    • 移动端微信登录
    • 移动端重置密码
    • 微信登录
    • 移动端微信登录
    • 权限校验注解
    • Sa-Token
    • sa-token 登录注册
    • StpUtil.isLogin() 源码解析
  • 14_i18n

    • i18n
  • 15_enjoy

    • tio-boot 整合 Enjoy 模版引擎文档
    • Tio-Boot 整合 Java-DB 与 Enjoy 模板引擎示例
    • 引擎配置
    • 表达式
    • 指令
    • 注释
    • 原样输出
    • Shared Method 扩展
    • Shared Object 扩展
    • Extension Method 扩展
    • Spring boot 整合
    • 独立使用 Enjoy
    • tio-boot enjoy 自定义指令 localeDate
    • PromptEngine
    • Enjoy 入门示例-擎渲染大模型请求体
    • Tio Boot + Enjoy:分页与 SEO 实战指南
    • Tio Boot + Enjoy:分页与 SEO 实战指南
    • Tio Boot + Enjoy:分页与 SEO 实战指南
  • 16_定时任务

    • Quartz 定时任务集成指南
    • 分布式定时任务 xxl-jb
    • cron4j 使用指南
  • 17_tests

    • TioBootTest 类
  • 18_tio

    • TioBootServer
    • 独立端口启动 TCP 服务器
    • 内置 TCP 处理器
    • 独立启动 UDPServer
    • 使用内置 UDPServer
    • t-io 消息处理流程
    • tio-运行原理详解
    • TioConfig
    • ChannelContext
    • Tio 工具类
    • 业务数据绑定
    • 业务数据解绑
    • 发送数据
    • 关闭连接
    • Packet
    • 监控: 心跳
    • 监控: 客户端的流量数据
    • 监控: 单条 TCP 连接的流量数据
    • 监控: 端口的流量数据
    • 单条通道统计: ChannelStat
    • 所有通道统计: GroupStat
    • 资源共享
    • 成员排序
    • SSL
    • DecodeRunnable
    • 使用 AsynchronousSocketChannel 响应数据
    • 拉黑 IP
    • 深入解析 Tio 源码:构建高性能 Java 网络应用
  • 19_aio

    • ByteBuffer
    • AIO HTTP 服务器
    • 自定义和线程池和池化 ByteBuffer
    • AioHttpServer 应用示例 IP 属地查询
    • 手写 AIO Http 服务器
  • 20_netty

    • Netty TCP Server
    • Netty Web Socket Server
    • 使用 protoc 生成 Java 包文件
    • Netty WebSocket Server 二进制数据传输
    • Netty 组件详解
  • 21_netty-boot

    • Netty-Boot
    • 原理解析
    • 整合 Hot Reload
    • 整合 数据库
    • 整合 Redis
    • 整合 Elasticsearch
    • 整合 Dubbo
    • Listener
    • 文件上传
    • 拦截器
    • Spring Boot 整合 Netty-Boot
    • SSL 配置指南
    • ChannelInitializer
    • Reserve
  • 22_MQ

    • Mica-mqtt
    • EMQX
    • Disruptor
  • 23_tio-utils

    • tio-utils
    • HttpUtils
    • Notification
    • Email
    • JSON
    • File
    • Base64
    • 上传和下载
    • Http
    • Telegram
    • RsaUtils
    • EnvUtils 配置工具
    • 系统监控
    • 线程
    • 虚拟线程
    • 毫秒并发 ID (MCID) 生成方案
  • 24_tio-http-server

    • 使用 Tio-Http-Server 搭建简单的 HTTP 服务
    • tio-boot 添加 HttpRequestHandler
    • 在 Android 上使用 tio-boot 运行 HTTP 服务
    • tio-http-server-native
    • handler 常用操作
  • 25_tio-websocket

    • WebSocket 服务器
    • WebSocket Client
    • TCP数据转发
  • 26_tio-im

    • 通讯协议文档
    • ChatPacket.proto 文档
    • java protobuf
    • 数据表设计
    • 创建工程
    • 登录
    • 历史消息
    • 发消息
  • 27_mybatis

    • Tio-Boot 整合 MyBatis
    • 使用配置类方式整合 MyBatis
    • 整合数据源
    • 使用 mybatis-plus 整合 tdengine
    • 整合 mybatis-plus
  • 28_mongodb

    • tio-boot 使用 mongo-java-driver 操作 mongodb
  • 29_elastic-search

    • Elasticsearch
    • JavaDB 整合 ElasticSearch
    • Elastic 工具类使用指南
    • Elastic-search 注意事项
    • ES 课程示例文档
  • 30_magic-script

    • tio-boot 与 magic-script 集成指南
  • 31_groovy

    • tio-boot 整合 Groovy
  • 32_firebase

    • 整合 google firebase
    • Firebase Storage
    • Firebase Authentication
    • 使用 Firebase Admin SDK 进行匿名用户管理与自定义状态标记
    • 导出用户
    • 注册回调
    • 登录注册
  • 33_文件存储

    • 文件上传数据表
    • 本地存储
    • 存储文件到 亚马逊 S3
    • Cloudflare R2
    • 存储文件到 腾讯 COS
    • 存储文件到 阿里云 OSS
  • 34_spider

    • jsoup
    • 爬取 z-lib.io 数据
    • 整合 WebMagic
    • WebMagic 示例:爬取学校课程数据
    • Playwright
    • Flexmark (Markdown 处理器)
    • tio-boot 整合 Playwright
    • 缓存网页数据
  • 36_integration_thirty_party

    • 整合 okhttp
    • 整合 GrpahQL
    • 集成 Mailjet
    • 整合 ip2region
    • 整合 GeoLite 离线库
    • 整合 Lark 机器人指南
    • 集成 Lark Mail 实现邮件发送
    • Thymeleaf
    • Swagger
    • Clerk 验证
  • 37_dubbo

    • 概述
    • dubbo 2.6.0
    • dubbo 2.6.0 调用过程
    • dubbo 3.2.0
  • 38_spring

    • Spring Boot Web 整合 Tio Boot
    • spring-boot-starter-webflux 整合 tio-boot
    • tio-boot 整合 spring-boot-starter
    • Tio Boot 整合 Spring Boot Starter db
    • Tio Boot 整合 Spring Boot Starter Data Redis 指南
  • 39_spring-cloud

    • tio-boot spring-cloud
  • 40_quarkus

    • Quarkus(无 HTTP)整合 tio-boot(有 HTTP)
    • tio-boot + Quarkus + Hibernate ORM Panache
  • 41_postgresql

    • PostgreSQL 安装
    • PostgreSQL 主键自增
    • PostgreSQL 日期类型
    • Postgresql 金融类型
    • PostgreSQL 数组类型
    • 索引
    • PostgreSQL 查询优化
    • 获取字段类型
    • PostgreSQL 全文检索
    • PostgreSQL 向量
    • PostgreSQL 优化向量查询
    • PostgreSQL 其他
  • 42_mysql

    • 使用 Docker 运行 MySQL
    • 常见问题
  • 43_oceanbase

    • 快速体验 OceanBase 社区版
    • 快速上手 OceanBase 数据库单机部署与管理
    • 诊断集群性能
    • 优化 SQL 性能指南
    • 待定
  • 49_jooq

    • 使用配置类方式整合 jOOQ
    • tio-boot + jOOQ 事务管理
    • 批量操作与性能优化
    • 整合agroal
    • 代码生成与类型安全
    • 基于 Record / POJO 增删改查
    • UPSERT、批量更新、返回主键与高级 SQL
    • 的多表关联查询、DTO 投影、聚合统计与视图封装
    • 的窗口函数、CTE、JSON 查询与 PostgreSQL 高级 SQL 实战
    • tio-boot + jOOQ 的审计字段、乐观锁、数据权限与企业级 Repository 设计
    • 测试策略、SQL 日志、性能诊断与生产排障
    • 多租户、读写分离与多数据源设计
    • 代码生成治理、数据库迁移与团队协作规范实战
  • 50_media

    • JAVE 提取视频中的声音
    • Jave 提取视频中的图片
    • 待定
  • 51_asr

    • Whisper-JNI
  • 54_native-media

    • java-native-media
    • JNI 入门示例
    • mp3 拆分
    • mp4 转 mp3
    • 使用 libmp3lame 实现高质量 MP3 编码
    • Linux 编译
    • macOS 编译
    • 从 JAR 包中加载本地库文件
    • 支持的音频和视频格式
    • 任意格式转为 mp3
    • 通用格式转换
    • 通用格式拆分
    • 视频合并
    • VideoToHLS
    • split_video_to_hls 支持其他语言
    • 持久化 HLS 会话
    • 获取视频长度
    • 保存视频的最后一帧
    • 添加水印
    • linux版本
  • 55_cv

    • 使用 Java 运行 YOLOv8 ONNX 模型进行目标检测
    • tio-boot整合yolo
    • ONNX Runtime 推理说明
  • 58_telegram4j

    • 数据库设计
    • 基于 HTTP 协议开发 Telegram 翻译机器人
    • 基于 MTProto 协议开发 Telegram 翻译机器人
    • 过滤旧消息
    • 保存机器人消息
    • 定时推送
    • 增加命令菜单
    • 使用 telegram-Client
    • 使用自定义 StoreLayout
    • 延迟测试
    • Reactor 错误处理
    • Telegram4J 常见错误处理指南
  • 59_telegram-bots

    • TelegramBots 入门指南
    • 使用工具库 telegram-bot-base 开发翻译机器人
  • 60_LLM

    • 简介
    • 流式生成
    • 图片多模态输入
    • Google Gemini接入
    • google Vertex AI 接入
    • 请求记录
    • 限流和错误处理
    • /zh/60_LLM/08.html
    • /zh/60_LLM/09.html
    • /zh/60_LLM/10.html
    • 增强检索(RAG)
    • 结构化数据检索
    • AI 问答
  • 61_voice-agent

    • 整合Gemini realtime模型
    • Voice Agent 前端接入接口文档
    • 整合千问realtime模型
    • 打断支持
    • 主动介入
  • 63_knowlege_base

    • 数据库设计
    • 用户登录实现
    • 模型管理
    • 知识库管理
    • 文档拆分
    • 片段向量
    • 命中测试
    • 文档管理
    • 片段管理
    • 问题管理
    • 应用管理
    • 向量检索
    • 推理问答
    • 问答模块
    • 统计分析
    • 用户管理
    • api 管理
    • 存储文件到 S3
    • 文档解析优化
    • 片段汇总
    • 段落分块与检索
    • 多文档解析
    • 对话日志
    • 检索性能优化
    • Milvus
    • 文档解析方案和费用对比
    • 离线运行向量模型
  • 64_ai_agent

    • 数据库设计
    • 示例问题管理
    • 会话管理
    • 历史记录
    • Perplexity API
    • 意图识别
    • 智能问答
    • 文件上传与解析文档
    • 翻译
    • 名人搜索功能实现
    • Ai studio gemini youbue 问答使用说明
    • 自建 YouTube 字幕问答系统
    • 自建 获取 youtube 字幕服务
    • 使用 OpenAI ASR 实现语音识别接口(Java 后端示例)
    • 定向搜索
    • 16
    • 17
    • 18
    • 在 tio-boot 应用中整合 ai-agent
    • 16
  • 65_ai-search

    • ai-search 项目简介
    • ai-search 数据库文档
    • ai-search SearxNG 搜索引擎
    • ai-search Jina Reader API
    • ai-search Jina Search API
    • ai-search 搜索、重排与读取内容
    • ai-search PDF 文件处理
    • ai-search 推理问答
    • Google Custom Search JSON API
    • ai-search 意图识别
    • ai-search 问题重写
    • ai-search 系统 API 接口 WebSocket 版本
    • ai-search 搜索代码实现 WebSocket 版本
    • ai-search 生成建议问
    • ai-search 生成问题标题
    • ai-search 历史记录
    • Discover API
    • 翻译
    • Tavily Search API 文档
    • 对接 Tavily Search
    • 火山引擎 DeepSeek
    • 对接 火山引擎 DeepSeek
    • ai-search 搜索代码实现 SSE 版本
    • jar 包部署
    • Docker 部署
    • 爬取一个静态网站的所有数据
    • 网页数据预处理
    • 网页数据检索与问答流程整合
  • 66_ai-coding

    • Cline 提示词
    • Cline 提示词-中文版本
  • 67_java-uni-ai-server

    • 语音合成系统
    • Fish.audio TTS 接口说明文档与 Java 客户端封装
    • 整合 fishaudio 到 java-uni-ai-server 项目
    • 待定
  • 68_java-llm-proxy

    • 使用tio-boot搭建多模型LLM代理服务
  • 69_java-kit-server

    • Java 执行 python 代码
    • 通过大模型执行 Python 代码
    • 执行 Python (Manim) 代码
    • 待定
    • 待定
    • 待定
    • 视频下载增加水印说明文档
  • 70_ai-brower

    • AI Browser:基于用户指令的浏览器自动化系统
    • 提示词
    • dom构建- buildDomTree.js
    • dom构建- 将网页可点击元素提取与可视化
    • 提取网内容
    • 启动浏览器
    • 操作浏览器指令
  • 71_tio-boot-admin

    • 入门指南
    • 初始化数据
    • token 存储
    • 与前端集成
    • 文件上传
    • 网络请求
    • 多图片管理
    • 单图片管理(只读模式)
    • 布尔值管理
    • 字段联动
    • Word 管理
    • PDF 管理
    • 文章管理
    • 富文本编辑器
    • 整合 Enjoy 模版引擎
  • 73_tio-mail-wing

    • tio-mail-wing简介
    • 任务1:实现POP3系统
    • 使用 getmail 验证 tio-mail-wing POP3 服务
    • 任务2:实现 SMTP 服务
    • 数据库初始化文档
    • 用户管理
    • 邮件管理
    • 任务3:实现 SMTP 服务 数据库版本
    • 任务4:实现 POP3 服务(数据库版本)
    • IMAP 协议
    • 拉取多封邮件
    • 任务5:实现 IMAP 服务(数据库版本)
    • IMAP实现讲解
    • IMAP 手动测试脚本
    • IMAP 认证机制
    • 主动推送
  • 74_tio-mcp-server

    • 实现 MCP Server 开发指南
  • 75_tio-sip

    • SIP Server 第一版原理说明
    • SIP Server 第一版实战
    • 一、Windows 平台测试
    • SIP Server 第二版实战
    • SIP Server 第三版实战
    • 性能优化
    • 基于 MediaProcessor 对接 Realtime 模型说明
    • 对接大语言模型
    • 支持 G722 宽带语音
    • G722编码和解码
    • 会话级采样率转换
    • /zh/75_tio-sip/12.html
    • 增加 9196 回声测试分机
    • 语音系统链路说明
    • 一、Gemini Realtime 的打断机制
  • 76_manim

    • Teach me anything - 基于大语言的知识点讲解视频生成系统
    • Manim 开发环境搭建
    • 生成场景提示词
    • 生成代码
    • 完整脚本示例
    • TTS服务端
    • 废弃
    • 废弃
    • 废弃
    • 使用 SSE 流式传输生成进度的实现文档
    • 整合全流程完整文档
    • HLS 动态推流技术文档
    • manim 分场景生成代码
    • 分场景运行代码及流式播放支持
    • 分场景业务端完整实现流程
    • Maiim布局管理器
    • 仅仅生成场景代码
    • 使用 modal 运行 manim 代码
    • Python 使用 Modal GPU 加速渲染
    • Modal 平台 GPU 环境下运行 Manim
    • Modal Manim OpenGL 安装与使用
    • 优化 GPU 加速
    • 生成视频封面流程
    • Java 调用 manim 命令 执行代码 生成封面
    • Manim 图像生成服务客户端文档
    • manim render help
    • 显示 中文公式
    • ManimGL(manimgl)
    • Manim 实战入门:用代码创造数学动画
    • 欢迎
  • 80_性能测试

    • 压力测试 - tio-http-serer
    • 压力测试 - tio-boot
    • 压力测试 - tio-boot-native
    • 压力测试 - netty-boot
    • 性能测试对比
    • TechEmpower FrameworkBenchmarks
    • 压力测试 - tio-boot 12 C 32G
    • HTTP/1.1 Pipelining 性能测试报告
    • tio-boot vs Quarkus 性能对比测试报告
  • 81_tio-boot

    • 简介
    • Swagger 整合到 Tio-Boot 中的指南
    • 待定
    • 待定
    • 高性能网络编程中的 ByteBuffer 分配与回收策略
    • TioBootServerHandler 源码解析
  • 99_案例

    • 封装 IP 查询服务
    • tio-boot 案例 - 全局异常捕获与企业微信群通知
    • tio-boot 案例 - 文件上传和下载
    • tio-boot 案例 - 整合 ant design pro 增删改查
    • tio-boot 案例 - 流失响应
    • tio-boot 案例 - 增强检索
    • tio-boot 案例 - 整合 function call
    • tio-boot 案例 - 定时任务 监控 PostgreSQL、Redis 和 Elasticsearch
    • Tio-Boot 案例:使用 SQLite 整合到登录注册系统
    • tio-boot 案例 - 执行 shell 命令

打断支持

一、标准时序图:正常一轮播放

这是最理想的链路。

用户开始说话
   |
   v
前端 startMic -> 采集 PCM16k -> ws.send(binary)
   |
   v
后端 bridge.sendPcm16k(...)
   |
   v
Gemini 实时识别 / 实时生成
   |
   +---- inputTranscription ----------> 前端: {"type":"transcript_in","text":"..."}
   |
   +---- 第一块 assistant 输出出现
   |         |
   |         +--> 后端生成 turnId
   |         +--> 前端: {"type":"assistant_turn_start","turnId":"asst_1"}
   |
   +---- outputTranscription ---------> 前端: {"type":"transcript_out","text":"...","turnId":"asst_1"}
   |
   +---- inlineData(audio pcm 24k) ---> 前端: binary audio chunk #1
   +---- inlineData(audio pcm 24k) ---> 前端: binary audio chunk #2
   +---- inlineData(audio pcm 24k) ---> 前端: binary audio chunk #3
   |
   +---- outputTranscription ---------> 前端: {"type":"transcript_out","text":"...","turnId":"asst_1"}
   |
   +---- turnComplete ----------------> 前端: {"type":"assistant_turn_complete","turnId":"asst_1"}
   |                                   前端: {"type":"turn_complete"}
   v
前端把最后已入队音频播完

正常场景下,前端应该看到的日志顺序

理想上类似这样:

[in ] 你好
[turn] assistant_turn_start turnId=asst_1
[out] 好的
[out] 我来帮你
[turn] assistant_turn_complete turnId=asst_1
[turn] complete

注意两点:

1. assistant_turn_start 必须早于第一包音频

如果音频先到了,前端没有 activeAssistantTurnId,会直接丢弃。

2. assistant_turn_complete 不一定意味着“音频已经播完”

它表示服务端这轮输出结束,但前端本地可能还有最后几帧已经 schedule 的音频在播放,这是正常的。


二、标准时序图:用户打断 assistant

这是你最关心的场景。

assistant 正在说话
   |
   +---- 前端正在播放 asst_1 的音频 chunk
   |
用户开始说话
   |
   v
前端 startMic 持续上行 PCM
   |
   v
后端 / Gemini 检测到新的 speech activity
   |
   +---- 前端: {"type":"speech_started"}        (可选,有些链路会有)
   |
   +---- 前端: {"type":"assistant_turn_interrupt","turnId":"asst_1"}
   +---- 前端: {"type":"interrupted"}
   |
   v
前端执行:
   - stop 所有 activeSources
   - activeAssistantTurnId = null
   - interruptedTurnIds.add("asst_1")
   - 后续属于 asst_1 的残留二进制包全部丢弃
   |
   v
Gemini 开始生成新一轮回复
   |
   +---- 前端: {"type":"assistant_turn_start","turnId":"asst_2"}
   +---- 前端: binary audio chunk (属于 asst_2)
   +---- 前端: {"type":"assistant_turn_complete","turnId":"asst_2"}

打断场景下,理想日志顺序

[turn] assistant_turn_start turnId=asst_1
[out] 砖
[out] 房
[out] 却
[turn] assistant_turn_interrupt turnId=asst_1
[event] interrupted
[interrupt] playback cleared: assistant_turn_interrupt, turnId=asst_1
[in ] 拿多啊
[turn] assistant_turn_start turnId=asst_2
[out] 好的
[out] 第一

如果做到这里,说明协议级隔离已经生效。


三、realtime模型打断参数设置


1、先解释这几个参数在干什么

你现在的配置:

AutomaticActivityDetection vad = AutomaticActivityDetection.builder()
    .disabled(false)
    .startOfSpeechSensitivity(StartSensitivity.Known.START_SENSITIVITY_HIGH)
    .endOfSpeechSensitivity(EndSensitivity.Known.END_SENSITIVITY_LOW)
    .prefixPaddingMs(100)
    .silenceDurationMs(500)
    .build();

我们逐个拆一下它们对“打断”的影响:


startOfSpeechSensitivity(开始说话灵敏度)

START_SENSITIVITY_HIGH

作用:多快认为“用户开始说话了”

  • LOW → 更保守,不容易误触发
  • HIGH → 更容易检测到开始说话(更灵敏)

这个你已经设为 HIGH,是对的


silenceDurationMs(结束说话判定时间)

silenceDurationMs(500)

作用:多长时间无声音才认为“用户说完了”

⚠️ 这个参数不会影响打断开始,但会影响:

  • turn 切换速度
  • 下一轮 assistant 开始的时机

prefixPaddingMs(前缀补偿)

prefixPaddingMs(100)

作用:在检测到语音开始时,往前补多少音频

这个主要影响:

  • ASR 完整性
  • 不影响打断速度

endOfSpeechSensitivity(结束灵敏度)

END_SENSITIVITY_LOW

作用:多快认为“用户停止说话”

  • LOW → 更慢结束(更稳)
  • HIGH → 更快结束

2、真正影响“打断速度”的关键

打断触发的核心链路是:

用户说话
  ↓
VAD 检测到 start_of_speech
  ↓
Gemini 触发 interrupt
  ↓
bridge 收到 interrupted
  ↓
前端 stop 播放

真正影响“打断是否快”的只有 2 个点:

startOfSpeechSensitivity(最关键)

你已经设 HIGH ✔️


activityHandling(你代码里这个更关键)

你现在是:

.activityHandling(ActivityHandling.Known.START_OF_ACTIVITY_INTERRUPTS)

这个已经是最强打断模式

含义:

一旦检测到用户开始说话,立即打断当前输出

这个你也已经设置正确


推荐“更激进的打断配置”

如果你的目标是:

用户一开口就立刻打断(类似 ChatGPT 语音)

建议这样调:


推荐配置(更灵敏)

AutomaticActivityDetection vad = AutomaticActivityDetection.builder()
    .disabled(false)
    .startOfSpeechSensitivity(StartSensitivity.Known.START_SENSITIVITY_HIGH)   // 已经是最高
    .endOfSpeechSensitivity(EndSensitivity.Known.END_SENSITIVITY_HIGH)         // 更快结束
    .prefixPaddingMs(20)                                                       // 减少缓冲
    .silenceDurationMs(150)                                                    // 关键:从 500 → 150
    .build();

后端代码

package com.litongjava.voice.agent.bridge;

import java.time.Duration;
import java.util.ArrayList;
import java.util.List;
import java.util.Optional;
import java.util.UUID;
import java.util.concurrent.CompletableFuture;

import com.google.genai.AsyncSession;
import com.google.genai.Client;
import com.google.genai.types.ActivityHandling;
import com.google.genai.types.AudioTranscriptionConfig;
import com.google.genai.types.AutomaticActivityDetection;
import com.google.genai.types.Blob;
import com.google.genai.types.ClientOptions;
import com.google.genai.types.Content;
import com.google.genai.types.EndSensitivity;
import com.google.genai.types.LiveConnectConfig;
import com.google.genai.types.LiveSendClientContentParameters;
import com.google.genai.types.LiveSendRealtimeInputParameters;
import com.google.genai.types.LiveServerContent;
import com.google.genai.types.LiveServerMessage;
import com.google.genai.types.Modality;
import com.google.genai.types.Part;
import com.google.genai.types.PrebuiltVoiceConfig;
import com.google.genai.types.RealtimeInputConfig;
import com.google.genai.types.SpeechConfig;
import com.google.genai.types.StartSensitivity;
import com.google.genai.types.ThinkingConfig;
import com.google.genai.types.TurnCoverage;
import com.google.genai.types.VoiceConfig;
import com.litongjava.gemini.GeminiClient;
import com.litongjava.tio.utils.hutool.StrUtil;
import com.litongjava.voice.agent.model.WsVoiceAgentResponseMessage;

import lombok.extern.slf4j.Slf4j;

@Slf4j
public class GoogleGeminiRealtimeBridge implements RealtimeModelBridge {

  private static final String INPUT_MIME = "audio/pcm;rate=16000";
  private static final String OUTPUT_MIME_PREFIX = "audio/pcm";

  private String model = "models/gemini-2.5-flash-native-audio-preview-12-2025";
  private String voiceName = "Puck";

  private final Object transcriptLock = new Object();
  private final StringBuilder turnUserTranscript = new StringBuilder();
  private final StringBuilder turnAssistantTranscript = new StringBuilder();

  /**
   * 协议级 turn 控制
   */
  private final Object assistantTurnLock = new Object();
  private volatile String currentAssistantTurnId;
  private volatile boolean assistantTurnOpen = false;

  private final Client client;
  private volatile AsyncSession session;
  private final RealtimeBridgeCallback callback;

  public GoogleGeminiRealtimeBridge(RealtimeBridgeCallback sender, String url, String model, String voiceName) {
    this.callback = sender;

    Client.Builder b = Client.builder().apiKey(GeminiClient.GEMINI_API_KEY);
    ClientOptions clientOptions = ClientOptions.builder().build();
    b.clientOptions(clientOptions);

    this.client = b.build();

    if (model != null) {
      this.model = model;
    }
    if (voiceName != null) {
      this.voiceName = voiceName;
    }
  }

  public GoogleGeminiRealtimeBridge(RealtimeBridgeCallback sender) {
    this(sender, null, null, null);
  }

  @Override
  public CompletableFuture<Void> connect(RealtimeSetup realtimeSetup) {
    LiveConnectConfig config = buildLiveConfig();

    return client.async.live.connect(model, config).thenCompose(sess -> {
      this.session = sess;
      String sessionId = sess.sessionId();

      callback.session(sessionId);
      send(new WsVoiceAgentResponseMessage("gemini_connected", sessionId));

      try {
        sendPromptsIfAny(sess, realtimeSetup);
      } catch (Exception ex) {
        log.error("send setup prompts error(connect)", ex);
        send(new WsVoiceAgentResponseMessage("error", safe(ex.getMessage())));
      }

      CompletableFuture<Void> receiveFuture = sess.receive(this::onGeminiMessage);
      receiveFuture.whenComplete((v, ex) -> {
        log.info("gemini receive completed, v:{}, ex:{}", v, ex);
        if (ex != null) {
          log.error("gemini receive error", ex);
          send(new WsVoiceAgentResponseMessage("error", safe(ex.getMessage())));
        }
      });

      return receiveFuture;
    }).exceptionally(ex -> {
      log.error("Gemini live connect failed", ex);
      send(new WsVoiceAgentResponseMessage("error", safe(ex.getMessage())));
      callback.close("gemini connect failed");
      return null;
    });
  }

  @Override
  public CompletableFuture<Void> close() {
    try {
      AsyncSession s = this.session;
      if (s != null) {
        return s.close().exceptionally(ex -> null);
      }
    } finally {
      closeAssistantTurnSilently();
      try {
        client.close();
      } catch (Exception ignore) {
      }
      try {
        callback.close("close");
      } catch (Exception ignore) {
      }
    }
    return CompletableFuture.completedFuture(null);
  }

  /**
   * 前端推来的 16k PCM 裸流
   */
  @Override
  public CompletableFuture<Void> sendPcm16k(byte[] pcm16k) {
    AsyncSession s = this.session;
    if (s == null) {
      return CompletableFuture.completedFuture(null);
    }

    Blob audioBlob = Blob.builder().mimeType(INPUT_MIME).data(pcm16k).build();

    LiveSendRealtimeInputParameters params = LiveSendRealtimeInputParameters.builder().audio(audioBlob).build();

    return s.sendRealtimeInput(params).exceptionally(ex -> {
      String message = ex.getMessage();
      log.error("sendPcm16k error: {}", message, ex);
      send(new WsVoiceAgentResponseMessage("error", safe(message)));
      if ("org.java_websocket.exceptions.WebsocketNotConnectedException".equals(message)) {
        close();
      }
      return null;
    });
  }

  /**
   * 前端发文本输入
   */
  @Override
  public CompletableFuture<Void> sendText(String text) {
    AsyncSession s = this.session;
    if (s == null) {
      return CompletableFuture.completedFuture(null);
    }

    Content userMessage = Content.fromParts(Part.fromText(text));

    LiveSendClientContentParameters cc = LiveSendClientContentParameters.builder().turns(List.of(userMessage))
        .turnComplete(true).build();

    return s.sendClientContent(cc).exceptionally(ex -> {
      log.error("sendText error: {}", ex.getMessage(), ex);
      send(new WsVoiceAgentResponseMessage("error", safe(ex.getMessage())));
      return null;
    });
  }

  private void sendPromptsIfAny(AsyncSession s, RealtimeSetup realtimeSetup) {
    if (realtimeSetup == null) {
      return;
    }

    String systemPrompt = realtimeSetup.getSystem_prompt();
    String jobDescription = realtimeSetup.getJob_description();
    String resume = realtimeSetup.getResume();
    String questions = realtimeSetup.getQuestions();
    String greeting = realtimeSetup.getGreeting();

    List<Content> initialTurns = new ArrayList<>();

    if (StrUtil.notBlank(systemPrompt)) {
      initialTurns.add(Content.fromParts(Part.fromText(systemPrompt)));
    }
    if (StrUtil.notBlank(jobDescription)) {
      initialTurns.add(Content.fromParts(Part.fromText(jobDescription)));
    }
    if (StrUtil.notBlank(resume)) {
      initialTurns.add(Content.fromParts(Part.fromText(resume)));
    }
    if (StrUtil.notBlank(questions) || StrUtil.notBlank(greeting)) {
      initialTurns.add(Content.fromParts(
          Part.fromText((greeting == null ? "" : greeting) + "\n\n" + (questions == null ? "" : questions))));
    }

    if (!initialTurns.isEmpty()) {
      LiveSendClientContentParameters cc = LiveSendClientContentParameters.builder().turns(initialTurns)
          .turnComplete(true).build();

      s.sendClientContent(cc).exceptionally(ex -> {
        log.error("sendPromptsIfAny error: {}", ex.getMessage(), ex);
        send(new WsVoiceAgentResponseMessage("error", safe(ex.getMessage())));
        return null;
      });

      send(new WsVoiceAgentResponseMessage("setup_sent_to_model"));
    }
  }

  private LiveConnectConfig buildLiveConfig() {
    AutomaticActivityDetection vad = AutomaticActivityDetection.builder().disabled(false)
        .startOfSpeechSensitivity(StartSensitivity.Known.START_SENSITIVITY_HIGH)
        //
        .endOfSpeechSensitivity(EndSensitivity.Known.END_SENSITIVITY_HIGH)
        //
        .prefixPaddingMs(20).silenceDurationMs(150)
        //
        .build();

    RealtimeInputConfig realtimeInput = RealtimeInputConfig.builder().automaticActivityDetection(vad)
        .activityHandling(ActivityHandling.Known.START_OF_ACTIVITY_INTERRUPTS)
        .turnCoverage(TurnCoverage.Known.TURN_INCLUDES_ONLY_ACTIVITY).build();

    PrebuiltVoiceConfig prebuiltVoiceConfig = PrebuiltVoiceConfig.builder().voiceName(voiceName).build();

    VoiceConfig voiceConfig = VoiceConfig.builder().prebuiltVoiceConfig(prebuiltVoiceConfig).build();

    SpeechConfig speech = SpeechConfig.builder().voiceConfig(voiceConfig).build();

    ThinkingConfig thinkingConfig = ThinkingConfig.builder().thinkingBudget(0).build();

    AudioTranscriptionConfig audioTranscriptionConfig = AudioTranscriptionConfig.builder().build();

    return LiveConnectConfig.builder().responseModalities(List.of(new Modality(Modality.Known.AUDIO)))
        .speechConfig(speech).thinkingConfig(thinkingConfig).realtimeInputConfig(realtimeInput)
        .inputAudioTranscription(audioTranscriptionConfig).outputAudioTranscription(audioTranscriptionConfig).build();
  }

  /**
   * Gemini -> 前端
   */
  private void onGeminiMessage(LiveServerMessage msg) {
    try {
      if (msg == null) {
        return;
      }

      msg.serverContent().ifPresent(this::handleServerContent);

      msg.usageMetadata().ifPresent(usage -> {
        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("usage");
        m.setPromptTokenCount(usage.promptTokenCount());
        m.setResponseTokenCount(usage.responseTokenCount());
        m.setTotalTokenCount(usage.totalTokenCount());
        send(m);
      });

      msg.goAway().ifPresent(goAway -> {
        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("go_away");
        Optional<Duration> timeLeft = goAway.timeLeft();
        m.setTimeLeft(timeLeft.orElse(null));
        send(m);
      });

      msg.toolCall().ifPresent(toolCall -> {
        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("tool_call");
        m.setText(toolCall.toString());
        send(m);
      });

      msg.toolCallCancellation().ifPresent(cancel -> {
        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("tool_call_cancellation");
        m.setText(cancel.toString());
        send(m);
      });

    } catch (Exception e) {
      log.error("onGeminiMessage error", e);
      send(new WsVoiceAgentResponseMessage("error", safe(e.getMessage())));
    }
  }

  private void handleServerContent(LiveServerContent sc) {
    if (sc == null) {
      return;
    }

    sc.inputTranscription().ifPresent(t -> {
      String text = t.text().orElse("");
      if (StrUtil.isNotBlank(text)) {
        appendUserTranscript(text);

        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("transcript_in");
        m.setText(text);
        send(m);
      }
    });

    sc.outputTranscription().ifPresent(t -> {
      String text = t.text().orElse("");
      if (StrUtil.isNotBlank(text)) {
        ensureAssistantTurnStarted();

        appendAssistantTranscript(text);

        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("transcript_out");
        m.setText(text);
        m.setTurnId(currentAssistantTurnId);
        send(m);
      }
    });

    sc.modelTurn().ifPresent(modelTurn -> {
      List<Part> parts = modelTurn.parts().orElse(List.of());
      for (Part p : parts) {
        if (p == null) {
          continue;
        }

        p.text().ifPresent(text -> {
          if (StrUtil.isNotBlank(text)) {
            ensureAssistantTurnStarted();

            appendAssistantTranscript(text);

            WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("text");
            m.setText(text);
            m.setTurnId(currentAssistantTurnId);
            send(m);
          }
        });

        p.inlineData().ifPresent(blob -> {
          String mt = blob.mimeType().orElse("");
          byte[] data = blob.data().orElse(null);

          if (data != null && mt.startsWith(OUTPUT_MIME_PREFIX)) {
            ensureAssistantTurnStarted();
            callback.sendBinary(data);
          }
        });
      }
    });

    sc.interrupted().ifPresent(v -> {
      if (Boolean.TRUE.equals(v)) {
        String turnId = currentAssistantTurnId;
        log.info("interrupted:{}", turnId);
        if (turnId != null) {
          WsVoiceAgentResponseMessage turnInterrupt = new WsVoiceAgentResponseMessage("assistant_turn_interrupt");
          turnInterrupt.setTurnId(turnId);
          send(turnInterrupt);
        }

        send(new WsVoiceAgentResponseMessage("interrupted"));
        closeAssistantTurnSilently();
      }
    });

    if (sc.turnComplete().orElse(false)) {
      String turnId = currentAssistantTurnId;
      if (turnId != null) {
        WsVoiceAgentResponseMessage turnComplete = new WsVoiceAgentResponseMessage("assistant_turn_complete");
        turnComplete.setTurnId(turnId);
        send(turnComplete);
      }

      send(new WsVoiceAgentResponseMessage("turn_complete"));
      flushTurnTranscriptOnComplete();
      closeAssistantTurnSilently();
    }
  }

  private String ensureAssistantTurnStarted() {
    synchronized (assistantTurnLock) {
      if (assistantTurnOpen && currentAssistantTurnId != null) {
        return currentAssistantTurnId;
      }

      currentAssistantTurnId = newAssistantTurnId();
      assistantTurnOpen = true;

      WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("assistant_turn_start");
      m.setTurnId(currentAssistantTurnId);
      send(m);

      return currentAssistantTurnId;
    }
  }

  private void closeAssistantTurnSilently() {
    synchronized (assistantTurnLock) {
      assistantTurnOpen = false;
      currentAssistantTurnId = null;
    }
  }

  private String newAssistantTurnId() {
    return "asst_" + System.currentTimeMillis() + "_" + UUID.randomUUID().toString().replace("-", "");
  }

  private void appendUserTranscript(String text) {
    synchronized (transcriptLock) {
      if (turnUserTranscript.length() > 0) {
        turnUserTranscript.append(' ');
      }
      turnUserTranscript.append(text);
    }
  }

  private void appendAssistantTranscript(String text) {
    synchronized (transcriptLock) {
      if (turnAssistantTranscript.length() > 0) {
        turnAssistantTranscript.append(' ');
      }
      turnAssistantTranscript.append(text);
    }
  }

  private void flushTurnTranscriptOnComplete() {
    synchronized (transcriptLock) {
      String userText = turnUserTranscript.toString().trim();
      String assistantText = turnAssistantTranscript.toString().trim();

      if (StrUtil.isNotBlank(userText) || StrUtil.isNotBlank(assistantText)) {
        WsVoiceAgentResponseMessage m = new WsVoiceAgentResponseMessage("turn_transcript");
        m.setInputText(userText);
        m.setOutputText(assistantText);
        send(m);
      }

      turnUserTranscript.setLength(0);
      turnAssistantTranscript.setLength(0);
    }
  }

  private void send(WsVoiceAgentResponseMessage msg) {
    try {
      callback.sendText(msg.toJson());
    } catch (Exception e) {
      log.error("send ws message error: {}", msg, e);
    }
  }

  private String safe(String s) {
    if (s == null) {
      return "";
    }
    return s.length() > 1000 ? s.substring(0, 1000) : s;
  }

  /**
   * 前端说“音频结束”
   */
  @Override
  public CompletableFuture<Void> endAudioInput() {
    AsyncSession s = this.session;
    if (s == null) {
      return CompletableFuture.completedFuture(null);
    }

    LiveSendRealtimeInputParameters params = LiveSendRealtimeInputParameters.builder().audioStreamEnd(true).build();

    return s.sendRealtimeInput(params).exceptionally(ex -> {
      String message = ex.getMessage();
      log.error("sendAudioStreamEnd error: {}", message, ex);
      send(new WsVoiceAgentResponseMessage("error", safe(message)));
      if ("org.java_websocket.exceptions.WebsocketNotConnectedException".equals(message)) {
        close();
      }
      return null;
    });
  }
}

前端代码

app.js

const el = (id) => document.getElementById(id);

const wsUrlInput = el("wsUrl");
const btnConnect = el("btnConnect");
const btnDisconnect = el("btnDisconnect");

const btnStartMic = el("btnStartMic");
const btnStopMic = el("btnStopMic");
const btnAudioEnd = el("btnAudioEnd");

const textInput = el("textInput");
const btnSendText = el("btnSendText");

const logEl = el("log");
const playStateEl = el("playState");
const btnClearLog = el("btnClearLog");

// 新增上下文字段元素
const systemPromptEl = el("systemPrompt");
const jobDescriptionEl = el("jobDescription");
const resumeEl = el("resume");
const questionsEl = el("questions");
const greetingEl = el("greeting");

// sessionId 显示元素
const sessionIdEl = el("sessionId");

function logLine(s) {
	logEl.textContent += s + "\n";
	logEl.scrollTop = logEl.scrollHeight;
}

function setPlayState(obj) {
	playStateEl.textContent = JSON.stringify(obj, null, 2);
}

function setSessionId(sessionId) {
	sessionIdEl.textContent = sessionId || "-";
}

function setSessionDisconnected(disconnected) {
	sessionIdEl.classList.toggle("disconnected", !!disconnected);
}

function defaultWsUrl() {
	const loc = window.location;
	const proto = loc.protocol === "https:" ? "wss:" : "ws:";
	return `${proto}//${loc.host}/api/v1/voice/agent`;
}
wsUrlInput.value = defaultWsUrl();

/** ---------- WebSocket ---------- */
let ws = null;

/** ---------- Audio (Mic) ---------- */
let micStream = null;
let micCtx = null;
let micNode = null; // AudioWorkletNode 或 ScriptProcessorNode
let micEnabled = false;

/** ---------- Audio (Playback) ---------- */
let playCtx = null;
let masterGain = null;
let nextPlayTime = 0;
let playedChunks = 0;
let droppedChunks = 0;

// 当前允许接收并播放的 assistant turn
let activeAssistantTurnId = null;

// 当前已被打断 / 完成的 turn,后续若再有残留二进制音频,直接丢弃
const interruptedTurnIds = new Set();
const completedTurnIds = new Set();

// 当前已经创建并可能仍在播放/等待播放的 source
const activeSources = new Set();

const INPUT_RATE = 16000;
const OUTPUT_RATE = 24000;

function pcm16ToFloat32(int16) {
	const f32 = new Float32Array(int16.length);
	for (let i = 0; i < int16.length; i++) {
		f32[i] = int16[i] / 32768;
	}
	return f32;
}

function float32ToInt16PCM(f32) {
	const out = new Int16Array(f32.length);
	for (let i = 0; i < f32.length; i++) {
		let s = Math.max(-1, Math.min(1, f32[i]));
		out[i] = s < 0 ? s * 32768 : s * 32767;
	}
	return out;
}

// 把 24k Float32 重采样到 playCtx.sampleRate(通常 48k)
function resampleLinear(input, inRate, outRate) {
	if (inRate === outRate) return input;

	const ratio = inRate / outRate;
	const outLen = Math.floor(input.length / ratio);
	const out = new Float32Array(outLen);

	for (let i = 0; i < outLen; i++) {
		const t = i * ratio;
		const i0 = Math.floor(t);
		const i1 = Math.min(i0 + 1, input.length - 1);
		const frac = t - i0;
		out[i] = input[i0] * (1 - frac) + input[i1] * frac;
	}

	return out;
}

function getPlaybackState() {
	return {
		playSampleRate: playCtx?.sampleRate || null,
		nextPlayTime,
		playedChunks,
		droppedChunks,
		activeSources: activeSources.size,
		activeAssistantTurnId,
		interruptedTurnIds: Array.from(interruptedTurnIds),
		completedTurnIds: Array.from(completedTurnIds),
		playCtxState: playCtx?.state || "none"
	};
}

function updatePlayState() {
	setPlayState(getPlaybackState());
}

async function ensurePlaybackContext() {
	if (playCtx) return;

	playCtx = new (window.AudioContext || window.webkitAudioContext)();
	masterGain = playCtx.createGain();
	masterGain.gain.value = 1;
	masterGain.connect(playCtx.destination);

	nextPlayTime = playCtx.currentTime + 0.05;
	updatePlayState();
}

function canAcceptAudioForTurn(turnId) {
	if (!turnId) return false;
	if (!activeAssistantTurnId) return false;
	if (turnId !== activeAssistantTurnId) return false;
	if (interruptedTurnIds.has(turnId)) return false;
	if (completedTurnIds.has(turnId)) return false;
	return true;
}

function clearAllScheduledSources() {
	for (const src of activeSources) {
		try {
			src.stop(0);
		} catch {}
	}
	activeSources.clear();
}

function interruptPlayback(reason = "", turnId = null) {
	clearAllScheduledSources();

	if (playCtx) {
		const now = playCtx.currentTime;
		nextPlayTime = now + 0.02;
	}

	if (turnId && activeAssistantTurnId === turnId) {
		activeAssistantTurnId = null;
	}

	logLine(`[interrupt] playback cleared: ${reason}${turnId ? `, turnId=${turnId}` : ""}`);
	updatePlayState();
}

function resetPlaybackRouting() {
	activeAssistantTurnId = null;
	interruptedTurnIds.clear();
	completedTurnIds.clear();
	clearAllScheduledSources();

	if (playCtx) {
		nextPlayTime = playCtx.currentTime + 0.02;
	} else {
		nextPlayTime = 0;
	}

	updatePlayState();
}

function schedulePcmPlayback(pcmInt16_24k, turnId) {
	if (!playCtx || !masterGain) return;

	// 不是当前 turn 的音频,直接丢弃
	if (!canAcceptAudioForTurn(turnId)) {
		droppedChunks++;
		updatePlayState();
		return;
	}

	const f32_24k = pcm16ToFloat32(pcmInt16_24k);
	const f32 = resampleLinear(f32_24k, OUTPUT_RATE, playCtx.sampleRate);

	const buffer = playCtx.createBuffer(1, f32.length, playCtx.sampleRate);
	buffer.copyToChannel(f32, 0);

	const src = playCtx.createBufferSource();
	src.buffer = buffer;
	src.connect(masterGain);

	const now = playCtx.currentTime;
	if (nextPlayTime < now) {
		nextPlayTime = now + 0.01;
		droppedChunks++;
	}

	const startAt = nextPlayTime;
	nextPlayTime += buffer.duration;

	activeSources.add(src);

	src.onended = () => {
		activeSources.delete(src);
		updatePlayState();
	};

	// start 前再做一次 turn 校验,避免开始前刚好收到 interrupt/complete
	if (!canAcceptAudioForTurn(turnId)) {
		activeSources.delete(src);
		droppedChunks++;
		updatePlayState();
		return;
	}

	src.start(startAt);
	playedChunks++;
	updatePlayState();
}

/** ---------- WS Handlers ---------- */
function setUiConnected(connected) {
	btnConnect.disabled = connected;
	btnDisconnect.disabled = !connected;

	btnStartMic.disabled = !connected;
	btnStopMic.disabled = !connected;
	btnAudioEnd.disabled = !connected;

	btnSendText.disabled = !connected;
}

function connectWs() {
	const url = wsUrlInput.value.trim();
	ws = new WebSocket(url);
	ws.binaryType = "arraybuffer";

	ws.onopen = async () => {
		logLine(`[ws] open: ${url}`);
		setUiConnected(true);
		setSessionDisconnected(false);
		resetPlaybackRouting();
		await ensurePlaybackContext();

		try {
			const systemPrompt = systemPromptEl.value?.trim() || "";
			const jobDescription = jobDescriptionEl.value?.trim() || "";
			const resume = resumeEl.value?.trim() || "";
			const questions = questionsEl.value?.trim() || "";
			const greeting = greetingEl.value?.trim() || "";

			const setupMsg = {
				type: "setup",
				system_prompt: systemPrompt,
				job_description: jobDescription,
				resume: resume,
				questions: questions,
				greeting: greeting
			};

			ws.send(JSON.stringify(setupMsg));

			logLine(`[send] setup: ${JSON.stringify({
				system_prompt: systemPrompt,
				job_description: jobDescription,
				resume: resume,
				questions: questions,
				greeting: greeting
			})}`);
		} catch (e) {
			logLine("[send] setup error: " + (e?.message || e));
		}
	};

	ws.onclose = (e) => {
		logLine(`[ws] close: code=${e.code} reason=${e.reason || ""}`);
		setUiConnected(false);
		setSessionDisconnected(true);
		resetPlaybackRouting();
		stopMic().catch(() => {});
	};

	ws.onerror = () => {
		logLine("[ws] error");
	};

	ws.onmessage = async (evt) => {
		if (typeof evt.data === "string") {
			try {
				const obj = JSON.parse(evt.data);

				if (obj.type === "SETUP_RECEIVED") {
					setSessionId(obj.sessionId || "-");
					setSessionDisconnected(false);
					logLine(`[setup_received] sessionId=${obj.sessionId || ""}`);
				} else if (obj.type === "assistant_turn_start") {
					const turnId = obj.turnId || null;

					// 新 turn 开始时,先把旧播放彻底打断,避免两轮重叠
					if (activeAssistantTurnId && activeAssistantTurnId !== turnId) {
						interruptPlayback("new assistant_turn_start replaces previous turn", activeAssistantTurnId);
					}

					activeAssistantTurnId = turnId;

					// 新 turn 到来时,把同名 turn 从历史失效集合中清理掉
					if (turnId) {
						interruptedTurnIds.delete(turnId);
						completedTurnIds.delete(turnId);
					}

					logLine(`[turn] assistant_turn_start turnId=${turnId || ""}`);
					updatePlayState();
				} else if (obj.type === "assistant_turn_interrupt") {
					const turnId = obj.turnId || null;
					if (turnId) interruptedTurnIds.add(turnId);

					logLine(`[turn] assistant_turn_interrupt turnId=${turnId || ""}`);
					interruptPlayback("assistant_turn_interrupt", turnId);
				} else if (obj.type === "assistant_turn_complete") {
					const turnId = obj.turnId || null;
					if (turnId) completedTurnIds.add(turnId);

					logLine(`[turn] assistant_turn_complete turnId=${turnId || ""}`);

					// complete 只关闭路由,不主动 stop;
					// 已经进来的最后一小段正常播完,complete 之后若还有残留包会被丢弃
					if (turnId && activeAssistantTurnId === turnId) {
						activeAssistantTurnId = null;
					}

					updatePlayState();
				} else if (obj.type === "speech_started") {
					logLine("[event] speech_started");

					// 用户开始说话,属于打断信号
					if (activeAssistantTurnId) {
						interruptedTurnIds.add(activeAssistantTurnId);
					}
					interruptPlayback("speech_started", activeAssistantTurnId);
				} else if (obj.type === "interrupted") {
					logLine("[event] interrupted");

					if (activeAssistantTurnId) {
						interruptedTurnIds.add(activeAssistantTurnId);
					}
					interruptPlayback("interrupted", activeAssistantTurnId);
				} else if (obj.type === "transcript_in") {
					logLine(`[in ] ${obj.text || ""}`);
				} else if (obj.type === "transcript_out") {
					logLine(`[out] ${obj.text || ""}`);
				} else if (obj.type === "text") {
					logLine(`[txt] ${obj.text || ""}`);
				} else if (obj.type === "turn_transcript") {
					logLine(`[turn_transcript] in=${obj.inputText || ""} | out=${obj.outputText || ""}`);
				} else if (obj.type === "turn_complete") {
					logLine("[turn] complete");
				} else if (obj.type === "setup_complete") {
					logLine("[setup] complete");
				} else if (obj.type === "setup_sent_to_model") {
					logLine("[setup] sent_to_model");
				} else if (obj.type === "gemini_connected") {
					if (obj.sessionId) {
						setSessionId(obj.sessionId);
						setSessionDisconnected(false);
					}
					logLine(`[gemini] connected sessionId=${obj.sessionId || ""}`);
				} else if (obj.type === "usage") {
					logLine(
						`[usage] prompt=${obj.promptTokenCount} response=${obj.responseTokenCount} total=${obj.totalTokenCount}`
					);
				} else if (obj.type === "go_away") {
					logLine(`[goAway] timeLeft=${obj.timeLeft}`);
				} else if (obj.type === "error") {
					logLine(`[err] ${obj.where || ""}: ${obj.message || obj.text || ""}`);
				} else {
					logLine(`[evt] ${evt.data}`);
				}
			} catch {
				logLine(`[text] ${evt.data}`);
			}
			return;
		}

		// 二进制:24k 16-bit PCM mono
		if (evt.data instanceof ArrayBuffer) {
			// 没有激活中的 assistant turn,说明这包音频没有合法归属,直接丢弃
			const turnId = activeAssistantTurnId;
			if (!turnId) {
				droppedChunks++;
				updatePlayState();
				return;
			}

			const bytes = new Uint8Array(evt.data);
			const i16 = new Int16Array(bytes.buffer, bytes.byteOffset, Math.floor(bytes.byteLength / 2));

			if (playCtx && playCtx.state === "suspended") {
				await playCtx.resume();
			}

			schedulePcmPlayback(i16, turnId);
		}
	};
}

/** ---------- Mic Capture ---------- */
async function startMic() {
	if (!ws || ws.readyState !== WebSocket.OPEN) {
		logLine("WS 未连接");
		return;
	}
	if (micEnabled) return;

	await ensurePlaybackContext();
	if (playCtx.state === "suspended") await playCtx.resume();

	micStream = await navigator.mediaDevices.getUserMedia({
		audio: {
			channelCount: 1,
			echoCancellation: true,
			noiseSuppression: true,
			autoGainControl: true
		}
	});

	micCtx = new (window.AudioContext || window.webkitAudioContext)();
	const source = micCtx.createMediaStreamSource(micStream);

	try {
		await micCtx.audioWorklet.addModule("./mic-worklet.js");
		micNode = new AudioWorkletNode(micCtx, "mic-processor");

		micNode.port.onmessage = (e) => {
			const msg = e.data || {};
			if (msg.type === "pcm_f32_16k") {
				const f32 = new Float32Array(msg.data);
				const i16 = float32ToInt16PCM(f32);
				if (ws && ws.readyState === WebSocket.OPEN) {
					ws.send(i16.buffer);
				}
			}
		};

		source.connect(micNode);
		micNode.connect(micCtx.destination);

		micNode.port.postMessage({ type: "enable" });
		micEnabled = true;
		logLine("[mic] started (AudioWorklet)");
	} catch (err) {
		logLine("[mic] AudioWorklet 不可用,回退到 ScriptProcessor");

		const bufferSize = 4096;
		const sp = micCtx.createScriptProcessor(bufferSize, 1, 1);
		micNode = sp;

		sp.onaudioprocess = (e) => {
			const input = e.inputBuffer.getChannelData(0);
			const resampled = resampleLinear(input, micCtx.sampleRate, INPUT_RATE);
			const i16 = float32ToInt16PCM(resampled);

			if (ws && ws.readyState === WebSocket.OPEN) {
				ws.send(i16.buffer);
			}
		};

		source.connect(sp);
		sp.connect(micCtx.destination);

		micEnabled = true;
		logLine("[mic] started (ScriptProcessor)");
	}

	btnStartMic.disabled = true;
	btnStopMic.disabled = false;
}

async function stopMic() {
	micEnabled = false;

	try {
		if (micNode && micNode.port) {
			micNode.port.postMessage({ type: "disable" });
		}
	} catch {}

	if (micStream) {
		micStream.getTracks().forEach((t) => t.stop());
		micStream = null;
	}

	if (micCtx) {
		try {
			await micCtx.close();
		} catch {}
		micCtx = null;
	}

	micNode = null;

	btnStartMic.disabled = !ws || ws.readyState !== WebSocket.OPEN;
	btnStopMic.disabled = true;

	logLine("[mic] stopped");
}

/** ---------- UI actions ---------- */
btnConnect.onclick = () => {
	if (ws && ws.readyState === WebSocket.OPEN) return;
	connectWs();
};

btnDisconnect.onclick = () => {
	if (ws) ws.close(1000, "client close");
};

btnStartMic.onclick = () => startMic().catch((e) => logLine("[mic] start error: " + (e?.message || e)));
btnStopMic.onclick = () => stopMic().catch(() => {});

btnAudioEnd.onclick = () => {
	if (!ws || ws.readyState !== WebSocket.OPEN) return;

	ws.send(JSON.stringify({ type: "audio_end" }));
	logLine("[send] audio_end");
};

btnSendText.onclick = () => {
	if (!ws || ws.readyState !== WebSocket.OPEN) return;

	const t = textInput.value.trim();
	if (!t) return;

	ws.send(JSON.stringify({
		type: "text",
		text: t
	}));

	logLine("[send] text: " + t);
	textInput.value = "";
};

btnClearLog.onclick = () => {
	logEl.textContent = "";
};

setUiConnected(false);
btnStopMic.disabled = true;
setSessionId("-");
setSessionDisconnected(true);
updatePlayState();
Edit this page
Last Updated: 3/20/26, 8:32 AM
Contributors: litongjava
Prev
整合千问realtime模型
Next
主动介入