SIP Server 第一版原理说明

INVITE sip:1001@192.168.3.219:5060 SIP/2.0
Via: SIP/2.0/UDP 192.168.3.10:5062;branch=z9hG4bK-123456
From: <sip:caller@192.168.3.10>;tag=from-tag-001
To: <sip:1001@192.168.3.219>
Call-ID: call-0001
CSeq: 1 INVITE
Contact: <sip:caller@192.168.3.10:5062>
Content-Type: application/sdp
Content-Length: xxx

v=0
o=- 1000 1000 IN IP4 192.168.3.10
s=-
c=IN IP4 192.168.3.10
t=0 0
m=audio 40002 RTP/AVP 0 8 101
a=rtpmap:0 PCMU/8000
a=rtpmap:8 PCMA/8000
a=rtpmap:101 telephone-event/8000
a=ptime:20
a=sendrecv

这里分两部分看：

SIP 头部的含义

INVITE sip:... SIP/2.0：发起呼叫
Via：请求经过的传输路径
From：主叫方
To：被叫方
Call-ID：本次呼叫的全局标识
CSeq：请求序号
Contact：对端联系地址
Content-Type: application/sdp：消息体是 SDP
Content-Length：消息体字节长度

SDP offer 的含义

c=IN IP4 192.168.3.10：对端媒体 IP
m=audio 40002 RTP/AVP 0 8 101：对端希望在 40002 端口收音频，支持的 payload type 有 0、8、101
a=rtpmap:0 PCMU/8000：PT 0 表示 PCMU，8kHz
a=rtpmap:8 PCMA/8000：PT 8 表示 PCMA，8kHz
a=rtpmap:101 telephone-event/8000：DTMF 事件
a=ptime:20：每包 20ms
a=sendrecv：双向收发

5.2 第二步：服务端解析 INVITE

服务端收到 INVITE 后，会做这些动作：

解析 SIP 起始行和头部
读取 Call-ID
检查是否是重复的 INVITE
解析 SDP offer
提取对端的 RTP IP 和 RTP 端口
从本地动态分配一个 RTP 端口
启动该 RTP 端口的 UDP 监听

如果是 UDP 模式，还会处理 INVITE 重传问题。如果同一个 Call-ID 的 INVITE 已经处理过，就可以直接重发之前的 200 OK。

5.3 第三步：服务端返回 100 Trying（UDP 场景常见）

在 UDP 模式下，服务端可以先返回一个临时响应：

SIP/2.0 100 Trying
Via: SIP/2.0/UDP 192.168.3.10:5062;branch=z9hG4bK-123456
From: <sip:caller@192.168.3.10>;tag=from-tag-001
To: <sip:1001@192.168.3.219>
Call-ID: call-0001
CSeq: 1 INVITE
Content-Length: 0

含义是：

请求已经收到
正在处理

第一版里它的作用主要是更贴近 SIP 的基本处理流程。

5.4 第四步：服务端返回 200 OK + SDP answer

这是建立通话的关键响应。

一个典型的 200 OK 结构如下：

SIP/2.0 200 OK
Via: SIP/2.0/UDP 192.168.3.10:5062;branch=z9hG4bK-123456
From: <sip:caller@192.168.3.10>;tag=from-tag-001
To: <sip:1001@192.168.3.219>;tag=java123456789
Call-ID: call-0001
CSeq: 1 INVITE
Contact: <sip:java@192.168.3.219:5060>
Content-Type: application/sdp
Content-Length: xxx

v=0
o=- 1 1 IN IP4 192.168.3.219
s=JavaSip
c=IN IP4 192.168.3.219
t=0 0
m=audio 31234 RTP/AVP 0
a=rtpmap:0 PCMU/8000
a=ptime:20
a=sendrecv

这个 200 OK 做了什么

在 SIP 层

表示呼叫已经被接受
To 头里追加了一个 tag
携带本端 Contact

在 SDP 层

c=IN IP4 192.168.3.219：告诉对端媒体发往这个 IP
m=audio 31234 RTP/AVP 0：告诉对端音频发往 31234 端口
a=rtpmap:0 PCMU/8000：本端当前第一版只回 PCMU
a=sendrecv：双向收发

这意味着：

信令继续走 5060
语音以后不再走 5060
语音改走 192.168.3.219:31234

5.5 第五步：终端发送 ACK

对端收到 200 OK 后，会发送 ACK，表示这次会话确认建立。

典型报文如下：

ACK sip:1001@192.168.3.219:5060 SIP/2.0
Via: SIP/2.0/UDP 192.168.3.10:5062;branch=z9hG4bK-ack-001
From: <sip:caller@192.168.3.10>;tag=from-tag-001
To: <sip:1001@192.168.3.219>;tag=java123456789
Call-ID: call-0001
CSeq: 1 ACK
Content-Length: 0

服务端对 ACK 一般不再回响应。它的意义是把会话状态从“已发 200 OK”推进到“已建立”。

6. SDP 协商在第一版里的含义

第一版虽然还没做完整的 codec 协商，但已经具备最基本的 SDP 作用：

对端 offer 提供的信息

对端 RTP IP
对端 RTP 端口
对端支持哪些编码

本端 answer 返回的信息

本端 RTP IP
本端 RTP 端口
本端选用哪个编码

第一版的策略是：

读取对端 offer
拿到对端 RTP 目的地址
本端固定回答 PCMU/8000
这样双方就在 PCMU 上达成最小一致

7. RTP 交互流程

一旦 ACK 完成，会话建立后，媒体流就开始工作。

7.1 对端往服务端 RTP 端口发包

对端根据 200 OK 中的 SDP answer，把 RTP 发到：

IP：192.168.3.219
端口：31234

一个 RTP 包一般由两部分组成：

RTP Header
Payload

第一版使用的音频通常是 PCMU，每个 20ms 一包。在 8kHz 单声道场景下，20ms 通常对应 160 个采样点。

因此很常见的 RTP 包结构是：

12 字节 RTP 头
160 字节 PCMU payload

总长度大约 172 字节。

7.2 RTP 头的基本字段

RTP 头里最关键的字段有：

Version：通常是 2
Payload Type：例如 0 表示 PCMU
Sequence Number：序列号，每发一包加 1
Timestamp：时间戳，音频每包按采样数递增
SSRC：同步源标识

例如：

第一包序列号：1
第二包序列号：2
每包 20ms、8kHz，则时间戳每次增加 160

7.3 第一版的 RTP 处理方式

第一版的媒体逻辑非常简单：

收到对端 RTP 包
不做语音识别
不做重采样
不做重新编码
直接把收到的二进制包回发给对端

这样对端就会收到一份“自己刚刚发出的音频包的回环”。

因此，用户会听见自己的回声。

7.4 为什么能听到回声

因为对端发送路径大致是：

终端采集麦克风声音
编码成 PCMU
封装成 RTP
发给服务端

服务端处理路径是：

收到 RTP
原样发回

终端接收路径是：

收到来自服务端的 RTP
按 PCMU 解码
播放到扬声器

于是就形成回声。

8. 通话结束流程

当任一方要结束通话时，会发送 BYE。

典型报文如下：

BYE sip:1001@192.168.3.219:5060 SIP/2.0
Via: SIP/2.0/UDP 192.168.3.10:5062;branch=z9hG4bK-bye-001
From: <sip:caller@192.168.3.10>;tag=from-tag-001
To: <sip:1001@192.168.3.219>;tag=java123456789
Call-ID: call-0001
CSeq: 2 BYE
Content-Length: 0

服务端收到后，会做这些动作：

根据 Call-ID 找到对应 session
停止对应的 RTP UDP 服务
回收本地 RTP 端口
删除会话状态
返回 200 OK

响应报文如下：

SIP/2.0 200 OK
Via: SIP/2.0/UDP 192.168.3.10:5062;branch=z9hG4bK-bye-001
From: <sip:caller@192.168.3.10>;tag=from-tag-001
To: <sip:1001@192.168.3.219>;tag=java123456789
Call-ID: call-0001
CSeq: 2 BYE
Content-Length: 0

到这里，本次会话结束。