Linux 内核网络 | PenguinLab

上一节我们把 nfnatipv4_ops 这个钩子数组注册进了内核，这就像在数据包必经的高速公路上设了卡。但如果你仔细看这些关卡，你会发现一件有意思的事：有些关卡上，既有连接跟踪（conntrack）的人在查身份证，也有 NAT 的人在改地址。他们挤在同一个 Hook 点上，按什么顺序出来工作，这是个甚至能决定生死的细节。

9.9 NAT Hook 回调与连接跟踪扩展

上一节我们看了 manip_pkt 这个「外科医生」是如何拿着手术刀修改数据包 IP 和端口的。但问题来了：这个函数是谁调用的？它在什么时候进场？更重要的是，它怎么知道该把这个数据包改成什么样——比如，它是该改源地址（SNAT）还是改目的地址（DNAT）？

📄️第 10 章 IPsec 与加密

本章共 8 节，点击下方链接阅读：

📄️第 10 章通往信任的隧道

有一类问题，表面上看是网络配置问题，实际上是信任问题。

10.2 IKE (Internet Key Exchange)

上一节我们提到，IPsec 不仅仅是一个内核模块，它是一场跨越用户空间和内核空间的联合行动。内核只负责「执行」——也就是拿到密钥后去加密、解密数据包。但在执行之前，得有人先把密钥商量好，把规则定下来。这个「外交谈判」的任务，就是在这一节要讲的 IKE (Internet Key Exchange)。

10.3 The XFRM Framework

上一节我们聊了 IPsec 用到的那些加密算法，看到了内核是如何通过 Crypto API 和 pcrypt 来榨干 CPU 性能的。算法固然是肌肉，但光有肌肉没法干活——你还需要骨架和神经系统来把这些算法组织起来，告诉内核什么时候该加密、该用哪个密钥、以及把数据包发到哪里去。

10.4 ESP 实现 (IPv4)

我们已经看到了 XFRM 框架是如何存放策略（SPD）和状态（SAD）的——这就像是盖好了房子、备好了账本。但房子里的人怎么进出，账本里的规则怎么执行，取决于具体的协议。

10.5 接收一个 IPsec 数据包（传输模式）

上一节我们在初始化的最后停在了 xfrm4_rcv() 上——这是 ESP 协议注册给内核的接收入口。管道铺好了，现在真的有数据包流进来了，它会经历一场什么样的旅程？

📄️ch10_6

10.6 XFRM Lookup

10.7 NAT Traversal in IPsec

上一节我们还在享受 xfrm_lookup() 带来的「确定感」——策略匹配了，状态找到了，加密完成了，包发出去了。一切看起来都很美好。

10.8 快速参考

这章的内容确实有点烧脑——XFRM 框架的状态机、策略与状态的纠缠、还有 NAT-T 那种「为了生存而不得不做的妥协」。

📄️第 11 章传输层协议

本章共 7 节，点击下方链接阅读：

11.1 Sockets

有一个哲学问题贯穿了 Unix 的历史："一切皆文件"。

📄️ch11_2

11.2 创建套接字（Creating Sockets）

11.3 UDP (User Datagram Protocol)

还记得上一节我们在 msghdr 结构里看到的那些字段吗？msgiov 存数据，msgcontrol 存辅助信息。当时你可能觉得这只是一堆枯燥的数据结构定义。

11.4 TCP (Transmission Control Protocol)

如果上一节我们聊的 UDP 是一个「发完即忘」的乐天派，那这一节要面对的 TCP 就是网络协议世界里最严重的强迫症患者。

11.5 SCTP：工程权衡下的混血儿

上一节我们最后看到 TCP 那个复杂且精细的世界，为了可靠性和有序性，它不惜一切代价。但在工程师的现实世界里，并不是所有场景都能忍受 TCP 的死板，也不能全盘接受 UDP 的冷漠。你需要的是一种混合体——既要 TCP 的可靠和拥塞控制，又要 UDP 的消息边界和多宿主能力。

11.6 DCCP: 数据报拥塞控制协议

我们终于来到了 IPv4 传输层家族的最后一站。

11.7 快速参考手册

代码读完了，协议看过了，现在让我们把散落在各处的零件拼回一张图纸。

📄️第 12 章无线网络

本章共 9 节，点击下方链接阅读：

12.1 Mac80211 Subsystem

在深入 Linux 内核的无线实现之前，我们需要先面对一个现实：无线网络和有线网络虽然都在 /etc/network/interfaces 里长得差不多，但在内核眼里，它们完全是两个物种。

12.2 802.11 MAC 头部

---

12.3 Network Topologies（网络拓扑）

搞定了帧头部的字节排列之后，我们需要退后一步，看看大局。

12.4 节电模式 (Power Save Mode)

除了转发数据包，AP 还有一个重要的功能：充当那些「睡着」的客户端的保姆，帮它们缓存数据。

📄️ch12_5

12.5 MAC 层管理实体 (MLME)

📄️Mac80211 实现细节

现在，让我们把目光从空中的协议交互收回内核。

12.7 High Throughput (802.11n) —— 高速公路的入场券

上一节我们聊完 mac80211 的骨架和肌肉时，我提到了无线世界不仅需要「通」，更需要「快」。

📄️ch12_8

12.8 Mesh Networking (802.11s)

📄️ch12_9

12.9 快速参考（Quick Reference）

📄️第 13 章 RDMA 与高性能网络

本章共 8 节，点击下方链接阅读：

📄️第 13 章绕过内核的代价

有一类问题，表面上是「网络性能」问题，实际上是「谁在为此买单」的问题。

📄️ch13_2

13.2 RDMA Device —— 谁来接管这台机器？

13.3 Memory Region (MR)

上一节我们搞定了地址句柄（AH），就像是给 RDMA 网络里的数据包指好了路牌。但这还不够——路牌只是告诉你怎么走，车（数据）还得先有地方装。

📄️ch13_4

13.4 Completion Queue (CQ) —— 任务完成的信箱

13.5 Shared Receive Queue (SRQ)

我们现在已经聊过了 QP、CQ，还有各种花里胡哨的域。你可能会觉得 RDMA 的对象模型有点像俄罗斯套娃，一层套一层。

📄️ch13_6

13.6 Queue Pair (队列对)

13.7 RDMA 支持的操作

上一节我们花了很大力气去搞清楚 QP 这个「阿凡达」是怎么造出来的，以及它的生命周期有多脆弱。

13.8 速查表

到这里，我们已经把 RDMA 栈的大多数骨头都拆过了。现在手边应该有很多散落的零件：ib_client、PD、QP、CQ、MR……

📄️第 14 章网络命名空间与高级特性

本章共 15 节，点击下方链接阅读：

14. Namespaces Implementation

章节引子：看不见的墙

14.10 通知链

上一节我们讨论了 NFC 这种「握手协议」，内核在其中扮演了精巧的翻译官角色。但内核不仅要在硬件之间翻译，还得时刻监听整个系统的状态变化。

14.11 The PCI Subsystem

上一节我们聊完了内核的「通知链」——那是软件层面的解耦艺术。

14.12 PPPoE Header —— 把协议钉在以太网上

上一节我们聊完了 PPPoE 的两个阶段——发现和会话，就像看完了两个人先握手问好，再开始聊天的全过程。

14.13 Android

上一节我们还在 PPPoE 的世界里琢磨怎么把以太网包装成点对点通道，这一节，我们要把视角拉高，看看 Linux 内核 networking 在移动端最大的「租客」之一——Android。

14.14 方法速查表（工具箱里的扳手和螺丝刀）

前面的旅程就真的到头了。

14.15 宏定义与工具函数

---

14.2 UTS 命名空间的实现

上一节我们提到，内核并不关心命名空间的「名字」，它只靠 inode 号来区分不同的实例。这听起来很极简，但极简是设计的最高境界。

14.3 网络命名空间的实现

上一节我们聊完了 UTS 命名空间——那个只管主机名的「软柿子」。它帮我们热了身，让我们明白内核是如何把「全局变量」这种坏习惯改造成「命名空间私有数据」的。

14.4 管理 Network Namespace：从上帝视角到手动操作

上一节我们站在内核的角度，把 struct net 的前世今生走了一遍。现在，让我们回到用户空间。

14.5 Cgroups：当隔离遇上资源争夺

命名空间解决了一个问题：「眼不见为净」。

14.6 Busy Poll Sockets

上一节我们聊完了 Cgroups 和 Namespaces，这两个是容器的基石。现在我们把目光从「隔离」移开，聚焦到一个极致性能的话题上。

14.7 Linux Bluetooth 子系统

上一节我们还在为网络延迟焦虑，讨论了怎么用 Busy Poll 这种「硬核」手段压榨系统的最后一点性能。这是一种通过放弃 CPU 休息时间来换取速度的极端策略。

14.8 IEEE 802.15.4 和 6LoWPAN

上一节我们还在享受蓝牙带来的「个人区域网」便利，这一节我们要去一个更抠门、更严苛的世界。

14.9 近场通信 (NFC)

如果你觉得蓝牙的几米通信距离还不够近，那我们再靠近一点。

📄️第 1 章 Linux 网络栈概览

📄️第 1 章 深入内核：网络协议栈的黑盒解剖

1.2 网络设备（The Network Device）

1.3 Linux 内核网络开发模型

📄️第 2 章 Netlink 套接字

📄️第 2 章 当用户空间遇见内核

2.2 内核 Netlink 套接字

2.3 Netlink 消息头

2.4 NETLINK_ROUTE 消息：不只是路由

2.5 增删路由表项：在 FIB 里跳舞

2.6 通用 Netlink 协议

📄️ch02_7

📄️第 3 章 ICMP 协议

3.0 网络的神经系统：为何我们需要 ICMP

3.2 IPv6 的「瑞士军刀」：ICMPv6

3.3 快速参考与实战补充

📄️第 4 章 IPv4 协议实现

4.1 IPv4 头部与协议注册

4.2 接收 IPv4 数据包

4.3 接收 IPv4 组播数据包

4.4 当 IP 选项在包里醒来

4.5 发送 IPv4 数据包

4.6 分片

4.7 重组：把碎掉的镜子拼回来

4.8 包转发

4.9 快速参考

📄️第 5 章 IPv4 路由子系统

5.0 没有地图，就无法远行

5.2 在路由子系统中执行查找

5.3 FIB 信息：一张路由条目的「身份证」

📄️ch05_4

5.5 Policy Routing：地图之外的选择权

5.6 FIB Alias：当同一个目的地有了多个分身

6.7 路由器的「悄悄话」：ICMPv4 Redirect

📄️第 5 章 IPv4 路由子系统

📄️第 6 章 组播路由

6.0 引言：一群人的信，怎么发给每一个人？

6.2 组播转发缓存 (MFC)

6.3 Multicast Router

📄️ch06_4

📄️ch06_5

6.6 The ipmr_queue_xmit() Method

📄️ch06_7

6.8 多路径路由

6.9 最后的备忘单

📄️第 7 章 邻居子系统与 ARP

📄️第 7 章 Linux 邻居子系统

7.2 用户空间与邻居子系统的交互

📄️ch07_3

7.4 NDISC 协议 (IPv6)

7.5 快速参考

📄️第 8 章 IPv6 协议

📄️第 8 章 当地址不再是稀缺资源

8.2 IPv6 地址类型与特殊地址

📄️ch08_3

8.4 扩展头部——链接式的无限扩展

8.5 Autoconfiguration：无状态的魔法

8.6 接收 IPv6 数据包

8.7 接收 IPv6 组播数据包

8.8 Multicast Listener Discovery (MLD)

8.9 速查表与内核碎片（Quick Reference）

📄️第 9 章 Netfilter 与防火墙

📄️第 9 章 Netfilter Frameworks

📄️ch09_10

9.2 Netfilter Hooks

📄️ch09_3

9.4 连接跟踪条目（Connection Tracking Entries）

9.5 连接跟踪助手与预期连接

9.6 IPTables：规则的前端实现

9.7 网络地址转换 (NAT)

9.8 NAT 钩子回调与连接跟踪钩子回调的共舞

9.9 NAT Hook 回调与连接跟踪扩展

📄️第 10 章 IPsec 与加密

📄️第 10 章 通往信任的隧道

10.2 IKE (Internet Key Exchange)

10.3 The XFRM Framework

10.4 ESP 实现 (IPv4)

10.5 接收一个 IPsec 数据包（传输模式）

📄️ch10_6

10.7 NAT Traversal in IPsec

📄️第 1 章深入内核：网络协议栈的黑盒解剖

📄️第 2 章当用户空间遇见内核

📄️第 6 章组播路由

📄️第 7 章邻居子系统与 ARP

📄️第 8 章当地址不再是稀缺资源

📄️第 10 章通往信任的隧道

📄️第 11 章传输层协议

📄️第 12 章无线网络

📄️第 13 章绕过内核的代价

📄️第 14 章网络命名空间与高级特性