启动脚本与 DDS 优化配置

本页聚焦机器人部署框架中「一键启动」与「底层通信优化」两大核心主题。我们将逐层拆解 tools/start_robot.sh 的自动化启动逻辑，并深入解析 assets/rt_fastdds_profile.xml 中针对实时控制场景所做的 Fast DDS 调优策略。理解这两者的协作关系，是确保推理节点与手柄节点在低延迟、高确定性环境下稳定通信的关键前提。

启动脚本整体架构

tools/start_robot.sh 是整个软件栈的统一入口。它不仅负责编译工作空间、启动后台会话，还内置了完整的依赖检查、错误恢复与 DDS 配置验证机制。脚本采用模块化函数设计，将颜色输出、组件启动、会话清理与 DDS 诊断拆分为独立单元，便于维护与故障定位。

脚本的核心控制流可分为五个阶段：环境注入 → 依赖校验 → 编译构建 → 组件启动 → 配置验证。启动完成后，inference_node 与 joy_node 分别运行在独立的 screen 会话中，用户可随时 attach 查看实时输出，而无需阻塞当前终端。

flowchart TD
    A[脚本启动] --> B[注入 DDS 环境变量<br>RMW_IMPLEMENTATION<br>FASTRTPS_DEFAULT_PROFILES_FILE]
    B --> C[检查 ROS2 / colcon / screen]
    C --> D[colcon build --symlink-install]
    D --> E[清理遗留 screen 会话]
    E --> F[启动 inference_session<br>ros2 launch inference inference.launch.py]
    F --> G[ros2 node list 检测<br>inference_node]
    G --> H[启动 joy_session<br>ros2 run joy joy_node]
    H --> I[ros2 node list 检测<br>joy_node]
    I --> J[执行 verify_dds_effectiveness]
    J --> K[输出 screen 操作指引]

Sources: start_robot.sh

启动流程分步解析

1. DDS 环境变量预注入

在脚本主体逻辑执行之前，首先锁定三项关键环境变量。这三项设置决定了 ROS2 使用 rmw_fastrtps_cpp 作为中间件实现，并强制从 XML 配置文件加载 QoS 与传输层参数，而非使用默认行为。

RMW_IMPLEMENTATION=rmw_fastrtps_cpp：指定 Fast DDS 为底层 RMW 实现。
RMW_FASTRTPS_USE_QOS_FROM_XML=1：允许从 XML 覆盖默认 QoS。
FASTRTPS_DEFAULT_PROFILES_FILE：指向仓库内的 assets/rt_fastdds_profile.xml。

值得注意的是，这些变量并非仅作用于当前 shell，而是通过 start_component() 函数显式注入到每个 screen 会话的启动命令中，确保后台进程能够完整继承 DDS 配置，避免因会话隔离导致的配置丢失。

Sources: start_robot.sh, start_robot.sh

2. 依赖与前置检查

脚本在构建前执行了严格的依赖校验，包括 ROS2 Humble 环境是否已 source、colcon 与 ros2 CLI 是否可用、screen 是否安装。若检测到 AMENT_PREFIX_PATH 为空，脚本会自动尝试 source /opt/ros/humble/setup.bash，降低新手操作门槛。

Sources: start_robot.sh

3. 自动编译与构建

依赖通过后，脚本执行 colcon build --symlink-install 进行增量编译，并在成功后 source install/setup.bash。这一设计确保用户在修改了推理参数或硬件配置后，无需手动编译即可通过重新运行启动脚本生效。

Sources: start_robot.sh

4. 组件启动与会话隔离

start_component() 是脚本的核心调度函数。它接收四个参数：会话名称、启动命令、节点名称（用于存活检测）以及等待时间。函数会在后台创建 screen 会话，并在指定休眠时间后通过 ros2 node list 验证节点是否成功注册。若注册失败，脚本立即调用 cleanup_sessions() 终止所有已启动会话并退出，防止出现「半启动」状态。

会话名称	启动命令	对应节点	等待时间	职责
`inference_session`	`ros2 launch inference inference.launch.py`	`inference_node`	5s	加载策略模型，执行实时推理与控制
`joy_session`	`ros2 run joy joy_node`	`joy_node`	2s	接收手柄输入，发布 `/joy` 话题

Sources: start_robot.sh, start_robot.sh

为什么需要 DDS 优化

在标准的 ROS2 部署中，DDS 默认配置面向通用分布式系统，强调兼容性与吞吐量，而非确定性延迟。对于需要以数百赫兹频率交换控制指令与传感器数据的机器人系统，默认配置存在三个隐患：动态内存分配导致的非确定性时延、UDP 广播发现带来的网络噪音，以及Reliable 可靠性策略在丢包时引发的阻塞重传。

本项目通过 assets/rt_fastdds_profile.xml 对 Fast DDS 进行全链路优化，核心目标是在单机或局域网场景下，将通信抖动压到最低，并消除运行时内存分配。

Sources: rt_fastdds_profile.xml

Fast DDS 配置文件详解

rt_fastdds_profile.xml 包含三大配置域：传输描述符（Transport Descriptors）、Participant 配置与发布/订阅默认 QoS。以下按层次展开。

传输层：共享内存为主，UDPv4 为辅

配置文件定义了两种传输通道，并按优先级同时挂载到 Participant 上：

传输方式	ID	类型	关键参数	设计意图
SHM	`shm_transport`	`SHM`	`segment_size=8388608` (8MB)<br>`maxMessageSize=524288`	同主机节点间通过共享内存通信，彻底绕过内核网络栈，延迟最低
UDPv4	`udp_transport`	`UDPv4`	`sendBufferSize=212992`<br>`receiveBufferSize=212992`<br>`non_blocking_send=true`<br>`maxMessageSize=65500`	跨主机回退或本机环回补全；非阻塞发送避免写缓冲区满时挂起

特别值得注意的是 <interfaceWhiteList> 字段，它显式限定了 DDS 可以绑定的网段地址：

127.0.0.1：本地回环，确保单机通信不溢出到物理网卡。
192.168.13.1 与 192.168.127.10：分别对应 AP 热点模式与有线/内部网络的典型网段。

白名单机制有效抑制了 DDS 发现流量向无关接口扩散，在多网卡主控（如 Orange Pi 5 Plus 与 RDK X5）上能显著降低 discovery 噪声。

Sources: rt_fastdds_profile.xml

Participant：关闭内置传输，启用预分配内存

Participant 配置是 DDS 通信实体的全局上下文。本配置做了两项关键决策：

useBuiltinTransports=false：禁用 Fast DDS 默认的 UDPv4 + SHM 自动组合，改为通过 <userTransports> 显式声明上述两个自定义传输描述符。这确保了缓冲区大小与接口白名单完全按我们的定义生效，而非使用 Fast DDS 的保守默认值。
内存策略 PREALLOCATED_WITH_REALLOC：对 builtin 发现模块的 reader/writer 历史记录以及默认发布/订阅历史记录均启用预分配。该策略在初始化时预留固定内存池，运行期间仅在极端情况下触发重新分配，从而将绝大多数数据拷贝与序列化操作从「动态堆分配」路径转移到「确定性栈/池分配」路径，这对实时控制循环至关重要。

同时，fastdds.log.verbosity 被设为 ERROR，避免大量 INFO/DEBUG 日志在高频通信场景下占用 I/O 带宽与 CPU。

Sources: rt_fastdds_profile.xml

发布/订阅默认 QoS：低延迟优先

默认的 Publisher 与 Subscriber Profile 采用了一套面向实时控制的 QoS 组合：

QoS 维度	配置值	作用
`publishMode.kind`	`SYNCHRONOUS`	发布调用阻塞直到数据实际写出，提供可预测的单次发布时延，而非异步队列的累积延迟
`reliability.kind`	`BEST_EFFORT`	不保证送达，丢弃旧帧而非重传，适合高频周期性控制指令
`durability.kind`	`VOLATILE`	不保留历史样本给后加入的订阅者，降低内存占用与恢复复杂度
`data_sharing.kind`	`AUTOMATIC`	在支持的传输上自动启用零拷贝数据共享
`historyMemoryPolicy`	`PREALLOCATED_WITH_REALLOC`	与 Participant 层保持一致，避免历史缓存的动态分配

SYNCHRONOUS + BEST_EFFORT 的组合是高频实时系统的经典权衡：同步模式确保 publish 调用的返回时刻即为数据离开发送端的时刻，便于与实时线程的周期对齐；Best-Effort 则避免了 Reliable 模式下因偶发丢包而阻塞后续新数据，这对控制指令的时效性远比完整性更重要。

Sources: rt_fastdds_profile.xml

环境变量传递与验证机制

启动脚本不仅配置了 DDS，还建立了一套五级验证体系，在启动完成后自动诊断 DDS 是否真正生效：

环境变量打印：直接回显 RMW_IMPLEMENTATION 与 FASTRTPS_DEFAULT_PROFILES_FILE。
XML 语法校验：若系统安装 xmllint，则对 profile 文件进行格式检查。
进程环境注入检查：通过读取 /proc/<pid>/environ，确认 inference_node 与 joy_node 的进程空间中确实存在目标环境变量。
共享内存活性检测：扫描 /dev/shm/ 下是否存在 fastrtps、fast_dds 或 rmw 前缀的共享内存文件，验证 SHM 传输是否被实际使用。
发现延迟基准测试：执行 ros2 node list 并计时，若耗时低于 500ms 判定为优秀，低于 1000ms 为良好，否则告警。

这套验证机制对「配置文件路径错误」「环境变量未继承」「DDS 实现加载失败」等常见问题提供了秒级定位能力。

Sources: start_robot.sh

启动后操作与常见问题

脚本成功退出后，两个 screen 会话已在后台运行。以下是日常操作速查：

操作	命令
查看推理节点输出	`screen -r inference_session`
查看手柄节点输出	`screen -r joy_session`
从 screen 会话脱离（不终止）	按 `Ctrl+A` 再按 `D`
停止推理节点	`screen -S inference_session -X quit`
停止手柄节点	`screen -S joy_session -X quit`

常见故障排查

现象	可能原因	排查建议
`inference_session 启动失败`	编译错误、节点崩溃或 launch 文件路径异常	先手动执行 `colcon build`，再单独运行 `ros2 launch inference inference.launch.py` 观察报错
`共享内存传输未检测到`	DDS 配置文件未正确加载，或 RMW 实现不是 Fast DDS	检查 `ros2 doctor` 输出，确认 `RMW_IMPLEMENTATION` 为 `rmw_fastrtps_cpp`
`DDS 发现延迟 > 1000ms`	网络接口繁忙，或发现流量被错误路由到外网	确认 `interfaceWhiteList` 包含当前实际使用的本地地址；关闭无关网卡
`XML 格式错误`	手动编辑 profile 时引入语法错误	使用 `xmllint --noout assets/rt_fastdds_profile.xml` 验证

Sources: start_robot.sh

阅读延伸

完成本节学习后，建议按以下路径继续深入：

若要理解推理节点内部如何加载配置并执行策略模型，请参阅推理节点设计与线程模型与 ONNX 模型加载与实时推理。
若要修改推理参数（如观测堆叠帧数、关节极限、控制频率），请参阅配置文件系统详解。
若要进一步提升系统确定性，了解实时内核补丁与线程优先级调优，请参阅实时内核与性能优化。
若准备接入自定义强化学习策略，请参阅接入自定义强化学习策略。

启动脚本整体架构

启动流程分步解析

1. DDS 环境变量预注入

2. 依赖与前置检查

3. 自动编译与构建

4. 组件启动与会话隔离

为什么需要 DDS 优化

Fast DDS 配置文件详解

传输层：共享内存为主，UDPv4 为辅

Participant：关闭内置传输，启用预分配内存

发布/订阅默认 QoS：低延迟优先

环境变量传递与验证机制

相关辅助脚本与硬件初始化

启动后操作与常见问题

常见故障排查

阅读延伸