Prima.cpp - 跨设备运行 LLM (2504.08791)

在 exo 之后的另一个跨设备 LLM 运行工具，但是速度比 exo 快得多；原理大致是，把所有参与节点组成一个环，一次推理可以在环上转多次，某个设备第一次推理和第二次推理加载不同的层；因此对小内存环境友好，不要求所有节点内存总大小大于模型大小（只要存储加载速度够快就行）。