应用介绍
模型整体架构是通过 GCA 与 sliding window attention 结合实现长上下文建模;前者负责长程信息检索,后者负责整合短程信息。为了进一步提升 GCA 性能,降低显存开销,研究团队将整个 GCA 封装成由 Triton 实现的 kernel,方便未来工作可以直接复用。
模型整体架构是通过 GCA 与 sliding window attention 结合实现长上下文建模;前者负责长程信息检索,后者负责整合短程信息。为了进一步提升 GCA 性能,降低显存开销,研究团队将整个 GCA 封装成由 Triton 实现的 kernel,方便未来工作可以直接复用。