魔搭社區開源了一種名爲 OneLLM 的多模態對齊統一框架。該框架利用通用編碼器和統一的投影模塊與 LLM 對齊多模態輸入。它支持圖像、音頻、視頻等多種模態數據的理解,並在視頻 - 文本、音頻 - 視頻 - 文本等任務中表現出較強的零樣本能力。OneLLM 的開源代碼已經發布在 GitHub 上,可以在該平臺上獲得相關模型權重和模型創空間。