文章介紹了字節跳動推出的 BuboGPT 模型,該模型支持文本、圖像、音頻三種模態的多模態聯合理解,並首次引入視覺定位技術,能夠精確定位圖像中的對象。研究人員通過採用多模態指令調整的訓練方案,使得 BuboGPT 在多模態任務上取得了良好的效果。該模型已經開源並提供了可玩的 demo 頁面。