最近,Meta 公司推出了一款名爲 NotebookLlama 的新工具,它可以說是谷歌的 NotebookLM 中備受歡迎的生成播客功能的開源版。
NotebookLlama 依託於 Meta 自家的 Llama 模型來處理文本,能夠將用戶上傳的文件轉化爲互動式的播客風格摘要,聽起來非常酷。
具體來說,NotebookLlama 首先會把上傳的文件,比如說 PDF 格式的新聞文章或博客帖子,轉換成文本稿件。接下來,它會在文本中加入一些戲劇化的元素和對話的插入,然後再通過開放的文本轉語音模型來進行朗讀。雖然這個過程聽上去很有趣,但根據我聽到的一些示例,生成的聲音依然帶有明顯的機械感,偶爾還會出現聲音重疊的情況,聽上去有些不太自然。
不過,NotebookLlama 的研究團隊表示,他們相信隨着更強大模型的開發,語音質量會有所提升。他們在項目的 GitHub 頁面上提到:“文本轉語音模型是聲音自然度的一個限制因素。” 此外,團隊還提出一種新的構思,即通過讓兩個角色圍繞一個主題進行辯論來撰寫播客大綱,而目前的做法是使用一個單一模型來完成這個任務。
值得注意的是,NotebookLlama 並不是第一個試圖複製 NotebookLM 播客功能的項目,之前也有一些類似的嘗試,但效果各有不同。即便如此,目前沒有一個項目,包括 NotebookLM 本身,能夠完全解決 AI 生成內容中的 “幻覺” 問題,也就是說,這些播客內容中仍然可能出現一些虛假的信息。
NotebookLlama 的推出爲開源的播客生成提供了新的可能性,雖然現在還存在一些技術上的挑戰,但未來的發展空間依然很大。
項目入口:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama
劃重點:
🎧 NotebookLlama 是 Meta 推出的開源播客生成工具,利用 Llama 模型處理用戶上傳的文件。
🤖 該工具將文本轉換爲播客風格摘要,但目前生成的聲音質量較低,存在機械感和聲音重疊問題。
📉 AI 生成的播客仍可能含有虛假信息,這一問題在所有 AI 項目中都是普遍存在的挑戰。