日前,Meta 低調的發佈了六項研究成果,爲 AI 領域帶來了新的應用和技術突破。其中包括了多模態模型、文本生成音樂模型、音頻水印技術、數據集等多個項目。下面一起來看看這些研究成果具體都是哪些。

Meta Chameleon(“變色龍”模型)

首先,發佈的多模態模型 “Chameleon” 可以同時處理文本和圖像,支持混合輸入和輸出文本,爲處理多模態數據提供了全新的解決方案。

雖然大多數當前的後期融合模型使用基於擴散的學習,但 Meta Chameleon 對文本和圖像使用標記化。這可以實現更統一的方法,並使模型更易於設計、維護和擴展。

如下視頻案例:圖像生成創意標題或使用文本提示和圖像的混合來創建一個全新的場景

目前,Meta將根據研究許可公開發布 Chameleon7B 和34B 模型的關鍵組件。其當前發佈的模型經過了安全調整,支持混合模式輸入和純文本輸出,可用於研究目的。官方強調不會發布 Chameleon 圖像生成模型。

產品入口:https://top.aibase.com/tool/meta-chameleon

Multi-Token Prediction(多詞預測)

新的語言模型訓練方法 “Multi-Token Prediction” 旨在提高模型能力和訓練效率,將訓練模型一次預測多個單詞,提升了模型的預測準確性。

image.png

使用這種方法,可以訓練語言模型來同時預測多個未來單詞,而不是以前每次預測一個單詞的方法。這提高了模型能力和訓練效率,同時提高了速度。本着負責任的開放科學精神,官方將根據非商業/研究專用許可證發佈預訓練模型以供代碼完成。

產品入口: https://top.aibase.com/tool/multi-token-prediction

文本生成音樂模型 “JASCO” 


image.png

雖然現有的文本轉音樂模型(如MusicGen)主要依靠文本輸入來生成音樂,但Meta的新模型“用於時間控制文本轉音樂生成的元聯合音頻和符號條件”(JASCO)能夠接受各種條件輸入,例如特定的和絃或節拍,以改善對生成的音樂輸出的控制。具體來說,可以將信息瓶頸層與時間模糊結合使用,以提取與特定控制相關的信息。這允許在同一個文本轉音樂生成模型中同時結合符號和基於音頻的條件。

JASCO 在生成質量方面與評估基線相當,同時允許對生成的音樂進行更好、更靈活的控制。官方將發佈研究論文和示例頁面,本月晚些時候將在 MIT 許可下作爲AudioCraft存儲庫的一部分發布推理代碼,並在 CC-BY-NC 下發布預訓練模型。

代碼入口:https://top.aibase.com/tool/audiocraft

音頻水印技術 “AudioSeal” 


image.png


這是第一種專門爲局部檢測 AI 生成的語音而設計的音頻水印技術,可以精確定位較長音頻片段中的 AI 生成的片段。AudioSeal 通過專注於檢測 AI 生成的內容而不是隱寫術來改進傳統的音頻水印。

與依賴複雜解碼算法的傳統方法不同,AudioSeal 的局部檢測方法可以實現更快、更高效的檢測。與以前的方法相比,這種設計將檢測速度提高了485倍,使其非常適合大規模和實時應用。我們的方法在音頻水印的穩健性和不可感知性方面實現了最先進的性能。

AudioSeal 是根據商業許可發佈。

產品入口:https://top.aibase.com/tool/audioseal

PRISM 數據集

於此同時,Meta 還發布了與外部夥伴合作的 PRISM 數據集,包含全球1500名參與者的對話數據和偏好,用於改進大型語言模型,從而提高模型的對話多樣性、偏好多樣性和社會效益。

image.png

該數據集將每個人的偏好和細粒度反饋映射到與21位不同 LLM 的8,011次實時對話中。

數據集入口:https://huggingface.co/datasets/HannahRoseKirk/prism-alignment

 “DIG In” 指標


image.png


 用於評估文本生成圖像模型中存在的地理差異,爲模型改進提供了更多的參考數據。爲了瞭解不同地區的人們對地理表示的看法有何不同,Meta進行了一項大規模註釋研究。我們爲每個示例收集了超過65,000條註釋和超過20份調查回覆,涵蓋吸引力、相似性、一致性和共享建議,以改進對文本轉圖像模型的自動和人工評估。

 代碼入口:https://top.aibase.com/tool/dig-in

這些項目的發佈爲 AI 領域帶來了新的技術突破和應用前景,對於推動 AI 技術的發展和應用具有重要意義。