近日,研究人員開發了一種創新的人工智能系統——DiffSensei,能夠自動將書面故事轉換成漫畫風格。這一系統不僅可以保持角色外觀的一致性,還能控制漫畫頁面的佈局,展現了AI在漫畫創作領域的巨大潛力。
該項目是由北京大學、上海人工智能實驗室和南洋理工大學聯合研發的,結合了擴散模型與大型語言模型,旨在處理漫畫創作中的視覺和敘事元素。爲了展示DiffSensei的功能,研究團隊創作了一部虛構漫畫,講述了人工智能領域先驅傑弗裏·辛頓、揚·勒昆和約書亞·本吉奧的故事。漫畫講述了三位科學家如何開發能夠超越Transformer架構的人工智能模型,並最終獲得諾貝爾獎。

Image: Wu et al.

Image: Wu et al.
DiffSensei的工作原理
DiffSensei使用多模態模型和LoRA技術,確保漫畫中的角色在每個面板上保持一致的外觀。該系統通過三步實現漫畫創作:首先是生成頁面佈局,接着繪製角色,最後添加對話文本。
爲了訓練DiffSensei,研究人員構建了一個名爲MangaZero的數據集。該數據集包含了來自48個不同漫畫系列的43,000多頁漫畫和427,000個單獨面板,每個面板都進行了詳細標註,記錄了角色位置和對話位置,這對於系統的順利運行至關重要。

Image: Wu et al.
未來的潛力與挑戰
儘管DiffSensei展示了巨大的潛力,但該系統仍然面臨一些挑戰。當前,當角色的參考圖像不夠清晰時,系統可能會出現錯誤,有時相似人物會被誤融合。而且,若沒有明確的角色參考,生成的藝術作品可能顯得平淡,無法完美呈現特定漫畫風格。
研究人員相信,DiffSensei能夠在未來極大地簡化漫畫製作過程。該技術爲藝術家、出版商和創作者提供了一個新的工具,使他們能夠輕鬆製作個性化的漫畫,同時保持對角色和頁面佈局的精確控制。
