歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解https://top.aibase.com/

1、Hedra的 Character-1開放使用

Hedra的Character-1開放使用,爲創作者提供了通過文本和圖片生成說話和唱歌視頻的神器,開啓了創作革命。它不僅是工具,更是一個全新的創作平臺,讓每個人都能擁有無限的視頻創作機會。

【AiBase提要:】

⭐️ 動態視頻生成:上傳照片並配音頻,即可讓人物生動說話或唱歌。

⭐️ 多平臺兼容:無論桌面還是移動設備,用戶皆可輕鬆使用。

⭐️ 高質量保證:表情、姿態和語音同步,效果逼真令人滿意。

詳情鏈接:https://top.aibase.com/tool/hedra

2、Deepmind視頻轉音頻技術V2A:實現自動爲視頻配樂、配音

谷歌Deepmind發佈了V2A技術,利用視頻像素和文本提示生成豐富的音軌,實現同步視聽生成。用戶可通過文字描述引導音頻輸出,系統採用自迴歸和擴散方法生成音頻,確保與視頻內容完美同步。訓練過程中使用AI生成的註釋幫助模型理解音頻事件與視覺場景關聯。儘管存在脣形同步挑戰,V2A技術將接受嚴格評估測試後向公衆開放。

【AiBase提要:】

🔊 自動爲視頻配樂、配音

🎶 利用視頻像素和文本提示生成豐富音軌

🤖 訓練過程中使用AI生成的註釋

詳情鏈接:https://top.aibase.com/tool/deepmind-v2a

3、B 站開源輕量級 AI 語言模型 Index-1.9B 模型

B 站最新開源的 Index-1.9B 模型引起了廣泛關注,該模型包含基座模型、對照組和對話模型,具有19億非詞嵌入參數量,在多個評測基準上表現領先。


image.png

【AiBase提要:】

🔍 Index-1.9B base: 基座模型具有19億非詞嵌入參數量,在2.8T中英文語料上預訓練,領先同級別模型。

🔍 Index-1.9B pure: 對照組與基座模型相同,但過濾了指令相關數據以驗證對benchmark的影響。

🔍 Index-1.9B chat: 基於base模型通過SFT和DPO對齊後的對話模型,引入互聯網社區語料,聊天趣味性更強。

詳情鏈接:https://top.aibase.com/tool/index-1-9b

4、美圖WHEE V2正式上線

美圖公司推出全新AI改圖編輯器WHEE V2版本,集合多種實用功能並融入AI技術,爲用戶提供便捷高效的一站式處理體驗。新增AI繪畫和AI改圖功能,豐富用戶編輯選擇,支持多類型素材創意呈現。智能選擇和提示詞功能便利用戶自然修改,支持自定義圖片尺寸、圖層內容,多種形式擴圖。具備可視化多圖層、精準語義識別、多元風格和細節控制,實現個性化高質量圖像處理。

image.png

【AiBase提要:】

✨ 新增AI繪畫和AI改圖功能,豐富用戶編輯選擇,支持多類型素材創意呈現。

💡 智能選擇和提示詞功能便利用戶自然修改,支持自定義圖片尺寸、圖層內容,多種形式擴圖。

🎨 具備可視化多圖層、精準語義識別、多元風格和細節控制,實現個性化高質量圖像處理。

5、潞晨Open-Sora團隊實現720p高清視頻質量和生成時長突破

潞晨Open-Sora團隊在720p高清視頻質量和生成時長上取得了突破性進展,開源項目讓視頻生成變得簡單,受到社區熱烈歡迎。英偉達入股的AI公司Lambda Labs也基於Open-Sora模型權重打造數字樂高宇宙,開啓創意新天地。技術報告深度剖析了模型訓練核心和關鍵,解決視頻模型訓練痛點,提升生成質量和速度。

【AiBase提要:】

⚙️ Open-Sora團隊實現720p高清視頻質量和生成時長突破,開源項目簡化視頻生成流程

🌟 Lambda Labs基於Open-Sora模型權重打造數字樂高宇宙,創意無限

🔬 技術報告揭示模型訓練核心細節,解決視頻模型訓練痛點,提升生成質量和速度

詳情鏈接:https://github.com/hpcaitech/Open-Sora

6、百度曦靈數字人平臺升級 支持文生 3D 數字人、音色克隆等功能

百度智能雲曦靈數字人平臺即將迎來重大升級,提供高效低成本的2D/3D數字人生成,全面打通直播、短視頻、對話等多個場景,大幅提升用戶體驗。曦靈平臺展現出令人矚目的數字人生成能力,快速精準地生成逼真的數字人,爲企業、文旅、娛樂等領域帶來全新IP創造可能。

image.png

【AiBase提要:】

🌟 高效低成本的2D/3D數字人生成,提升用戶體驗。

🎨 快速精準生成逼真的數字人,爲多個領域帶來IP創造可能。

🔊 提供音色克隆功能,生成定製音色用於數字人的播報和內容生產。

7、Meta發佈多款模型:多模態模型Chameleon、文本生成音樂模型JASCO、音頻水印技術AudioSeal

Meta最近發佈了多項研究成果,包括多模態模型Chameleon、文本生成音樂模型JASCO、音頻水印技術AudioSeal等,爲AI領域帶來了新的技術突破和應用前景。這些成果將推動AI技術的發展和應用,具有重要意義。

image.png

【AiBase提要:】

🌟 Meta發佈了多模態模型Chameleon,支持處理文本和圖像混合輸入輸出,提供新的解決方案。

🎶 新的語言模型訓練方法Multi-Token Prediction提高了模型能力和訓練效率。

🔊 文本生成音樂模型JASCO能接受各種條件輸入,提供更好、更靈活的音樂控制。

詳情鏈接:https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8、谷歌推字母表生成器GenType 可用於創作封面藝術字體

GenType是谷歌推出的實驗性產品,通過Imagen2模型驅動,用戶可以創造個性化的字母形式,用於書寫各種內容,特別適合製作標題或封面藝術。該工具提供了簡單直觀的操作界面,讓用戶快速上手,激發創造力和想象力。用戶可以分享保存生成的字母表圖片,並在在線畫廊中瀏覽其他用戶的作品,獲取靈感和創意。

【AiBase提要:】

🎨 個性化字母創造: 用戶可以輸入任何提示,GenType轉化爲獨特的字母表,展現個人創意。

🖌 藝術創作工具: GenType不僅是生成器,還是藝術創作工具,讓用戶創造無限可能的字母藝術。

📷 分享與保存: 提供方便的分享和保存選項,用戶可將字母表保存爲PNG格式圖片,在社交媒體上分享

詳情鏈接:https://top.aibase.com/tool/gentype

9、強得很!英偉達超越微軟成爲全球最有價值公司

英偉達股價飆升,超越微軟、蘋果和谷歌,成爲全球市值最高的公司。公司計劃推出新的Blackwell GPU架構,首席執行官表示將是世界上最強大的芯片,並每年發佈新的AI芯片。英偉達在2024年股價上漲160%,市值達到3.335萬億美元。

【AiBase提要:】

📈 英偉達超越微軟、蘋果和谷歌,成爲全球市值最高的公司。

💻 英偉達計劃推出Blackwell GPU架構,首席執行官稱將是世界上最強大的芯片,每年發佈新的AI芯片。

💰 英偉達在2024年股價上漲160%,市值達到3.335萬億美元。

10、蘋果宣佈推出新的人工智能功能後 爲開發者推出“AI 培訓”

蘋果公司宣佈推出新的人工智能培訓課程,面向開發者學院的學生、導師以及校友等。這標誌着蘋果在AI技術領域的開放態度和重視程度逐漸增加。

【AiBase提要:】

🍎 蘋果公司推出新的人工智能培訓課程,專注於培養學生的專業編程技能。

📚 新課程將教授如何在蘋果設備上構建、訓練和部署機器學習模型。

💡 蘋果的AI工具將被集成到多個平臺,包括Xcode,幫助開發者更智能地編寫代碼。

11、Luma AI的Dream Machine生成作品被指涉嫌抄襲迪士尼IP

Luma發佈的Dream Machine視頻生成工具引發了關於模型透明度和數據來源的質疑,特別是涉嫌抄襲迪士尼作品。這引發了人們對這類模型最大的關注點之一,缺乏透明度。

image.png

【AiBase提要:】

🔍 模型透明度和數據來源引發質疑,是否按照迪士尼風格創作?

🚫 視頻中出現的角色被指涉嫌抄襲迪士尼皮克斯作品,引發爭議

💡 Dream Machine被吹捧爲電影製作未來,提供高質量逼真鏡頭創作

12、AI畫師接單被“抓包” 小紅書博主“鑑Ai”視頻獲贊2.9萬

小紅書博主“天線嫂嫂(內褲大王)”在約畫時發現畫師使用AI技術,引發社交媒體關注。畫師未提供線稿,博主懷疑作品爲AI製作,揭露畫稿盜圖。AI繪畫技術逼真度提高,難以區分人類和AI作品。AI技術發展帶來版權和真實性挑戰。

image.png

【AiBase提要:】

🔍 小紅書博主發現畫師使用AI技術,引發關注和討論。

🎨 畫師未提供線稿,博主懷疑作品爲AI製作,揭露畫稿盜圖。

🤖 AI繪畫技術逼真度提高,難以區分人類和AI作品。

詳情:https://www.chinaz.com/ainews/9662.shtml

13、Snap 在 Augmented World Expo 上展示實時設備端圖像擴散模型

Snap 在 Augmented World Expo 上展示了早期版本的實時設備端圖像擴散模型,爲 AR 創作者設計了生成式 AI 工具。該模型體積小且快速,能實時重新渲染幀。Snap 的團隊致力加速機器學習模型,計劃推廣給創作者。Bobby Murphy 表示,這標誌着增強現實邁入新方向,重新思考 AR 創造方式。Lens Studio5.0 提供新的生成式 AI 工具,幫助開發者更快創建 AR 效果,節省時間。

image.png

【AiBase提要:】

🔍 Snap 在 AWE 展示實時設備端圖像擴散模型,爲 AR 創作者設計生成式 AI 工具。

⚡ 模型體積小且快速,能實時重新渲染幀,Snap 團隊致力加速機器學習模型。

🎨 Lens Studio5.0 提供新生成式 AI 工具,幫助開發者更快創建 AR 效果,節省時間。

14、扎心!一團隊負責人用ChatGPT取代了60名員工 最後自己也被解僱了

人工智能在工作場所的影響逐漸顯現,一名負責內容創作團隊的領導被ChatGPT取代後最終也被解僱,引發思考人工智能對就業市場的影響。

【AiBase提要:】

💔 人工智能替代人類工作的現實

🤖 ChatGPT取代人類團隊進行內容創作

📉 作家、軟件開發人員需求下降21%

15、ChatGPT等模型瘋狂訓練,2026年或迎來AI界“數據荒”

最近Epochai發佈的研究報告警示AI界可能面臨數據枯竭危機。隨着大模型如ChatGPT消耗公開訓練數據,數據可能在2026年到2032年間耗盡。報告提出四種新方法應對數據荒,包括合成數據、多模態學習、私有數據利用和與真實世界交互學習。

【AiBase提要:】

🔥 大模型如ChatGPT消耗公開訓練數據,可能導致數據在2026年到2032年間耗盡。

🌟 Epochai提出四種新方法,包括合成數據、多模態學習、私有數據利用和與真實世界交互學習。

💡 合成數據可能存在質量參差不齊、過擬合等問題,但是是解決數據荒的一種途徑。

16、L4GM:可在幾秒鐘內將視頻目標對象生成4D高斯模型

研究團隊提出了名爲L4GM的大規模4D高斯重建模型,能從單視角視頻輸入生成動畫對象,實現令人印象深刻效果。模型基於創新性數據集和簡化設計,短時間內完成單向傳遞,保證高質量輸出。

image.png

【AiBase提要:】

🔑 創新性數據集和簡化設計實現短時間內完成單向傳遞

🔑 生成4D對象,展示高質量動畫物體

🔑 構建多視角視頻數據集,訓練插值模型提高幀速率

詳情鏈接:https://top.aibase.com/tool/l4gm