AI日報：阿里通義萬相首尾幀生視頻模型；豆包開源Seed智能體模型UI-TARS-1.5；OpenAI首發“智能體實踐指南”

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、阿里通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B開源

阿里巴巴的通義實驗室在Hugging Face和GitHub上開源了Wan2.1-FLF2V-14B模型，標誌着AI視頻生成技術的重大進步。該模型支持高清視頻生成，並通過用戶提供的首尾幀實現流暢的動畫過渡，具備多種功能如文本到視頻、視頻編輯等。開源特性降低了技術門檻，吸引了開發者的關注，推動了AI視頻創作的廣泛應用。

【AiBase提要:】
📸 支持首尾幀控制，用戶僅需提供兩張圖片即可生成流暢的5秒720p高清視頻。
🚀 模型具備多模態支持，除了視頻生成，還可進行文本引導的圖像和音頻生成，拓展了創作場景。
🌐 開源生態促進了開發者的參與，阿里推出的免費體驗活動進一步激發了社區反饋與優化。
詳情鏈接:https://github.com/Wan-Video/Wan2.1

2、字節豆包開源 Seed 智能體模型 UI-TARS-1.5

字節跳動的UI-TARS-1.5模型在多模態智能體領域取得了顯著進展，特別是在GUI操作和遊戲推理方面。該模型通過強化學習增強了高階推理能力，展現出在複雜任務中的優越表現。開源的UI-TARS-1.5爲開發者提供了強大的工具，推動了多模態智能體技術的發展，未來將繼續優化以接近人類水平。

【AiBase提要:】
🖥️ UI-TARS-1.5在7個GUI評測基準中取得了SOTA表現，展現了長時推理和交互能力。
🎮 在遊戲任務中，UI-TARS-1.5展現了穩定的推斷時擴展性，並在Minecraft中驗證了其“思考-再行動”機制的有效性。
📈 該模型通過視覺感知增強和System2推理機制，實現了精準的GUI操作，降低了開發門檻。
詳情鏈接:https://github.com/bytedance/UI-TARS - Website:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326

3、OpenAI 發佈“智能體構建實踐指南”實用性文檔（附文檔資源）

OpenAI近期發佈的《構建智能體實踐指南》爲產品和工程團隊提供了構建智能體系統的必要知識與最佳實踐。該指南詳細闡述了智能體的定義、設計及安全部署，強調智能體與傳統軟件的根本區別，特別適用於複雜決策和處理非結構化數據的場景。

【AiBase提要:】
🧠 智能體具備高度自主性，能夠代表用戶完成複雜工作流程，區別於傳統軟件的自動化功能。
🔧 構建智能體需要考慮模型、工具和指令等核心組成部分，以確保智能體的有效性和可靠性。
🔒 安全護欄是管理數據隱私和聲譽風險的關鍵，開發者需設置多層防護措施以應對潛在風險。
詳情鏈接:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

4、騰訊混元InstantCharacter開源，高度角色一致性、自定義姿勢、樣式和場景

騰訊混元團隊正式開源了InstantCharacter框架，這一基於擴散變換器的角色個性化工具，具備高一致性和靈活性，能夠從單張圖像生成多樣化的角色定製，適用於多種藝術風格。該框架的開源將降低角色定製的技術門檻，激發全球開發者的創新熱情，同時也需關注版權和倫理問題。

【AiBase提要:】
🖼️ 單圖驅動:僅需一張角色圖像和文本提示即可生成多樣化的姿勢、風格和場景。
🔄 高一致性:通過先進的DiT架構，確保生成圖像在角色特徵上的高度一致性。
🌈 風格多樣性:支持寫實、動漫、卡通等多種風格，滿足不同創作需求。
詳情鏈接:https://huggingface.co/spaces/InstantX/InstantCharacter

5、視頻擴散革新技術FramePack:僅需6GB顯存，1.5秒/幀

FramePack是一項革命性的視頻擴散技術，其低顯存需求和高效生成能力使其成爲視頻生成領域的遊戲規則改變者。僅需6GB顯存，FramePack能夠實現全幀率下的千幀視頻生成，極大降低了技術的應用門檻。此外，其生成速度在優化後可達到1.5秒/幀，爲內容創作和實時應用提供了新的可能性。

【AiBase提要:】
💻 FramePack僅需6GB顯存，能夠在30fps下生成千幀視頻，降低了技術門檻。
⚡ 生成速度驚人，未優化情況下爲2.5秒/幀，優化後可達1.5秒/幀，適合多種應用場景。
🌍 該技術爲內容創作、遊戲開發及邊緣計算等領域提供了廣泛的應用前景，推動視頻生成技術的“平民化”。
詳情鏈接:https://lllyasviel.github.io/frame_pack_gitpage/

6、谷歌推出全新 Gemini2.5Flash:智慧與速度兼具的 AI 助手

谷歌最新推出的 Gemini2.5Flash 版本在推理能力上進行了顯著升級，特別是引入了全混合推理模型，使開發者可以根據需求靈活控制思考過程中的成本和延遲。通過設定思考預算，開發者能夠在質量與效率之間找到理想的平衡點。此版本在處理複雜任務時表現出色，尤其是在多步驟推理的場景中，展現了其卓越的性能和靈活性。

【AiBase提要:】
💡 Gemini2.5Flash 引入全混合推理模型，允許開發者選擇啓用思考功能，靈活控制推理過程。
⚙️ 開發者可以設定思考預算，平衡質量、成本和延遲，滿足不同任務的需求。
📊 在 LMArena 的“困難提示”測試中，Gemini2.5Flash 表現優異，僅次於2.5Pro，展現了其強大的推理能力。

7、OpenAI推出Flex處理API，助力低成本 AI 應用

OpenAI最近推出了Flex處理API，以應對激烈的人工智能市場競爭。該API允許用戶以更低的成本使用AI模型，儘管在響應速度和可用性上有所妥協。Flex處理特別適合低優先級和非生產性任務，顯著降低了使用成本，尤其在當前AI服務普遍上漲的背景下，提供了一個經濟實惠的選擇。

【AiBase提要:】
💰 Flex處理API使用戶能夠以更低的成本使用AI模型，適合預算有限的開發者。
⚡ 使用Flex處理時，o3模型的輸入詞元價格降至每百萬個5美元，輸出詞元降至每百萬個20美元。
🔒 爲確保合理使用，開發者需通過身份驗證流程訪問o3模型，維護平臺安全。

8、Midjourney圖像編輯器迎來重大更新:全新UI、圖層功能與智能工具上線

Midjourney於2025年4月17日發佈了其圖像編輯器的重要更新，優化了用戶體驗並引入了多項創新功能，包括全新的用戶界面、圖層功能、智能選擇工具和升級的內容審覈機制。這些改進不僅提升了編輯效率和靈活性，還增強了平臺的安全性，進一步鞏固了Midjourney在AI創意工具領域的領先地位。

【AiBase提要:】
🖌️ 全新用戶界面優化，提升操作效率與創作體驗，適合專業設計師與新手用戶。
📂 引入圖層功能，允許用戶對圖像進行分層管理，增強創作靈活性與精確度。
🔍 新增智能選擇工具，利用AI算法簡化複雜編輯操作，提高編輯效率。

9、微軟推出新型語言模型 BitNet b1.582B4T，僅佔用0.4GB內存

微軟研究團隊發佈的開源語言模型BitNet b1.582B4T以其20億參數和僅0.4GB的內存佔用引起關注。該模型採用創新的1.58位低精度架構，顯著降低了計算資源需求，相較於同類產品表現出色。經過預訓練和微調，BitNet在多個基準測試中表現優異，且能耗和解碼延遲具有明顯優勢。

【AiBase提要:】
🌟 該模型具有20億參數，內存佔用僅爲0.4GB，顯著低於同類產品。
🔧 採用創新架構，放棄傳統16位數值，使用1.58位低精度存儲權重。
🚀 已經在 Hugging Face 發佈，微軟計劃進一步優化模型功能與性能。
詳情鏈接:https://arxiv.org/html/2504.12285v1

10、Genspark Super Agent新增文件轉換工具，支持轉換超400種文件格式

Genspark Super Agent推出了全新的文件轉換工具，支持超過400種文件格式的互轉，極大提升了用戶的辦公效率。該工具操作簡便，用戶只需上傳文件並選擇目標格式，即可快速完成轉換。其智能優化和無縫集成的特點，使得這一工具成爲個人和企業用戶在日常辦公中不可或缺的助手。

【AiBase提要:】
📁 支持超過400種文件格式的互轉，滿足多樣化的辦公需求。
⚡ 轉換過程智能優化，減少信息丟失，提升文件編輯靈活性。
💡 提供每日200個免費信用額度，降低用戶使用AI技術的門檻。
詳情鏈接:https://page.genspark.site/page/toolu_015jDXJp3H2Whpw4V2vS71sH/genspark_file_converter_orange_n_icon.html

11、智譜Z基金出資3億支持全球開源社區北京追加投資2億元

北京市人工智能產業投資基金再次追加對智譜的投資，旨在支持其開源模型研發和社區生態建設。智譜作爲國內AI大模型企業的佼佼者，已在多個領域積累了豐富的模型能力，並擁有龐大的開發者社區。此次投資將進一步推動智譜在開源生態中的發展，助力其在2025年實現全面開源的目標，促進人工智能的普惠發展。

【AiBase提要:】
💡 北京市人工智能產業投資基金追加投資智譜2億元，支持開源模型研發。
🌍 智譜計劃出資3億元支持全球AI開源社區，鼓勵基於開源模型的創業項目。
📈 自成立以來，智譜已開源55款模型，下載量近4000萬次，致力於推動AI普惠。

12、理想同學MindGPT3.0上線:深度思考能力媲美DeepSeek

理想汽車最近宣佈其智能助手“理想同學”完成了重要升級，搭載的MindGPT3.0模型現已全面上線。這次升級不僅提升了人工智能的性能，尤其是深度思考能力，使其能與行業領先的模型相媲美。用戶可以通過手機App和網頁版免費體驗這一新模型，享受更智能的交互方式，提升了語音輸入的理解能力和容錯能力，同時在複雜指令處理上也表現出色。

【AiBase提要:】
🚀 MindGPT3.0模型的升級顯著提升了深度思考能力，用戶體驗更智能高效。
🔍 該模型支持結構化思維鏈展示，用戶可以直觀瞭解助手的思考過程。
🛠️ 新增的無關歷史對話過濾功能有效提高了回覆的準確性，改善了用戶體驗。

AI日報：阿里通義萬相首尾幀生視頻模型；豆包開源Seed智能體模型UI-TARS-1.5；OpenAI首發“智能體實踐指南”

相關推薦

可靈AI 獲 30 億美元融資，估值達 180 億美元創視頻大模型融資紀錄

可靈AI 融資傳聞再起：180 億美元估值背後的資本博弈

AI音樂視頻創作新風向：立刻MV 1. 1 版本實現“一鍵成片”跨越

xAI發佈Grok Imagine Video1.5:一張圖片秒變視頻，直面Google Veo競爭

6個月融25億估值10億美元！字節系最猛AI創業者王長虎的增長祕笈