歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。
新鮮AI產品點擊瞭解:https://top.aibase.com/
1、開發者狂喜!GPT-4o新版本上線,API 更快更便宜
OpenAI 近期推出了全新的結構化輸出功能,旨在使模型生成的輸出嚴格遵循開發者提供的 JSON 模式,提升輸出的可靠性和匹配度。這一功能的推出爲開發者構建可靠應用程序提供了重要基礎,簡化了開發過程,幫助開發者更輕鬆地創建出色的應用。
【AiBase提要:】
🌟 結構化輸出功能使模型輸出更可靠,遵循開發者提供的 JSON 模式。
🔍 新模型 gpt-4o-2024-08-06在複雜 JSON 模式的評估中獲得完美100% 分數。
🔧 Python 和 Node SDK 已更新,支持結構化輸出,簡化開發者的工作流程。
詳情鏈接:https://openai.com/index/introducing-structured-outputs-in-the-api/
2、面壁智能開源 MiniCPM-V2.6可以在手機上跑的“GPT-4V”
MiniCPM-V2.6是一款端側多模態人工智能模型,僅有8B參數卻取得了20B以下單圖、多圖、視頻理解三項SOTA成績,與GPT-4V水平全面對標。該模型在端側實現了單圖、多圖和視頻理解等核心能力的全面超越,具有極高的像素密度和運行效率,支持多種語言和推理框架。
【AiBase提要:】
🚀 MiniCPM-V2.6取得了20B以下單圖、多圖、視頻理解三項SOTA成績,與GPT-4V水平全面對標
💡 模型具有極高的像素密度和運行效率,在端側設備上實現了極高的運行效率
🌐 MiniCPM-V2.6支持多種語言和推理框架,通過OCR能力實現了從單圖到多圖及視頻的流暢拓展
詳情鏈接:
GitHub: https://github.com/OpenBMB/MiniCPM-V
HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 部署教程地址:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM 系列開源地址:
https://github.com/OpenBMB/MiniCPM
3、華爲、復旦聯手打造3D數字人新框架EmoTalk3D:喜怒哀樂表情逼真豐富
研究團隊從南京大學、復旦大學和華爲諾亞方舟實驗室聯手打造了EmoTalk3D框架,解決了多視角一致性和情感表現力不足的難題。他們提出了合成可控情感數字人的新方法,構建了從語音到幾何再到外觀的映射框架,並建立了EmoTalk3D數據集。
【AiBase提要:】
💥 提出合成可控情感數字人的新方法。
🎯 構建“從語音到幾何再到外觀”的映射框架。
👀 建立EmoTalk3D數據集並準備開放。
詳情鏈接:https://nju-3dv.github.io/projects/EmoTalk3D/
4、阿里雲PAI Artlab新增奧運高光時刻海報工作流
阿里雲PAI Artlab的ComfyUI新增了一個奧運高光時刻海報的工作流,用戶只需三步即可生成個性化的奧運主題海報。用戶需要先在阿里雲官網註冊並完成實名認證,然後訪問PAI ArtLab平臺,領取免費資源,並通過ComfyUI加載奧運流程來解鎖更多海報設計。
【AiBase提要:】
🌟 用戶只需三步即可生成個性化的奧運主題海報。
🚀 需要上傳圖片數據、加載並微調AI模型,調整生成內容的Prompt,保存工作流並生成json文件。
💡 其他用戶可以通過生成的json文件快速生成海報,實現共享與交流。
產品入口:https://x.sm.cn/5hd9PfM
詳情點此查看:https://www.aibase.com/zh/news/10857
5、騰訊元寶AI助手上線長文精讀 支持最長近50萬字輸入
騰訊元寶AI助手推出了長文精讀功能,用戶上傳專業內容後可進入深度閱讀模式,提供核心內容概覽、模塊化解析和總結性圖表,幫助用戶快速理解關鍵信息。利用騰訊混元大模型處理能力,支持最長近50萬字輸入,生成圖文並茂的內容。用戶可評估論文質量、查看專業圖表和在離線狀態下回看精讀內容。騰訊混元大模型已全面開源,展現卓越的多模態理解能力。
【AiBase提要:】
📚 長文精讀功能提供深度閱讀模式,核心內容概覽、模塊化解析和總結性圖表。
🔍 利用騰訊混元大模型處理能力,支持最長近50萬字輸入,生成圖文並茂的內容。
💡 用戶可評估論文質量、查看專業圖表和在離線狀態下回看精讀內容。
6、月之暗面 Kimi 開放平臺:上下文緩存 Cache 存儲費用降價50%
Kimi 開放平臺宣佈上下文緩存存儲費用降價50%,爲用戶提供更經濟實惠的服務。上下文緩存是高效的數據管理技術,能夠提高系統效率和節省時間資源。
【AiBase提要:】
🔑 上下文緩存存儲費用降價50%,從10元/1M tokens/min降至5元/1M tokens/min。
⏳ 上下文緩存是一種高效的數據管理技術,能夠預先存儲可能被頻繁請求的大量數據,提高系統效率。
💡 上下文緩存特別適合頻繁請求、重複引用大量初始上下文的場景,可降低長文本模型費用並提高效率。
7、Figure公司發佈超強實體ChatGPT機器人Figure02
Figure公司最新推出的Figure02機器人標誌着AI技術的重大突破,預示着人機交互進入全新時代。該機器人在硬件和軟件上進行了全面革新,具有靈活手部操作、強大對話視覺能力和3倍計算推理能力。
【AiBase提要:】
🤖 Figure02機器人是AI技術重大突破,預示人機交互新時代。
🔊 語音對話功能、先進視覺系統、革命性手部設計是其核心特點。
💡 Figure02集成OpenAI大模型,結合語音指令和視覺信息進行深度推理。
8、AI設計加持義烏製造:AI設計穿戴甲火到巴黎奧運
這篇文章介紹了一款由AI設計、義烏生產的穿戴甲在巴黎街頭引發熱議的故事,展示了義烏製造業注入新活力的場景。通過AI技術設計的穿戴甲產品在巴黎引起轟動,證明了義烏的創新實力和市場敏銳度。
【AiBase提要:】
🔥 AI設計穿戴甲在巴黎引發熱議,成爲時尚界新寵,爲義烏製造注入活力。
💡 LumiNail是一款傻瓜式AI穿戴甲設計產品,簡單yet強大,提高設計效率,注入創意活力。
🚀 義烏商家開始嘗試AI輔助生產,超過1萬戶商戶使用AI技術優化經營,開闢新發展方向。
9、上海人工智能實驗室推出書生·浦語系列模型新版本InternLM2.5
上海人工智能實驗室在2024年7月4日的WAIC科學前沿主論壇上推出了書生·浦語系列模型的新版本InternLM2.5,該版本在複雜場景下的推理能力得到全面增強,支持超長上下文和自主進行互聯網搜索整合信息。模型參數版本包括1.8B、7B和20B,適應不同應用場景和開發者需求。
【AiBase提要:】
⚙️ InternLM2.5發佈三種參數版本的模型,包括1.8B、7B和20B,滿足不同應用場景需求。
🔍 InternLM2.5在多個數據合成技術上進行迭代,顯著提升模型的推理能力,特別在數學評測集MATH上的準確率達到64.7%。
🛠️ InternLM2.5實現了與下游推理和微調框架的無縫對接,包括XTuner微調框架、LMDeploy推理框架和其他社區框架。
詳情鏈接:https://internlm.intern-ai.org.cn
10、以色列公司推出速度提升50%的開源語音識別模型Whisper Medusa
aiOla公司推出的Whisper Medusa開源語音識別模型在處理速度上取得了重大突破,比OpenAI的Whisper模型快50%,引起了業界廣泛關注。這一創新將爲語音識別技術的發展帶來深遠影響,爲人工智能在語音識別領域的應用開闢新的可能性。
【AiBase提要:】
⚙️ Whisper Medusa的核心創新在於引入了多頭注意力機制,使模型能夠每次預測十個tokens,顯著提高了語音預測速度和生成運行時間。
🔍 Whisper Medusa在提高速度的同時並未犧牲性能,主幹系統建立在Whisper的基礎上,保證了模型的準確性和穩定性。
🎓 aiOla採用弱監督的機器學習方法訓練Whisper Medusa,進一步提高了模型的學習效率和準確性。
詳情鏈接:https://github.com/aiola-lab/whisper-medusa
11、新流量密碼?AI視頻翻車意外走紅:一段詭異畫面引發2000萬次觀看
AI生成的內容已經滲透到我們的生活中,但最近一段AI翻車視頻卻成爲網絡熱點,吸引了近2000萬次觀看,揭示了人們對AI技術的複雜態度。這段視頻展示了AI圖像生成技術的失控一面,引發了網友們的強烈反應。公衆對AI技術的態度正在發生微妙的變化,需要保持幽默感和開放心態。
【AiBase提要:】
🤖 AI視頻翻車成網絡熱點,吸引2000萬次觀看。
😱 視頻展示AI失控畫面,引發強烈反應。
😄 公衆態度對AI發生微妙變化,需保持幽默感和開放心態。
12、摩爾線程AI創作平臺摩筆馬良全新升級
摩筆馬良全新升級,提供更高效、個性化的圖像生成體驗,強化對中文和中國文化的理解,實現精準創意人像生成。用戶操作簡單,上傳照片、輸入描述、生成圖片,快速實現個性化創意人像。新增20多種預置風格滿足多樣化創意需求,AI算法和交互體驗顯著提升,圖像生成高速高分辨率。界面優化簡化操作流程,提升交互直觀性和便捷性,爲個人用戶和專業人士帶來前所未有的創意體驗。
【AiBase提要:】
🎨 提供更高效、個性化的圖像生成體驗,強化對中文和中國文化的理解,實現精準創意人像生成。
🖼️ 新增20多種預置風格,滿足用戶多樣化創意需求。
🚀 AI算法和交互體驗顯著提升,圖像生成高速高分辨率。
13、Reddit將測試AI驅動的搜索結果頁面
Reddit的創始人兼首席執行官Steve Huffman透露,Reddit將推出AI驅動的搜索結果頁面,提供AI生成的內容摘要。這一舉措旨在幫助用戶更輕鬆地找到感興趣的內容,並推薦相關社區,進一步深入瞭解內容和探索更多Reddit社區。
【AiBase提要:】
🌟 Reddit將推出AI驅動的搜索結果頁面,提供AI生成的內容摘要。
🤖 Reddit與OpenAI合作,利用其大型語言模型構建新功能。
📈 Reddit每週活躍用戶達3.423億,收入超出市場預期。
14、亞馬遜升級AI圖像生成器Titan Image Generator v2,支持參考圖像來“引導”生成作品
亞馬遜推出了升級版Titan Image Generator v2,爲用戶帶來多項新功能,包括圖像調節、配色方案控制、背景去除等。該模型還支持用戶通過參考圖像和文本提示來生成符合用戶佈局和結構要求的圖像。AWS提供賠償政策保護版權,Andy Jassy對生成AI技術充滿信心。
【AiBase提要:】
🎨 用戶可以通過圖像調節功能精確控制創作內容,提供參考圖像和文本提示後生成符合用戶佈局和結構要求的圖像。
🌈 用戶可以控制生成圖像的配色方案,只需提供十六進制顏色代碼即可。
🔍 背景去除功能得到顯著提升,用戶可以輕鬆從包含多個對象的圖像中移除背景,確保主要對象清晰展現
詳情鏈接:https://top.aibase.com/tool/amazon-titan-text-premier