商湯宣佈大語言模型應用 “商量 SenseChat” 正式開放服務

字節跳動團隊自主研發的深度估計模型Depth Anything V2,獲得蘋果公司的高度認可並收入其Core ML模型庫。該模型爲單目深度估計工具,能從單一圖片中計算場景深度,成果廣泛應用於視頻特效、自動駕駛、3D建模與增強現實等多個領域。通過從初代25M參數到二代1.3B參數的跨越式升級,深度估計精度和應用範圍進一步擴大,GitHub上累計獲得超過8.7k的星標認證,表明其技術實力和市場潛力。作爲一位實習生主導的核心項目,Depth Anything V2在低估資源情況下展示了高水平的技術能力與創新成果,體現了優秀培養文化和紮實研發路徑在字節跳動內部的實踐。通過整合進蘋果的機器學習框架Core ML,模型能夠實現高效性能與穩定應用,即便是離線狀態下,也能夠處理複雜的AI任務。Depth Anything V2爲字節跳動在視覺生成和大模型領域的發展再次樹立了里程碑,展示了團隊在解決深層視覺問題時的前瞻性和優勢。未來,模型的應用範圍將持續擴大,不僅在已有領域深化發展的可能,還可能構建橋樑以支持視頻平臺或剪輯軟件的功能擴展,支持特效製作與視頻編輯等功能。深度估計作爲計算機視覺的核心能力,其技術革新的成果——Depth Anything V2,預示了字節跳動在技術研發與人才培養方面持續投入與承諾的成果顯效。
在AI視頻對口型領域,螞蟻集團與相關團隊公佈了EchoMimic技術,一款新穎的音頻驅動創新性方法,能根據音頻內容及角色照片生成生動的對口型視頻。相較於傳統音頻驅動或面部關鍵點驅動方法,EchoMimic通過融合音頻信號與面部特徵,採用獨特訓練策略,成功解決了處理音頻信號較弱或面部關鍵控制過度的問題,生成更加逼真且動態的人像視頻。此技術核心是精確捕捉音頻與面部特徵間的關聯,利用先進數據融合技術確保音頻與面部特徵有效整合,提升了動畫的穩定性和自然度。在獨立使用音頻、面部特徵及兩者結合時,EchoMimic均表現出色,在定量與定性評估中超越對比算法。通過高級別對比效果示例展示了其跨語種對口型及唱歌的能力。隨着技術持續發展和應用深化,EchoMimic在人像動畫領域展現了巨大潛力。
OpenAI將其先進的文本轉語音API整合至開發者Playground平臺,爲開發者提供了方便快捷的無縫使用體驗。只需輸入文本消息,即可在六種預設聲音中選擇,由AI智能匹配特定語言與地區版本,消除語言與地區選擇的壓力。該API不僅簡化了開發過程,還提供了出色的聲音合成技術,將書面文本轉化爲如同真人對話的優質音頻文件,爲沉浸式與互動式用戶體驗提供了多樣化可能性。此API具備兩種模型供選擇:Neural,針對實時應用優先考量低延遲;NeuralHD,專爲追求最高聲音質量的用戶打造,確保每一字句精確傳達內容精髓。這套AI解決方案旨在通過高效、靈活的文本轉語音功能,賦能開發者創造更多形式豐富、感官沉浸的內容與服務,彰顯AI技術在提升人類生活與工作效率的無限潛力。
近日,一項技術革新吸引了廣泛關注。全新圖片編輯工具UltraEdit誕生,它融合了語言與視覺反饋,重新定義了圖像處理的界限。UltraEdit相比其他產品,擁有更爲豐富且無偏差的訓練數據,這些數據包括照片和藝術品,爲用戶提供更爲廣泛、多樣的編輯選項。其獨特優勢體現在兩大創新功能:自由格式編輯與基於區域的編輯。前者讓用戶可無限制地進行局部重繪,後者則允許精準編輯特定區域。這些特性使得UltraEdit成爲圖像處理領域的遊戲規則改變者,爲用戶提供了前所未有的編輯自由與精準度。與基於文本生成的圖像模型不同,UltraEdit從真實世界中的圖片中學習,這爲用戶提供了一個更加真實且高度多樣化的編輯環境。其靈活的編輯方式與豐富、無偏差的數據集相得益彰,確保了編輯任務的高效完成與優秀質量。以下是使用UltraEdit訓練數據集生成的編輯示例,進一步展示了其強大的自由形式和基於區域的編輯能力。🌟UltraEdit結合語言與視覺反饋,創造全新圖像處理方式🌟提供自由形式與基於區域的編輯模式🌟在豐富編輯任務與減少偏差方面展現優勢,爲用戶帶來高質量編輯體驗。
Vimeo推出新政策要求創作者標註AI生成視頻,加入同YouTube、TikTok競爭。旨在保護觀衆不受誤導,區分AI合成視頻與實際事件。政策針對高度逼真、易混淆視頻明確致AI來源標註需,而不影響明顯動畫或輕微製作輔助內容。新增人工檢測與自動化系統,VimeoCEOPhilipMoyer揭示長期目標爲開發穩定AI內容標籤系統,提升透明度。舉措強化真實內容承諾,引導創作者與觀衆在AI前沿導航,旨在防止內容濫用。
RodinHD技術革新3D頭像生成,依據肖像照片創造高保真3D角色,尤其是在頭髮細節處理上實現突破。其核心在於獨創的三平面擬合與生成框架,包括爲每個角色定製高解析三平面和配置共享解碼器,以及通過學習基本與上採樣模型的級聯來生成細節豐富的高分辨率三平面。針對解碼器在連續擬合過程中的遺忘問題,RodinHD引入了任務重放的數據調度策略和權重合並正則化項,優化了對新角色細節的捕捉與呈現能力。 此外,通過優化噪聲調度和使用預訓練的變分自編碼器進行多尺度特徵表示計算,RodinHD確保了細節完整保留,並在46000個頭像的訓練下表現卓越,生成的3D角色在細節上超越傳統技術,適應各種野外地像輸入,全面革新了現有3D化身生成技術。