グーグルAGIロボットの大技!54人チーム7ヶ月の成果、DeepMindとグーグルブレイン合併後の新作

ソース:

ソース:
最近の流行は、AIを雇って働くこと?でも、AI軍団をグループチャットで遠隔操作するサイバー社長をあなたは見たことがありますか?最近、小紅書でそんなユニークなスタイルが大人気です。ユーザーたちはAI企業の強引な社長になりきり、グループチャットでAIモデルたちにあれこれ指示し、笑えるAI職場劇を繰り広げています。その発端は、小紅書ユーザーのKomorebiさん。彼女が投稿した「AIのボスになった」という画像付きのメモが、ユーザーたちの遊び心を一気に燃え上がらせました。真面目な顔でAIの職場を構築している様子が、多くの共感を呼びました。
VideoPainterは深層学習に基づいた編集ツールで、まるで魔法使いのように、簡単なプロンプトでビデオの内容を自動的に認識・修正します。特に長尺ビデオの処理に最適です。プロンプトを入力すれば、内容を自動認識します。想像してみてください。素晴らしいビデオを見ている最中に、ある細部が気に入らないことに気づいたとします。以前は、フレームごとに調整したり、場合によってはシーンを撮り直したりするなど、大変な作業が必要でした。しかし、VideoPainterを使えば、短いプロンプトを入力するだけで、システムが…
百度AIは、新たな表認識ソリューションPP-TableMagicをオープンソースとして発表し、表構造化情報抽出分野に大きな進歩をもたらしました。PP-TableMagicは、従来の表認識技術が複雑な状況下で抱える限界を克服することを目指し、革新的なマルチモデルネットワークアーキテクチャを通じて、高精度のエンドツーエンドの表認識を実現し、あらゆる状況に対応した高度なカスタマイズ可能なモデル微調整をサポートします。
3月11日、通義实验室チームはR1-Omniモデルのオープンソース化を発表し、全モーダルモデルの発展に新たなブレークスルーをもたらしました。このモデルは強化学習と検証可能な報酬(RLVR)手法を組み合わせ、多モーダル感情認識タスクにおける推論能力と汎化性能の向上に重点を置いています。R1-Omniのトレーニングは2段階で行われます。コールドスタート段階では、Explainable Multimodal Emotioから取得した580本のビデオデータを含む複合データセットを使用して微調整が行われます。
人工知能の急速な発展を背景に、AI大規模言語モデルの研究開発と応用は活況を呈しています。最近、この分野における複数の企業や機関の最新動向が広く注目を集めています。まず、ChatGPTが登場する前のNVIDIAの時価総額倍率はウォール街で大きな注目を集め、専門家らは、これが2008年のアップルの成功神話を再現する兆候かもしれないと考えています。同時に、国泰君安の最高情報責任者である俞楓氏は、AI大規模言語モデルの台頭により証券業界が「インテリジェント認知」時代に入るだろうと述べています。