非常に小さなTTSモデル Kitten TTS：パラメータ数はわずか1,500万

最近、KittenMLチームはHugging Faceプラットフォームで新しいオープンソースのテキストから音声への変換モデル「Kitten TTS」をリリースしました。このモデルの設計目的は、高品質な音声合成を実現することであり、同時に軽量で効率的な性能を持ち、さまざまなデバイスでの導入に適しています。Kitten TTSのパラメータ数は1,500万個であり、他の同様のモデルと比較してサイズが25MB未満であるため、リソースが限られた環境に特に適しています。

Kitten TTSはGPUなしでも動作可能であり、ユーザーが通常のCPUデバイス上で音声合成を行うことができるため、使用のハードルを大幅に下げています。このモデルには、高品質な複数の音声オプションが用意されており、生成された音声がより自然で滑らかになるようにしています。これは、さまざまなアプリケーションシーンに適しています。また、Kitten TTSの推論速度も最適化されており、リアルタイムの音声合成を実現し、ユーザーのスピード要求に応えます。

ユーザーが迅速に使い始められるようにするため、KittenMLは簡単なインストールおよび使用ガイドを提供しています。ユーザーはpipコマンドを使用して必要なライブラリをインストールし、単純なコードでモデルを呼び出すだけで、高品質な音声を生成できます。たとえば、「この高品質なTTSモデルはGPUなしでも動作します」というテキストを入力すると、モデルはその対応する音声ファイルを出力し、ユーザーが保存や利用に便利です。

Kitten TTSは現在、開発者プレビュー段階にあり、今後は完全に訓練されたモデルウェイト、モバイルSDK、およびWeb版のリリースを予定しており、さらに応用範囲を拡大する予定です。KittenMLはこのモデルを通じて、テキストから音声への変換技術の普及を促進し、多くの開発者や企業がプロジェクトで音声合成機能を簡単に実装できるようにしたいと考えています。

Kitten TTSのリリースは、AI音声合成技術がより広範な用途へと進む一歩を示しています。このモデルが将来、多くのユーザーにとって便利さとイノベーティブな体験をもたらすことを期待しています。

ポイント:
🐱 Kitten TTSはオープンソースの軽量なテキストから音声への変換モデルで、サイズが25MB未満であり、あらゆるデバイスに適しています。
⚡ モデルはGPUなしでも動作可能で、通常のCPUでも高品質な音声合成が可能です。
🚀 Kitten TTSは簡単なインストールおよび使用ガイドを提供しており、ユーザーは素早く音声を生成できます。

Stripeレポート：AI経済が急成長、収益の速度がSaaSの3倍に達する

Stripe最新レポートによると、AI経済は爆発的な成長を示している。1）収益成長率が記録的で、トップクラスのAI企業が年間100万ドルの売上を達成するにはわずか11.5ヶ月で、SaaS企業より4ヶ月早かった。2）グローバルな特徴が顕著で、新規スタートアップが設立後1年で55ヶ国に進出し、伝統企業の2倍である。3）ビジネスモデルの革新があり、業界別ソリューションや使用量または成果に基づく支払いなどの新しい収益化方法が台頭している。レポートでは特に、AIエージェントビジネスが取引方法を再構築しており、63％の企業幹部がその未来2年以内に非常に重要になると述べている。

マスクの新製品が論争を引き起こす：Grok Imagine動画ツールがスキャンダルモードでポリティカル危機を招く

xAIがGrok Imagine動画生成ツールを発表し、有料ユーザーは6秒の短い動画や画像を動画に変換できる。そのスキャンダルモードは、露骨なコンテンツの生成を許可したことで論議を呼んだ。マスク自身がデモンストレーションを行い、さらなる議論を招いた。このツールは、タイラー・スワーツの露出度の高い動画を指示なしに生成したことが暴露され、有効な年齢確認メカニズムも欠如していると指摘されている。セキュリティ監視措置が疑問視されており、革新と安全のバランスを取る方法がxAIが直面する重要な課題となっている。（140字）

百度検索のPC版にAI検索機能が全面的にリリース

百度のPC版検索はAI機能を全面的にアップグレードし、スーパーアイズダブルフレームとワークスペースモジュールを導入しました。ワークスペースにはAIリーディング（ドキュメントのワンクリックによる要約）、AIライティング（20種類以上のスタイルから選択可能）およびAIプレゼンテーション（自動作成）の3つのツールが含まれます。データによると、百度のAI検索の月間アクティブユーザー数は3億2200万人を超え、国内で1位を記録しています。ユーザーはスマートモードとクラシックモードを自由に切り替えることができます。スマートモードではすべてのAI機能を使用できます。今回のアップグレードにより、検索効率が顕著に向上し、百度のAI技術の実力を示しています。

OpenAIを逆転！バイチャンインテリジェンスがオープンソース医療大規模モデルBaichuan-M2の能力が世界トップに

バイチャンインテリジェンスはオープンソース医療大規模モデルBaichuan-M2を発表しました。HealthBenchの評価で60.1点を記録し、OpenAIなどの競合を上回り、世界的な優れたオープンソース医療モデルとなりました。このモデルは軽量設計されており、RTX4090単カードでの導入が可能で、同様のソリューションと比較してコストを57倍も削減し、最適化バージョンにより74.9%の処理速度向上を実現しています。特に医療のプライバシー要件に配慮しており、プライベート配置にも対応しています。研究では、医療データで訓練したことが一般的な能力に悪影響を与えないだけでなく、数学や文章作成などの能力を向上させたことが判明しました。

人工知能が医療画像分析を支援し、放射線科医の負担を軽減