最近、筆者は2023年上半期の教師資格試験の過去問を選び、科大訊飛の訊飛星火、百度(バイドゥ)の文心一言(ウェンシンイーヤー)、アリババの通義千問(トンイーチエンウェン)という3つの中国国産の大規模言語モデルの解答能力をテストしました。その結果、これら3つの大規模言語モデルは、専門知識や論理的推論においては比較的良い成績を示しましたが、法規や総合的な資質を問う問題では、解答の質にばらつきがあり、特に自由記述式の問題では、依然として理想的な結果とは言えませんでした。中でも、文心一言は比較的規範的な回答を示し、一定の解答テクニックを持っていることが分かりました。全体として、大規模言語モデルは教師資格試験の準備に役立つ可能性がありますが、依然として人の手による二次審査が必要です。大規模言語モデルが教師の職業能力に関する評価を代替できるかどうかは、今後の検証が必要です。
関連推奨
ネットファストフードは精神的な飢えなのか?AI生成記事が人間の創作を全面的に圧倒
AIが生成した英文記事の数が人間を上回り、2記事に1つが機械によるものに。低品質なコンテンツ「Slop」がSNSに溢れ、人間のオリジナル文章が希少となり、思考の境界が静かに崩れつつある。....
チューリングテストの結果が明らかに:GPT-4.5の勝率は人間を上回り、AIは完璧な嘘をつくことを学んだ
イギリスの数学者チューリングが1950年に提唱したチューリングテストの想定は、76年後、カリフォルニア大学サンディエゴ校の研究チームによって『米国科学アカデミー紀要』に掲載された論文で実証された。認知科学者であるカメロン・ジョーンズ教授とベン・バーゲン教授は、厳密な古典的な三人称チューリングテストを通じて、初めて明確な実証データを提供し、コンピューターサイエンス史における画期的な瞬間を意味している。
アリババクラウドの「バイレン」が大幅アップグレード:スタック全体を開放し、モデルのスーパーマーケットを構築
アリババクラウドは5月20日のフォーラムで発表し、「バイレン」の大規模モデルプラットフォームがオープンエコシステムを強化し、複数の第三部門のトップクラスのモデルを接続し、テキスト、画像、ビデオおよびマルチモーダル生成などの分野をカバーしています。この動きは、バイレンがアリババ独自の千問モデルの展示台から、業界の主流モデルを含むAIモデルスーパーマーケットへと転換したことを示しています。初回に接続されたモデルのマトリクスは豊富で多様です。
OpenAIの共同創設者であるアンドレイ・カルパティがAnthropicに参加し、次世代LLMの開発を推進
OpenAIの共同創業者で元テスラ自動運転責任者のAndrej Karpathy氏がAnthropicに加入し、AI人材の主要競合への流出が加速。同氏は大規模言語モデルの基盤アーキテクチャと深層統合研究に注力する。....
AI大モデルが基層执法に実装され、ドウバオが警務捜査の速度を加速
湖北省潜江市警察は、工事現場での軽油盗難事件の捜査中、監視カメラも目撃者もいない「ゼロ手がかり」の現場で、ByteDance傘下のAI大規模言語モデル「豆包」を活用。現場から採取した1440mmの重要な車輪間距離データをモデルに入力し、事件の突破口を開いた。これは大規模言語モデルが地域社会のガバナンスやスマート警察活動に浸透する実戦的価値を示している。....
