橋本慧悟 ·立憲民主党・無所属

衆議院内閣委員会（2025-04-11）での発言

第217回国会 ·第第13号号 ·767字

○橋本（慧）委員　まさに、御答弁をいただきまして、日本語のデータが少ないということだと思います。　生成ＡＩでは、大量のデータを学習させてモデルの規模を巨大化するほどその予測精度も向上することから、大規模言語モデル、ラージランゲージモデル、ＬＬＭと呼ばれたり、この開発が、モデルの大規模化を目指して熾烈な競争が繰り広げられていると認識をしております。　この言語モデルというのは、人間が話したり書いたりする言葉や文章を基に単語の出現確率をモデル化する技術だと認識しています。　具体的には、大量のテキストデータから学習をして、ある単語の後に続く単語がどのくらいの確率で出現するのかを予測するものです。例えば、私の職業は、というような文章の後に続く単語として、教師ですとかエンジニアですとか保育士ですというような、それは確率として高いなという判断が働き、ここにある机とか黒色とかスーツとかという言葉は可能性としては低いと判断していく、それで言語をモデル化していくものだと思います。こうして言語モデルは、単語の出現確率を統計的に分析することで人間の言語を理解して予測ができるようになると思います。　それで、生成ＡＩの基盤となる大規模言語モデルの開発では、やはりマイクロソフトやグーグルなど米国のビッグテック企業が先行している現状にありまして、我が国においても国産の大規模言語モデルの開発に向けた取組は進められていると思いますが、生成ＡＩを日本語で問題なく使えるようにするためには、高品質の日本語のウェブテキストというのを学習データとしてしっかりと収集をして、この構築に利活用できるようにしておく必要があると思います。　学習データに用いられる日本語のウェブテキストとしては、具体的にどのようなものを想定されていますでしょうか。

原典 (国立国会図書館国会会議録) → ·会議録全体 →