top of page

AIは誰のもの?──スイスから始まる公共善のための言語モデル

ree

シリーズ: 知新察来


◆今回のピックアップ記事:Florian Meyer et al. "A language model built for the public good" (ETH Zurich, 2025年7月9日)

  • 概要:スイス連邦工科大学チューリッヒ校(ETH Zurich)とローザンヌ校(EPFL)による完全オープンソースの大規模言語モデル開発プロジェクトに関する発表記事


現在、世界で使われている多くのAI言語モデルは、アメリカや中国の大手テック企業によって開発され、その詳細は企業秘密として厳重に守られています。しかし、スイスのETH ZurichとEPFLの研究者たちが、まったく異なるアプローチで新しい大規模言語モデルを開発しています。このプロジェクトは、AIの民主化と透明性に向けた重要な一歩と言えるでしょう。


彼らが目指すのは、完全にオープンで誰でも使える言語モデルです。ソースコードから学習データまで、すべてが公開され、1000以上の言語に対応する予定です。2025年夏の終わりには、Apache 2.0ライセンスのもとで誰でもダウンロードできるようになります。商業的な利益を追求するのではなく、科学、教育、社会全体の発展を支援することを目的としているのが特徴的です。


今回は、この取り組みについて、富良野とPhronaが語り合いました。公共財としてのAI、技術の透明性、そして社会への影響について、どのような洞察が得られるでしょうか。




オープンソースAIが持つ可能性


富良野:このスイスの取り組み、なかなか興味深いプロジェクトですね。1000以上の言語に対応する大規模言語モデルを、完全にオープンソースで提供するって発想が。


Phrona:私も驚きました。特に印象的だったのは、学習データの透明性を重視している点です。今って、多くのAIモデルがブラックボックス化していて、何を学習してどう判断しているのか分からない状況じゃないですか。


富良野:そうそう。商用モデルの多くは企業秘密として守られているから、研究者でさえ中身を詳しく調べることができない。これって、AIの安全性や信頼性を検証する上で大きな問題になってる。


Phrona:だからこそ、スイスのアプローチが注目されるんでしょうね。完全な透明性を保つことで、世界中の研究者がAIのリスクや機会を研究できるようになる。


富良野:制度設計の観点から見ると、これは公共財としてのAIという新しい概念を提示してると思うんです。従来のAI開発は民間企業主導で、どうしても利益追求が優先される。でも公共機関が主導することで、社会全体の利益を考えた開発が可能になる。


Phrona:ああ、なるほど。水道や電気みたいなインフラと同じような考え方ですね。AIも社会の基盤技術として捉えるなら、特定の企業に独占されるべきではないのかもしれません。


多言語対応が示す哲学


富良野:1000以上の言語対応っていうのも、単なる技術的な話じゃないと思うんですよ。これって明らかに包摂性を意識した設計でしょ。


Phrona:そうですね。英語中心のAIって、結果的に英語圏の文化や価値観を世界に広めることになりがちですから。多言語対応することで、文化的多様性を保護する意味もありそうです。


富良野:記事によると、学習データは英語60%、その他の言語40%という比率らしいんですが、これも興味深い。英語が多いのは仕方ないにしても、4割も他言語に割いてるのは意図的な選択でしょうね。


Phrona:言語って、その話者の世界観や思考パターンと密接に関わってますからね。多様な言語を学習することで、より豊かな理解や表現が可能になるのかもしれません。


富良野:ただ、実際の運用を考えると課題もありそうだよね。1000言語って言っても、話者数の少ない言語の学習データをどう確保するのか。質の担保も大変そう。


Phrona:でも、そういう困難があっても挑戦する価値はあると思います。少数言語の話者にとって、母語でAIとやり取りできるって、すごく大きな意味があるでしょうから。


透明性と規制対応のバランス


富良野:データ保護法やEU AI法への対応も明記されてるのが面白いところですね。規制に適応しながら透明性を保つっていう、新しいアプローチを模索してる。


Phrona:最近のAI規制って、安全性を重視するあまり、かえって技術の発展を阻害する可能性もあるって言われてますよね。スイスのやり方は、規制と開発のバランスを取る一つのモデルになるかもしれません。


富良野:特に注目したいのは、ウェブクローリングのオプトアウトを尊重するという姿勢。これって従来のAI開発では軽視されがちだった部分でしょ。


Phrona:著作権の問題もそうですし、個人のプライバシーの観点からも重要ですね。でも、そうした制約がある中でどこまで性能を保てるのかは気になります。


富良野:記事によると、オプトアウトを尊重しても日常的なタスクではほとんど性能劣化がないって研究結果が出てるらしいんですが、これが本当なら画期的だよね。


Phrona:つまり、倫理的な配慮と技術的な性能は必ずしもトレードオフじゃないってことでしょうか。むしろ、質の高いデータを厳選することで、より良いモデルができる可能性もありそうです。


公共インフラとしてのAI基盤


富良野:Alps supercomputerでの学習も興味深い要素の一つですね。100%カーボンニュートラルな電力で動作するって謳ってる。


Phrona:環境への配慮も、公共善のための技術として重要な要素ですね。巨大なAIモデルの学習には膨大な電力が必要ですから、持続可能性を考慮するのは当然とも言えます。


富良野:それに、公共の計算資源を使うことで、AI開発の民主化も進むかもしれない。これまでは潤沢な資金を持つ大企業しか大規模なAIを開発できなかったけど、公共インフラがあれば状況が変わる。


Phrona:そうですね。研究機関や中小企業、NGOなんかも、高性能なAIにアクセスできるようになる。これって、技術格差の解消にもつながりそうです。


富良野:ただ、公共インフラとして運営するとなると、維持費や運営方針をどう決めるかって問題も出てくるよね。政治的な影響を受けずに中立性を保てるのか。


Phrona:スイスという国の特性も関係してきそうですね。中立国として長い歴史を持つ国だからこそ、こういう取り組みに説得力がある面もあるでしょう。


科学と社会の新しい関係


富良野:記事の最後で研究者が言ってることも印象的でした。「公共機関の科学者として、オープンモデルを推進し、組織が独自のアプリケーションを構築できるようにしたい」って。


Phrona:科学の公共性への回帰とも言えますね。知識や技術は本来、人類共通の財産であるべきだという考え方。でも最近は、研究成果が商業化されて、アクセスが制限されることが多くなってました。


富良野:特にAI分野では、最先端の研究が企業の研究所に集中してる状況があるからね。大学の研究者でさえ、最新のモデルにアクセスできないことがある。


Phrona:でも、オープンな研究環境が整えば、より多様な視点からAIの可能性を探ることができそうです。社会学や心理学、哲学といった分野の研究者も、AIを使った研究に参加しやすくなるでしょうし。


富良野:それに、透明性があることで、AIの偏見や有害な出力の問題も発見しやすくなる。多くの目で監視することで、より安全で公正なAIを作れるかもしれない。


Phrona:コミュニティ全体でAIを育てていくっていう発想ですね。一企業の判断ではなく、社会全体の知恵を集めて改善していく。


残された課題と展望


富良野:とはいえ、課題もたくさんありそうですよね。オープンソースということは、悪意のある利用も防げないわけで。


Phrona:そうですね。透明性と安全性のバランスは難しい問題です。でも、完全に隠すよりも、オープンにして多くの人が監視する方が、結果的に安全かもしれません。


富良野:それに、8億パラメータと700億パラメータの2つのサイズで提供するって話も現実的だと思う。用途に応じて選択できるし、計算資源が限られた環境でも使える。


Phrona:アクセシビリティを重視した設計ですね。高性能なモデルは研究用に、軽量なモデルは教育や個人利用に、という使い分けができそうです。


富良野:Apache 2.0ライセンスっていうのも重要なポイントですね。商用利用も可能だから、企業も参加しやすい。完全にオープンでありながら、経済活動も促進できる。


Phrona:このプロジェクトが成功すれば、他の国や機関も同様の取り組みを始めるかもしれませんね。AIの開発における新しいスタンダードになる可能性もあります。


富良野:そうなると、技術の民主化だけじゃなくて、国際協力の新しい形も見えてくるかもしれない。特定の国に技術が集中するリスクを減らせるし。


Phrona:公開が楽しみです。実際にどんなモデルができるのか、そして社会にどんな影響を与えるのか。新しい時代の始まりを見ているような気がします。



ポイント整理


  • プロジェクトの革新性

    • ETH ZurichとEPFLによる完全オープンソースの大規模言語モデル開発

    • ソースコード、重み、学習データの完全な透明性を実現

    • Apache 2.0ライセンスによる商用利用も可能な自由度の高い提供形態

    • 8億パラメータと700億パラメータの2サイズで幅広いニーズに対応

  • 多言語対応による包摂性

    • 1000以上の言語に対応する史上最大規模の多言語モデル

    • 学習データは英語60%、その他言語40%の バランス配慮

    • 言語的多様性の保護と文化的包摂性の実現

    • 少数言語話者への技術アクセス向上

  • 倫理的配慮と規制対応

    • スイス データ保護法、著作権法、EU AI法への準拠

    • ウェブクローリングのオプトアウト尊重による性能劣化がほぼないことを実証

    • 100%カーボンニュートラルな電力を使用したAlpsスーパーコンピューターでの学習

    • 高品質な15兆トークンを使用した責任ある学習データの選定

  • 公共財としてのAI基盤

    • 公共機関主導による利益追求ではない技術開発

    • 研究機関、教育機関、中小企業への技術アクセス民主化

    • 透明性による多様な研究者の参画促進とコミュニティベースの改善

    • 特定企業による技術独占の防止と国際協力の新モデル提示

  • 技術的・社会的インパクト

    • 商用モデルに匹敵する性能を持つ完全オープンなAIの実現

    • AI安全性研究の促進と偏見・有害出力の検出改善

    • 科学研究における公共性の回帰と学際的研究の活性化

    • AIガバナンスにおける透明性と規制のバランス取りの新基準



キーワード解説


【大規模言語モデル(LLM)】

膨大なテキストデータで学習された大型のAIモデル


【オープンソース】

ソースコードが公開され、誰でも自由に使用・改変可能な開発形態


【パラメータ】

AIモデルの学習能力と性能を示す数値指標


【トークン】

AIが処理する最小単位のテキスト要素(単語や単語の一部)


【Apache 2.0ライセンス】

商用利用も可能な自由度の高いオープンソースライセンス


【EU AI法】

欧州連合のAI規制法、AIシステムの透明性と安全性を要求


【カーボンニュートラル】

二酸化炭素排出量と吸収量が等しい状態


【ウェブクローリング】

ウェブサイトから自動的にデータを収集する技術


【オプトアウト】

データ収集や利用を拒否する権利・仕組み


【公共財】

誰でも利用でき、一人の利用が他者の利用を妨げない財・サービス


【技術的特異点】

AIが人間の知能を超越する仮想的な転換点


【包摂性】

様々な背景を持つ人々を排除せず受け入れる考え方



本稿は近日中にnoteにも掲載予定です。
ご関心を持っていただけましたら、note上でご感想などお聞かせいただけると幸いです。
bottom of page