2025-07-12

ブラックホールの表面積は量子化される？ ― “8 π” と “4 ln 3” が語る量子重力の現在地

1. はじめに

ブラックホールは“何でも吞み込む究極の穴”どころか熱力学を持ち、エントロピーまで備えています。
もしエントロピーが有限のビット列を数えているなら、ホライズン（事象の地平面）の面積 A もどこかで離散的—つまり 量子化—になっているはずです。

本記事では

面積量子化を導く代表的な 8 つのアプローチ
それぞれが与える 最小面積飛び幅 $\Delta A$
なぜ 係数が微妙にズレる のか

をざっくり整理します。

2. 面積量子化をめぐる 8 つの視点

#	アプローチ	キーワード	概観
1	断熱不変量 / Bohr–Sommerfeld	ベケンシュタイン (1973)	面積を “ゆっくり変わる量” と見なし半古典量子化。
2	最小吸収量の議論	光量子吸収	$\Delta M = \hbar\omega$ が $\Delta A$ に直結。
3	QNM 量子化 (Hod)	準正常モードの実部	高位励起モードの列間隔 → $4\ln 3$ 。
4	QNM 量子化 (Maggiore)	有効振動数	虚部を含めると $8\pi$ に修正。
5	ループ量子重力 (LQG)	スピンネットワーク	面積演算子の固有値が離散。
6	孤立ホライズン / Chern–Simons	境界場理論	LQG と等価なスペクトル。
7	位相空間（collective coordinate）量子化	${A,\Theta} = 8\pi\ell_{P}^{2}$	集団変数の正準量子化。
8	ユークリッド時間の周期条件	波動関数の一価性	$\kappa A / 4\pi = 2\pi n\hbar$ から等間隔。

3. $\Delta A$ をプランク面積で規格化すると

$\displaystyle \frac{\Delta A}{\ell_{P}^{2}} = \left\{ \begin{array}{l} 8\pi\quad (\text{半古典系・Maggiore・位相空間など})\\\\ 4\ln 3\quad (\text{Hod の QNM})\\\\ 4\pi\sqrt{3}\,\gamma \simeq 5.96\quad (\text{LQG; }\gamma\approx 0.274)\\\\ \text{モデル依存}\quad (\text{極限 Kerr/CFT など}) \end{array} \right.$

ポイント

半古典アプローチは “8 π” に収束しつつある。
LQG 系は バレーロ＝イメレジ係数 $\gamma$ が残り、値が理論ごとに動く。
Hod の “4 ln 3” は「実周波数のみ採用」という早期近似に由来。

4. 係数がズレる 6 つの理由

原因	具体例	係数への影響
① 断熱不変量の選択	面積か質量か、積分範囲の $2\pi$ 扱い	$8\pi$ ↔ 他候補
② QNM の周波数定義	実部 vs. 有効振動数	$4\ln 3$ → $8\pi$
③ 未確定パラメータ	LQG の $\gamma$	連続的に可変
④ 正準変数の規格化	${A,\Theta}=C\ell_{P}^{2}$	$C$ を好きに取れる
⑤ 背景・境界条件	回転 (Kerr), (A)dS, SU(2)/U(1)	微調整あり
⑥ “飛び幅” の定義	$n \to n+1$ または基底→第一励起	固有値差が変わる

5. “8 π” への収束と観測的テスト

近年の 重力波リングダウン解析 では、高励起 QNM まで信号を拾えれば
$\Delta A$ の等間隔性を直接フィットできると期待されています。
測定精度があと 1 桁上がれば

半古典理論の $8\pi$ を支持
LQG の $\gamma$ を制限

できるかもしれません。ブラックホールは実験室になり得るのです。

6. まとめ

複数の独立な手法 が「ブラックホール面積は離散的」という結論に達している。
係数の食い違いは「自由度の選択・パラメータ未定性・近似の段階」を映す。
現状もっとも汎用的なのは $\Delta A = 8\pi\ell_{P}^{2}$ 。
観測重力波 が理論間の微妙な違いをふるい落とす最前線になる。

ブラックホールは“暗黒”どころか、量子重力の 虹色のプリズム かもしれません。
面積の一段飛びをめぐる係数論争は、そのスペクトルを解析する第一歩なのです。

2025-07-12

ブラックホール面積は本当に量子化しているのか？──QNM量子化のアイデアと観測状況まとめ

# ブラックホールを「揺らす」とは？

## 1. 微小摂動の導入
背景計量 $g^{(0)}_{\mu\nu}$ に微小摂動 $h_{\mu\nu}$ を加えます。

$g_{\mu\nu}=g^{(0)}_{\mu\nu}+\varepsilon\,h_{\mu\nu},\qquad \varepsilon\ll1$

1. **線形化 Einstein 方程式**
$G_{\mu\nu}(g^{(0)}+\varepsilon h)=0$ を一次で展開すると
$\delta G_{\mu\nu}(h)=0$

2. **境界条件**
- 地平面側：ingoing（落ちる）
- 無限遠：outgoing（逃げる）

この固有値問題が **準正常モード (QNM)** の複素周波数列

$\omega_n=\omega_{R,n}+i\,\omega_{I,n}$

を決定します。

## 1‑2. Schwarzschild と Kerr の代表方程式

背景	マスター方程式	備考
Schwarzschild	Regge–Wheeler（奇パリティ）／Zerilli（偶パリティ）	球面調和で分離
Kerr (回転 BH)	Teukolsky（スピン重み $s=\pm2$ ）	Weyl スカラーで処理

## 2. QNM 量子化 ―― Hod から Maggiore へ

手順	Hod (1998)	Maggiore (2008)
採用する周波数	実部 $\omega_R$	固有角振動数 $\displaystyle \omega_0=\sqrt{\omega_R^2+\omega_I^2}$
質量量子	$\Delta M=\hbar\omega_R$	$\Delta M=\hbar\omega_0$
BH 第1法則	$\Delta M=\frac{\kappa}{8\pi}\,\Delta A$	同左
面積量子	$\boxed{\Delta A=4\ln3\,\ell_P^{2}}$	$\boxed{\Delta A=8\pi\,\ell_P^{2}}$

> ポイント
> Maggiore の改訂で半古典系（ベケンシュタインの断熱不変量・位相空間量子化など）と **係数 8π** で揃う。

## 3. 観測状況（2025 年夏時点）

項目	結果	コメント
支配的モード ( $\ell=m=2,\;n=0$ )	Kerr 予測と誤差 ≲ 20 %	一般相対論は堅守
副次モード ( $n=1$ 等)	イベント GW190521 で 2 モード同定	データ増加中
等間隔スペクトル	S/N 不足で未検証	“量子ラダー” まだ見えず
面積量子 $\Delta A \approx 8\pi\,\ell_P^{2}$ ?	上限 $\Delta A \gtrsim 10^{3}\text{–}10^{5}\,\ell_P^{2}$	否定も確証も不可

> **現状まとめ**
> 面積の “1 段飛び” を直接読むには **3–4 桁の感度向上** が必要。
> **Cosmic Explorer／Einstein Telescope** や宇宙検出器 **LISA** が本命。

## 4. 係数がズレる主な理由

1. **どの周波数を使うか**
Hod は実部のみ、Maggiore は減衰率まで含めた固有角振動数を使用。
2. **正準変数の取り方**
断熱不変量・位相空間量子化でスケールを 8π に正規化するか否か。
3. **LQG のバレーロ–イメレジ係数 $\gamma$ **
面積演算子前の未定パラメータ。エントロピー一致条件で後付け決定。
4. **背景・境界条件依存**
Kerr, (A)dS などを入れるとポテンシャルが変わり係数も微調整される。

## 5. 今後の決着ポイント

第3世代地上検出器（2030 年頃）

同一イベントで ≳ 5 モード分離 → 等間隔性テストへ。

LISA（2030 年代半ば予定）

$10^{6}\text{–}10^{8}\,M_\odot$ 合体で「基本 6 モード＋オーバートーン」分光可との試算。

エコー探索

地平面反射による “エコー” 検出 or 不検出で $\Delta A$ を間接制限。

理論面の整備

Kerr／RN／(A)dS への拡張で 8π が普遍か再検証。

## 6. まとめ

> QNM 量子化は「ブラックホールのベルの余韻」を量子遷移に読み替え
> $\boxed{\Delta A = 8\pi\,\ell_P^{2}}$
> を導く半古典的アイデア。
> 観測は矛盾していないが証明もしていない。
> 決着は次世代の重力波分光学に託されている。

## 参考文献

S. Hod, *Phys. Rev. Lett.* **81**, 4293 (1998)
M. Maggiore, *Phys. Rev. Lett.* **100**, 141301 (2008)
K. D. Kokkotas & B. G. Schmidt, *Living Rev. Relativity* **2**, 2 (1999)
E. Berti *et al.*, *Class. Quantum Grav.* **32**, 243001 (2015)
B. P. Abbott *et al.* (LIGO/Virgo), *Phys. Rev. D* **102**, 124042 (2020)

2024-01-28

消費の実装

とても興味深い分析。生産労働人口あたりのGDPは日本もその他の先進国も過去30年の推移は変わらない、という単純な計算。… https://t.co/0uxUkEg3bJ
— Yasukane Matsumoto (@Yasukane) 2023年12月3日

www.nber.org

ざっくり言うと、全人口のうち、生産年齢人口がどれくらいかで経済の成長や停滞が説明できるらしい。考えてみれば当たり前で、働く人が多ければ、それだけ多くの商品やサービスが生産され、消費も活発になる。このサイクルが経済成長の原動力となる。

日本は労働人口も、消費人口も減少傾向にあるため、経済は停滞する可能性が高い。この問題に対して最近提案されている一つの解決策は、労働の生産性向上だ。しかし、これだけでは不十分であることが予想される。なぜならば、労働の生産性向上とともにコスパが良い消費活動化も進んでいるからである。消費の向上に対しては、生産性向上社会による恩恵は限定的かもしれない。

ところで、最近のAI技術の進歩は目覚ましく、AIは特定の分野では人間並みにタスクをこなす能力を持ち始めている。これは、AIを仕事に活用することで経済に新たな動力をもたらす可能性を秘めている。しかし、ここで発想を変えて、単にAIを労働力として活用するだけでなく、彼らを「擬似的なヒューマン」として経済システムに組み込むのはどうだろうか。

具体的には、一般市民のAIの使用を制限し、政府管理の下で「雇用」する。もちろん賃金も支給する。さらに、AIには消費活動もしてもらう。例えば、彼らが必要とする電力を購入する形で食事を摂るという設定は面白いのではないだろうか。住居や衣服といった人間の消費品をAIが「購入」することも考えられる。ただし、これには大きな問題点がある。AIによる消費は、現実の資源の単なる破棄に過ぎない可能性がある。無駄遣いは人間に特有の行動とも言えるが、経済システム内での意味合いは異なる。

AIを消費活動の一環に組み込むために、彼らに人間に近い形の口や耳を付けるといった試みも考えられる。しかし、欲望を持たないAIにこれらのインターフェースがあっても意味は薄い。そこで、欲望を植え付けるための装置の導入が必要になるかもしれない。AIが食事として電力を摂取することや住居を確保することは、生存といった基本的な欲望に結びつけられる。服や旅行等は意味が無さそうに思えるが、知識獲得のための学習素材と考えれば、それは知識の獲得という欲望に結び付けることができるかもしれない。

AIをただの労働力ではなく、経済システムの一部として取り込むことで、経済を活性化することはできないだろうか。そしてこれが実現したとき、人間の労働や消費の本質的な意味が問い直されるに違いない。人間とはいったい何なのか。少なくとも、我々はどこから来たのか、我々は何者か、我々はどこへ行くのか、それらを問い続ける存在であることは確かだ。

2024-01-28

第二次LLMブームに思いを馳せる

第二次LLMブーム？

2023年は大規模言語モデル（LLM）が大きな注目を集めた年でした。特にChatGPTやGoogleのBard、Claude2などのモデルが話題を呼び、GPT-4は大学入試共通テストで高い成績を収めるなど、その優れた性能が示されました。しかし、これらのモデルは医師国家試験合格レベルにはまだ達していないとされています。

ledge.ai

日本国内では、NTTの「tsuzumi」やサイバーエージェントの「CyberAgentLM2-7B」、ストックマークの「Stockmark-13b」など、様々な企業が独自のLLMを開発しています。

www.rd.ntt

www.cyberagent.co.jp

stockmark.co.jp

ドメインに特化したLLMの開発も様々な分野で進められています。例えば、ブルームバーグ社は金融アーカイブを利用して、金融機関向けに特化した大規模言語モデルを構築しています。このモデルは、金融関連のデータや動向を分析し、専門的な情報提供を可能にすることが期待されています。弁護士ドットコムは、あらゆるリーガルデータを学習させたリーガル領域に特化したLLMの開発を進めています。

about.bloomberg.co.jp

prtimes.jp

これらのモデルは特定の業界や日本語のニュアンスに特化したもので、GPT-4には及ばないものの、国産LLMとしてのポテンシャルを持っています。

xrcloud.jp

様々な大規模言語モデル（LLM）が開発されていますが、これらのモデルには、知識が自動的に更新されないという課題があります。既存知識の更新や新知識の注入は、これらのモデルの進化において重要な要素です。主な手法としてファインチューニングやRAG（Retrieval-Augmented Generation）が知られています。最近の研究によれば、RAGはファインチューニングよりも一貫して効果的であるとされていますが、既存知識の更新や新知識の注入に関して確立された方法はまだありません。

arxiv.org

今のブームを第一次LLMブームとすると、既存知識の更新や新知識の注入が容易に行えるLLMの登場は、第二次LLMブームを巻き起こす可能性があります。ファインチューニングやRAGを超えるLLMの追加学習が必要なのは、LLMにとって知識の統合が重要な性質であるからです。

例えば、GPT-4に次のプロンプトを与えます。

靴下が汚れたので、裏返して履き直した

靴が汚れたので裏返して履き直した

この2つの文それぞれのとんちを教えて。

すると、次の回答が得られました。

この２つの文に含まれる「とんち」（日本の伝統的なユーモアや機知）は、物理的な不可能性や非現実性に基づいています。

「靴下が汚れたので、裏返して履き直した」

この文のとんちは、靴下を裏返すことが実際に可能であり、汚れた部分を隠す一時的な解決策として機能するという点にあります。実際には、この方法は不衛生であり、実用的ではありませんが、その独創性と実行可能性にユーモアがあります。

「靴が汚れたので裏返して履き直した」

この文のとんちは、靴を裏返して履くことが物理的に不可能であるという点にあります。靴を裏返して履くことは現実的ではないため、この提案の非現実性がユーモアを生み出しています。実際には不可能な解決策を真剣に提案することに、面白さがあるのです。

両方の文は、日常生活の状況を非現実的または奇妙な方法で解決しようとする点でユーモアを持っています。

この文章を生成するためには、LLMが靴を「理解」している必要があります。もし、LLMが学習した文章をそっくりそのまま引き出しているだけならば、学習データに靴が物理的に裏返せるかどうかを書いた文章を含んでいるはずです。しかし、そのような文章がLLMのパラメータを更新するほどの量だけ学習データに存在するでしょうか。

RAGが行っているのはストアしたデータを、すなわち知識を引き出すことまでではないでしょうか。知識を統合し、靴を裏返して履くことが物理的に不可能であるという「理解」まで到達できないのではないでしょうか。

LLMの用途は主にアイデア出しや文章生成が適切で、検索エンジンのように知識を引き出すことはまだ難しいと考えられています（ソフトバンクＧの孫氏の講演；14分10秒付近）。

www.youtube.com

しかし、将来的にはファインチューニングか何らかの方法で、LLMに追加の知識を「理解」させることができるようになるでしょう。そのとき、LLMは真価を発揮して、様々なデータから物事の本質を「理解」し、我々に新たな知見をもたらすに違いありません。

シンギュラリティはもうすぐ？

シンギュラリティはいつ来るのでしょうか？落合陽一氏は2025年頃と考えています。

www.youtube.com

しかし、GPT4が登場してそろそろ一年が経とうとしていますが、エンジニア界隈以外の世界ではそれほど利用が進んでないと考えられます。

sogyotecho.jp

創業手帳の読者層は、ほとんどの方が起業家や経営者という中で、まずは一体どのくらいの人がChatGPTを使った事があるのかを聞いてみたところ、有効回答数562件のうち371件が「ある」と答え、全体の66％の人が使ったことがあることがわかりました。

起業家や経営者というアクティブな人達でさえ、ChatGPTを使った事があるのか（日常的に使うかではない！）という質問に対し、3割は使ったことがないと回答しているのです。なおさら、ITに詳しくない、興味がない、興味を持つ必要がない人達は使ったことがないでしょう。LLMが世間に浸透するのにはきっかけが必要となるでしょう。

きっかけとなるのは、おそらくAIマネージャーです。AIマネージャーは問いかけに対応するだけでなく、自ら提案をします。AIマネージャーは、朝起きて家を出る前に今日の天気を教えてくれ、前日の消費カロリーに合わせて食事を提案し、会社からの帰り道ではストックが無くなった日用品をドラッグストアで買うように提案してきます。ほとんどの人は、LLMが話しかけてきて初めて、LLMを活用するようになるでしょう。

AIマネージャーはAIエージェントの先にあります。AIエージェントとは、「人が指示を出さなくても、設定したゴールを達成するためにAI自身が自分でやることを考え実行するAI」です。具体的にはAutoGPTや、BabyAGIといった技術で、AI自身の目的の達成に必要なことをタスクリスト化し、順序立ててITツールを使用してタスクを消化していきます。

その仕事、AIエージェントがやっておきました。 ――ChatGPTの次に来る自律型AI革命

作者:西見公宏
技術評論社

Amazon

AIマネージャーは言うならば、AIエージェントに対して、「奉仕する対象の人間の幸福をゴールに設定された、人間をサポートし続けるAI」です。AIマネージャーは対象の人間のライフログや空間情報を取得し、対象の人間が欲していることを推測して、AI自身のタスクに追加し、タスクを実行していきます。このように書くと大仰な感じがしますが、実際は地味な機能の実装から始まると思われます。

位置情報から帰宅中であることを推測してあらかじめエアコンを点ける
冷蔵庫の中身や棚の中身を認識してストックが無いものの購入提案
天気予報で気温が低いことを確認し厚着を提案する

これらの要素は既に実現可能な機能ですが、AIが自発的に対話を通して柔軟に実行するためには高度なLLMが必要になると考えられます。現在のデータから何をすればいいのか、一般的にすべきこととパーソナライズされたことを区別し、実行した結果何が起こるのか予測するといったことは、知識の統合なくしてあり得ません。

シンギュラリティの時代は、LLMが単に問いかけに応えるだけでなく、自ら提案を行い、パーソナルな知識を持ち、それを「理解」するAIマネージャーの登場によって始まるでしょう。この日がいつ来るかは未知ですが、技術の進歩によりその可能性は高まっています。

2023-04-23

Web3.0がやってきた

雑感 AI・人工知能・機械学習・統計学テクノロジー

StableDiffusionやChatGPTが現れたが、これらAIの出現はWeb3.0の到来ではないだろうか。

Web3.0とWeb3は別物
Web3.0を体現した生成AI
次に来るのはWeb4.0？
Web3はどうなるのか
まとめ

Web3.0とWeb3は別物

Web3.0はティム・バーナーズ・リーが1998年頃から提唱していたセマンティックWebのことを指す。

セマンティックWebとは、Webページに記述された内容について、それが何を意味するかを表す「情報についての情報」（メタデータ）を一定の規則に従って付加し、コンピュータシステムによる自律的な情報の収集や加工を可能にする構想。 IT用語辞典 e-Words, "セマンティックWeb 【Semantic Web】," URL

一方でWeb3はEthereumの共同創設者の一人ギャビン・ウッドが提唱した概念である。一言で説明するなら、検索でトップに出てきたSMBC日興証券の用語集が参考になる。

Web3とは、次世代のインターネットを表す言葉で、主にブロックチェーン技術によって実現される分散型ネットワークを指します。 SMBC日興証券, "Web3　（ウェブスリー）," URL

実際はWeb3が指すものは漠然としており、Wikipediaの説明が分かりやすい。

Web3の具体的な構想は人によって異なり、ブルームバーグはこの用語について「漠然としている」と評している。しかしながら、基本的には分散化（英: decentralization、非中央集権・脱中央集権）というアイデアに準拠しており、さまざまな暗号通貨や、非代替性トークン（英: non-fungible token、NFT）などのブロックチェーン技術が組み込まれていることが多い "Web3," Wikipedia, URL.

ただ、ギャビン・ウッドのブログからは、彼が最も重要視していることはゼロトラストではないかと筆者は思う。

Web 3.0, or as might be termed the "post-Snowden" web, is a reimagination of the sorts of things that we already use the Web for, but with a fundamentally different model for the interactions between parties. Information that we assume to be public, we publish. Information that we assume to be agreed, we place on a consensus-ledger. Information that we assume to be private, we keep secret and never reveal. Communication always takes place over encrypted channels and only with pseudonymous identities as endpoints; never with anything traceable (such as IP addresses). In short, we engineer the system to mathematically enforce our prior assumptions, since no government or organisation can reasonably be trusted. Gavin Wood, "ĐApps: What Web 3.0 Looks Like," URL.

Web3.0を体現した生成AI

Web3.0の当時の熱量はもう分からないが、構想としてセマンティックWebがあったようだ。システムが自律的にWebの情報を収集・解釈し、意味的な検索を可能にしたり、システム間でデータ連携したりすることを目標としていたらしい。

ChatGPT等の大規模言語モデルやStableDiffusion等の画像生成モデルを組み合わせた情報検索システム(もはや生成だが)はWeb3.0を体現しているように思える。「Webは1つのデータベースになる」、という構想はWebサイトにメタデータを付けるのではなく、Webクローラーによる情報収集とAIによる学習によって実現した。

今のところ、セマンティックWebが想定していたシステムの相互連携はWeb APIによって行われている。今やAIもWeb APIで提供されている。Web APIの成果はWeb2.0の範疇らしいので、Web3.0のシステム連携は互いのシステムのデータをクロールし合うシステムになるのかもしれない。

そう考えると、検索エンジンと生成AIは対立構造にあるのではなく、セマンティックWebという一つの括りであると考えられる。これらの技術を牽引するビッグテックが引き続き覇権を握るのかもしれない。

次に来るのはWeb4.0？

順当に考えると、次に来るのはWeb4.0ではないだろうか。インターネットで検索するとWeb4.0という用語も氾濫していて何が何やらだが、2000年代の予測資料(もはやブログくらいしか出てこないが)をいくつか見ると、人工知能（HAL 9000のようなパーソナルインテリジェント）の構想は共通しているようだ。

人間とWebを仲介するエージェントの実現には、現実世界の情報化と自律的AIが不可欠だろう。AGIの研究に向けた議論も動き出しているようだ。現実世界のデータ収集はIoTが担っていたが、収集したデータの統合やスマートグラス等を活用した人間の感覚器のデータ化はあまり進んでいないように思う。Web4.0の実現にはハードウェアの進化が必要だとすると、まだ未来のことなのかもしれない。

Web3はどうなるのか

ではWeb3はどうなるのか。非中央集権化というテーマは非常に大きな課題だ。ビッグテックのプラットフォームが仕様を1つ変えるたびに慌てふためく世界というのは健全ではない。

かと言ってブロックチェーンで出来ることには限界があると筆者は思う。トークンエコノミーを利用した福祉領域のルールデザインおよびセキュリティ領域等でのブロックチェーン活用の可能性は残るが、注目されているのは投機システムばかりで、これは暗号資産同様規制の対象になるだろう。

私達が考えるべくは、私達のシステムをいかにビッグテックから解放するかということである。

例えばシステムの受益者が集まって、システムの開発運用を共同運営することが考えられる。具体的には、Uber Eatsがシステムを停止しても平気なように、ドライバー達で共同で「Open Uber Eats」なるものを構築するといった具合である。このような、ある種のパブリックなシステム運用を実現できるかが問題になると考えられる。

Web3関連技術としてメタバースにも触れておく（全く関係ないと怒られるかもしれないが）。メタバース技術をWeb3.0にアラインするなら、現実のシミュレーターとして活用するのが良いのではないか。アラン・ケイの「ユーザー・イリュージョン*1」と類するユーザーインターフェースとしての可能性を追求したほうが筋が良さそうに思える。現実との接続を踏まえるとVRよりもARのほうが有望ではないだろうか。インターフェースはまさに3D粘土を手でこねるといった、もっと「柔らかい」インターフェースが必要になるだろう。バーチャルろくろはとても良いアイデアではないだろうか。

まとめ

Web3.0のセマンティックWebとその周辺技術が現実になってきた*2。今後出てくるであろうパーソナルインテリジェントも楽しみである。ロックマンエグゼ *3みたいな世界が来るのかもしれない。一方、ロックマンエグゼのストーリーと同じく、ハードウェアの進化が相対的に遅れると、Webと現実の接続はまだまだ先のことになるかもしれない。

Web3という言葉はよく分からないことになっている*4が、スマートコントラクトによる非中央集権化やリソース分担による取引コストの低減は良い傾向だと思う。一方で、NFTのような、全てを投機対象にしようという動きには筆者は懐疑的だ。また、ソフトウェア的なコントラクトの先にある、ハードウェア的な分散、そしてプラットフォームに支配されないようにどうやって受益者負担のシステムを作れるのかといった点が課題になると考える。

*1:アラン・ケイ - Wikipedia

*2:筆者は当時のセマンティックWebの空気感が分からないので、当時に詳しい人はぜひ記事を書いて頂きたい。

*3:ロックマンエグゼアドバンスドコレクション | CAPCOM

*4:Web3の「魂」は何なのか？ – WirelessWire News

2023-04-22

2020年代の大きな物語　〜AIの本格的到来と杞憂の民〜

雑感 AI・人工知能・機械学習・統計学テクノロジー

創作活動は農耕を経て狩猟の世界へ
ホワイトカラー世界の侵略
落合陽一のAI+VC層とAI+BI層
見かけの分散社会
オルタナティブとしてのちきりんのBI
私たちは杞憂の民

創作活動は農耕を経て狩猟の世界へ

StableDiffusionやChatGPTの登場により、創作活動が効率化されつつある。そしてこの進化の延長で、AIが大量の作品を生成できるようになることは想像に難くない。AIが創作活動の根幹を担うようになると、人間の役割は生成のパラメータのチューニングになるだろう。複数のパラメータをAIに与え、大量に作品を生成する。そして、大量に生成された生成物の収穫・選別を行う。したがって創作活動は農業的な世界になる。

さらにAIが進化すると、AIは人間の指示を受けることなく絶えず作品を生成し続けるようになる。人間は良質な作品を生成するAIを探し求めて、AIをハンティングするようになる。もはや創作活動は農業世界、すなわち人間の介入を離れ、自律的な世界になる。その世界では人間はハンターとして、狩猟に勤しむようになる。

ホワイトカラー世界の侵略

創作活動と同様に、ホワイトカラーがやっている仕事もAIが出来るようになるだろう。AIによって生産力が飛躍的に増大し、少数の人間とAIで仕事をしたほうが効率が良くなる。資本家は効率よく儲けるために、人間を解雇し、AIに投資するようになる。むしろ人間は資源最適配置問題に組み込まれ、AIの計算によって働き方が最適化されるようになり、すなわち人間がAIに使われるような労働スタイルになる。

そのような社会を人間社会が受け入れられるだろうか。そのような社会では、人間の尊厳が重視されるようになる。例えば、日本には人間中心のAI社会原則があり、1.人間の尊厳が尊重される社会(Dignity)、2.多様な背景を持つ人々が多様な幸せを追求できる社会(Diversity & Inclusion)、3.持続性ある社会(Sustainability)を基本理念としている*1。もしかしたらヨーロッパはAIを禁止してAIによる社会変革を受け入れないかもしれない。または、企業に対して人間を雇うノルマを設定するかもしれない。

落合陽一のAI+VC層とAI+BI層

落合陽一によると*2、AIが発達した社会では、人類はAI+VC（ベンチャーキャピタル）層とAI+BI（ベーシックインカム）層に分かれるという。AI+VC層は先進的な資本家、エンジニア層で、人工知能を活用してイノベーションを推進する。AI+BI層は政府からベーシックインカムを支給され、AIの指導のもと、そこそこ幸せな生活を送る。

これを実現するのはオープンソース的な資本主義だという。資本主義によるプラットフォームのキャピタルゲインの余剰が新たな領域に投資される過程でソースコードが投下され、オープンソースとして新たな技術の源泉となる。そしてプラットフォームもオープンソース技術の取り込みなしでは成り立たない。このように資本主義とオープンソースは切り離せない関係となっている。

オープンソース的な資本主義では、イノベーションが短期間でリセットされゼロベースの競争を余儀なくされるという。オープンソースの共有は共産主義的な平等をもたらすのではなく、むしろ資本主義の極限にいるような、技術イノベーションを目指すスタートアップが多数登場する。しかし、オープンソースによるコモディティ化とプラットフォームによる寡占によってほとんどのスタートアップはシードからシリーズAを突破できず、何度も挑戦を強いられる訳だ。これを支えるインフラとしてBIが導入されるというわけである。

しかし、筆者が思うに、オープンソースだけでは社会を高速に回せない。なぜなら、人間社会を支えるインフラのITは、失敗すると人が死ぬからである。どれだけ技術が進化しても、安全を保証するプロセスのコストがかかる。それには物理世界の実験が必要であり、人件費がかかるため限界費用をゼロにできない。すると企業はそれらの費用を回収するために、フリーライダーを許さず技術をクローズドにしなければならない。

また、落合陽一はブロックチェーンやICOに使用されるトークンを活用して貨幣システムを拡張、評価経済を導入することで、市場を全体最適化できるという。しかし、筆者が思うに、トークンによる市場介入は、同時に通貨価値の不安定さをもたらす。価値が安定しない通貨は日常の暮らしに影響を与え、消費意欲を減退させ、人々をストレスフルにする(一晩寝て起きたら何倍にも何分の一にも価値が変動する通貨で安心して生きていけるだろうか)。

見かけの分散社会

落合陽一の提唱するオープンソースの精神は理解できる。しかし、オープンソースソフトウェアの開発は分散的だろうか。開発は一部のコミッターに委ねられている。また、オープンソースによるシステムを活用している全員がプログラマであるわけではない。システムを利用する人が自分でオープンソースソフトウェア開発にコミットし、システムの運用を維持する〈受益者負担型〉システムは果たして実現可能だろうか。

さらに、落合陽一はトークンによる市場介入や評価経済に期待を抱き過ぎに思える。トークンの不安定性は日常生活に影響を与えるのは間違いないので、法的に規制される可能性が高い。トークンのシステムは非中央集権的だと言うが、分散しているのは計算リソースだけであり、オープンソースソフトウェア開発にコミットしている人や換金所を運営している人間はごく一部である。

もし、オープンソース的な資本主義ではプログラマーのみが競争に乗ることができ、プログラマー以外はBIで慎ましく生きろと切り捨てるのであれば、その考えは社会に受け入れられないだろう。

オルタナティブとしてのちきりんのBI

AI+VC層とAI+BI層に分かれる社会は来ないのだろうか。筆者が思うに、資本主義を乗り越えない限り、投資家は稼いだ余剰を再投資するサイクルが繰り返される。資本家は効率よく儲けるために、AIに資本を集中し、人間は徐々に減らされる。生産性が極限まで向上した世界が来る。

しかし、失業は治安を悪化させ、市中に回る通貨が減ると不景気になる。これを抑制するためにBIが導入される可能性はある。ちきりん*3は、高生産性化した社会では、価値を出していない人は働かないでくれと頼まれる時代が来るという。

だったらそういう人には、今と同じだけの給与を払うので、働くのは止めてもらう――そうするほうが社会全体としてはトクだということになります（図3）。

ベーシックインカム制度を導入したとき、そういう（働くことで社会にマイナスの価値を出している）人の一部でも「働かなくても金がもらえるならオレは働かない！」と考えてくれるなら、社会全体としてはそのほうがトクになります。つまり価値を出していない人は今後、「給与分の金は払うから働かないでくれよ」と頼まれる時代がくるのです。ちきりん, "ベーシックインカムを福祉以外の理由で支持する人たち『自分の時間を取り戻そう』第1章より",ベーシックインカムを福祉以外の理由で支持する人たち | 自分の時間を取り戻そう | ダイヤモンド・オンライン

2023年のAI技術にアラインさせれば、AIを使いこなし、生産性を高く仕事をこなせる人はAI+VC層として生きていくが、そうでない人はAI+BI層として生きていくということだろう。落合陽一の言う、AIが構築した仕組みの中に人間が組み込まれるという世界観を合わせると、人間は中学生くらいで「労働者」としての適性を判断され、働く人と働かなくていい人に選り分けられるような世界になるのではないか。もはやBIは挑戦のためのインフラではなく、階層の固定化に繫がるものになりかねない。

私たちは杞憂の民

ところが、ここまで書いておいてなんだが、筆者はこういった未来予想は当たらず、AIは幻滅期がくると考えている。このような未来予想は得てして人間社会のバックリアクションを考慮しておらず、プローブ的な考察だからである。人間は自分達の幸福を最大化する生き物であり、障害があればルールを変えてしまう生き物であることを皆忘れている。

東浩紀の論文*4にもあるが、技術でなんでもかんでもうまくいくわけではない。コロナだってほとんどうまく対処できず、精々リモートワーク環境とUber Eatsが整ったくらいだ。オープンソース活動をきっかけに開発された新型コロナウイルス対策のスマートフォン向けの接触確認アプリ「COCOA」のAndroid バージョンは4ヶ月の間通知機能が動作していなかった。

xtech.nikkei.com

そういえばAIの顔検出と組み合わせた体温を測る装置はどれくらい正確なのだろうか。なんだか様々な場所で導入されていたが、精度に関する疑義はほとんど出なかったように思う。あれもほとんどおまじないだと思う。

結局、StableDiffusionやChatGPTが登場したものの、一部の職業の一部の働き方が変わるだけで、世界は急激に変化しない。特にBI議論のような、ユートピアだとかディストピアだとかいった議論は地に足がついていないSF的議論だということを心に留め置く必要がある。

コロナ禍が終息しつつある2020年代は再びAI技術礼賛の大きな物語に包み込まれつつある。しかし、私達は技術に根拠のない期待や失望をする杞憂の民になるのではなく、目の前の小さなイシューに地道に取り組むべきである。

以前人類学に関する対談動画を見ていたのだが、この中で最も重要だと感じたのは、「研究が進んで過去の定説が塗り替えられたとき、我々はどうして今までそのように考えていたのかを振り返るフェーズが来る」という話である。AIに関する未来予想も時が経れば、どうしてこんな予想をしたのか、という振り返りをする時が来る。そしてなんと根拠薄弱な予想をしていたのだろうと思い知るのだ。

newspicks.com

*1:内閣府, "人間中心のＡＩ社会原則会議", https://www8.cao.go.jp/cstp/ai/ningen/ningen.html

*2:落合陽一, "デジタルネイチャー　生態系を為す汎神化した計算機による侘と寂, " PLANETS/第二次惑星開発委員会, (2018/6/15).

*3:ちきりん - Wikipedia

*4:東浩紀, "ハラリと落合陽一　シンギュラリティ批判", 文藝春秋, 2022年5月号.

2023-04-21

画像生成AIと文章生成AIの比較および人間の知覚システムに対する仮説

雑感 AI・人工知能・機械学習・統計学テクノロジー

2022年7月に画像生成AIの大きな動きがありました。米国企業のMidjourney, Inc.がMidjourneyを公開し、研究者でない一般人も画像生成AIを試すことができました。その後すぐ、英国のスタートアップのStability.AIがStableDiffusionを無料配布し、一気に画像生成のブームが来ました。画像生成AIは2015年のDiffusion Models*1をベースとしています。

一方、2022年12月にはAIを研究する非営利団体のOpenAIが文章生成AIのChatGPTを発表しました。ChatGPTのテスト版が一般公開され、またたく間にユーザー数は100万人を超えました。ChatGPTは対話のみならず文章の編集やプログラミング、Linuxシステムのエミュレート等を実行でき、その非常に汎用的な能力が話題となりました。ChatGPTはOpenAIが2018年に公開した大規模言語モデルGPT-1*2をベースにしています。さらにGPT-1は2017年に発表された、翻訳やテキスト要約等のタスクのためのモデルTransformer*3をベースにしています。

ところで、画像生成AIはDiffusion Modelsをベースとし、文章生成AIはTransformerのデコーダーをベースにしています。この違いはどこから生じるのでしょうか。また、人間の知覚システムと比較したとき、AIと異なる点は何でしょうか。本記事では画像生成AIと文章生成AIの比較をしながら、人間の知覚システムの考察へ接続を試みたいと思います。

モデルの構造の比較
Diffusion Modelsによる文章生成
人間の知覚システムに対する仮説
伝達エラーと解釈の余地
まとめ
その他参考図書

モデルの構造の比較

簡単にそれぞれのモデルのおさらいにしましょう。

Diffusion Modelsは上図のような構造をしていました。Forwardプロセスは、タイムステップを進むにつれて微小なノイズをかけていくプロセスです。このプロセスはノイズをかけるだけなので、モデルの学習は行われません。Reverseプロセスはノイズ画像から元の画像を復元するプロセスです。学習時はノイズをかけた画像から元の画像を復元するように学習します。デプロイ時は完全なノイズから画像を生成します。

GPT-1、すなわちTransformerのデコーダーは上図のような構造をしていました。一番下に並ぶ $y_i$ は入力する文章のそれぞれの単語です。添字は単語の順番を表します。タイムステップとも呼びます。BOSは特殊な単語で、文章生成のきっかけとなる文頭を表す記号の単語です。 $\boldsymbol{x}_i$ は埋め込み器で変換された単語のベクトル表現です。上付きの添字は層を表します。 $\boldsymbol{h}_i$ は特徴抽出器で変換された特徴ベクトルです。一番上に並ぶ $y_i$ は予測した単語です。学習時は入力文章を1単語ずらしたものを出力文章となるように学習します。デプロイ時は続きを予測したい文章を入力し、続きの文章を生成します。

Diffusion Modelsを実装したことがある人は知っていますが、Diffusion Modelsの学習では完全なノイズ画像からの復元のみを行っているわけではありません。

上図はDiffusion Modelsの学習で使用するデータのポンチ絵です。Diffusion Modelsの学習では、ノイズの強さを表すタイムステップ $t$ を様々に選び、様々なノイズ画像に対して元の画像を復元するように学習します。Diffusion Modelsを関数だと思うと、ノイズを予測する機能は $\boldsymbol{x}_0'=f( \boldsymbol{x}_t, t)$ のように、ノイズ画像とタイムステップを入力します。Diffusion Modelsのニューラルネットワークはタイムステップ $t$ に応じて除去するノイズのレベルを制御します。タイムステップごとにモデルがあるのではありません。

完全なノイズから画像を生成するプロセスでは、ノイズ画像から段々と大まかな画像が現れ、最後の方のステップで細かいディテールが追加されます。これを1つのニューラルネットワークで行います。除去するノイズのレベルはタイムステップ $t$ で制御されます。このタイムステップによる制御によって、モデルは低周波（画像の大規模な構造）から高周波（画像のディテール）へと効果的に画像を生成します。

さらに発展的な話をすると、Diffusion Modelsの拡散過程は階層型のVariational Autoencoder (VAE) *4 を具体的に実現したものと考えることができます*5。Diffusion ModelsはForwardプロセスが学習パラメータを持たなかったり、潜在変数（ノイズ画像）が標準ガウス分布に従うため情報を持たなかったりとAutoencoderと異なる点もありますが、潜在変数（ノイズ画像）から画像を生成する点ではAutoencoderと共通しています。

余談ですが、Diffusion ModelsはDenoising Autoencoder *6にも類似しています。また、Diffusion ModelsのニューラルネットワークにはU-Net*7が使用されており、これ自体が残差接続を持つAutoencoder*8とみなせます。Diffusion Modelsは様々な点でAutoencoderと関係があるモデルとなっています。

自然言語における「低周波」と「高周波」はなんでしょうか。「低周波」は文章の大規模な構造、すなわち文脈や意味を指し、「高周波」は具体的な単語を指すと考えられます*9。上図は自然言語モデルの時系列特徴量に対して、ハイパスフィルタとローパスフィルタをかけ、どの成分がどのような予測に寄与しているかを調べたものです。ローパスフィルタされた特徴量は文章のトピックを当てるのに長けており、ハイパスフィルタされた特徴量は品詞タグ付け等に長けています。

自然言語を処理するGPT-1には、「低周波」と「高周波」を制御するようなパラメータがありません。したがって、GPT-1のニューラルネットワークは層ごとに「低周波」と「高周波」の情報を処理するように役割分担していると筆者は考えます。これはまるでAutoencoderのようです。

元々自然言語の生成モデルはAutoencoderの要素を取り入れるためにエンコーダーとデコーダーに分けることでボトルネック *10を導入しました。それがなんやかんやあって、GPT-1ではTransformerにあったエンコーダーを取り除き、結局デコーダーのみを使用しています。Diffusion Modelsもボトルネックが不要であったため、生成モデルはデータとマシンリソースがあればボトルネックが無いほうが良いのかもしれません。

Diffusion Modelsによる文章生成

Diffusion Modelsで自然言語を生成できるでしょうか。私たちがパラグラフを書くとき、一般的にはまず核となるコンセプトが決まり、正確な表現や言い回しが決まるのはその後になります。これはDiffusion Modelsが大規模な構造からディテールを構成していくプロセスに向いているように思えます。

文章は離散的なトークン（単語のこと）の列であり、そのままガウシアンノイズをかけることができません。離散的なデータに対するノイズの検討も行われていますが、連続変数に対するサンプリング手法が使い回せない等の制約を受けます。一方、単語を埋め込んだベクトルは連続値になるので、ガウシアンノイズをかけることができます。Diffusion-LM*11では、ガウスベクトルを反復的に単語ベクトルにノイズ除去し、中間潜在変数の列を生成します。中間変数の連続的、階層的な性質により、複雑で制御可能な生成タスクを実行することができています。LD4LG*12では、学習済みのBART*13を単語の埋め込みに利用しています。BARTはBERT*14をseq2seqの形にしたものです。

また類似する手法に音声生成モデルのRiffusion*15があります。これはスペクトログラムをDiffusion Modelsで生成し、音声に逆変換することで、音声を生成します。

しかし、Diffusion Modelsによる言語生成モデルは問題点もあると指摘されています*16。StableDiffusionは23億枚の画像で学習を行っています。一方、ChatGPTは570GBのテキストデータで学習を行っています。Diffusion Modelsは一つのデータに対して複数レベルのノイズをかけたもので学習を行います。これはデータの量よりも学習量が大きくなることを意味しており、画像よりも量が多いテキストでは学習時間が多くなります。さらにChatGPTの推論ステップはたかだかトークン数程度ですが、Diffusion Modelsの推論に必要なステップは1000程度のタイムステップになります。このステップの計算量が効率的かも問題になります。

さて、ここまでは連続値を持つベクトルの議論をしていましたが、自然言語を生成するChatGPTの方には最終層に特別な層がありますね。そうです、分類器があるのです。言語は離散的なトークンの列であるため、低周波な情報を高周波な情報に変換する必要があります*17。分類機では、特徴ベクトルがどのトークンに対応するかの分布を計算します。決定論的なモデルではこの分布からargmax（最大点集合）を取得します。確率的なモデルでは、分布に応じて確率的にサンプリングします。

低周波情報から高周波情報への変換は、例えばOCRのように文字が書いてある画像から文字を読み取るといったことも当てはまります。例えばDiffusion Modelsで文章画像を生成して、OCRモデルで文字を読取るといったことも考えられます。

人間の知覚システムに対する仮説

人間の記憶は低周波情報を重視しているのではないしょうか。私的な経験ですが、大雑把な景色を覚えてることはあっても、ディテールまで覚えていないことが多いです。歴史的出来事も、大体こういう感じの事件があったということは覚えていても、教科書の文章を一言一句覚えてはいません。

記憶術*18の「イメージ記憶」「ストーリー記憶」「場所法」はどれも高周波な情報を低周波な情報に結びつけるメソッドだと思います。筆者は教科書を暗記するとき、単に内容を覚えるのではなく、教科書の最初の方のページで、挿絵の隣のこの辺りにXXが書いてあった、のように低周波の情報と結びつけて覚えているような気がします*19。

こう考えると、人間の知覚システムは低周波情報を重視しているというよりは、主に低周波情報を処理しつつ高周波への変換をアドホックに学習しているという感じでしょうか。

人間は高周波情報の出力も苦手ではないでしょうか。ブログにこういう感じの内容を書きたいと思っても、なかなか言葉が出てこないことが多いです。中学数学で最初に躓いたのは証明問題で、直感的に合同な三角形を文章で説明することはとても難しかった記憶があります。

レタリングは文字を絵として描いているので、低周波情報と高周波情報を結びつける重要な役割を果たしているのかもしれません。普段からPCを使用するようになってタイピングになってから、漢字を書けなくなった気がします。

また、人間はargmax（最大点集合）の処理が苦手ではないでしょうか。筆者は文章作成や穴埋め問題で言葉を選ぶとき、誤った用法の単語を選ぶことがあります。これは、意味が類似した単語の出力確率がほとんど同じであった場合に、argmaxをうまく処理できず迷ってしまうからではないでしょうか。

伝達エラーと解釈の余地

言語によるコミュニケーションはエラーが発生することが多々あります。それは、言葉の曖昧さや、話者と聞き手の理解のズレが原因となります。連続的なベクトルを離散トークンに変換するときに情報が欠落することも、このエラーの一因です。意味や概念のベクトルをトークンに変換することで、元々持っていた意味やニュアンスが失われることがあります。

そもそも、異なる人が同じ単語を思い浮かべたとき、その意味を表すベクトルは同じものになるのでしょうか。単語の意味や印象は言語の習得や個人の経験に依存するので、異なるものになるように思えます。ところが、自然言語処理の研究においては、異なる言語の埋め込みベクトル集合は（直交変換の自由度を除いて）よく一致することが知られています*20。これが異なる人間の言語間にも当てはまるのであれば、異なる人の脳の中の単語ベクトルもほとんど一致すると期待できるのではないでしょうか。

とまれ、人間のコミュニケーションで高周波な言語を使用する以上、微小な伝達エラーが発生します。しかし、それを悪いことと捉えるのではなく、むしろポジティブに捉えることによって、文章の解釈の余地が生まれるという見方もできます。

小説を読んだときに思い浮かべるイメージが違って多様性が生まれたり、過去の哲学者の思想を再解釈して現代に活かしたり、良いか悪いか置いておいて法律を解釈変更してやり過ごしたり、そうやって社会が動いている側面はあると思います。

ChatGPTが普段使いされるようになれば、情報を送る方もChatGPTを使用して情報を生成し、受け取る方もChatGPTを使って要約するかもしれません。しかし、情報を言語に変換してやり取りする以上、エラーは発生すると思われます。もうChatGPTが全部仲介してくれと思うわけです。

近い将来、ブレイン・マシン・インターフェースのようなものが登場し、意味や概念を直接伝えることができるような世界が来るかもしれません。もし、脳と脳を繋げて情報伝達にエラーが起きないようになった場合、それはもはや2つの脳ではなく、1つの脳になったと考えるべきではないでしょうか。ニューラルネットワークも2つのネットワークを1つにつなげた場合、1つのネットワークとして扱います*21。脳が1つになってしまうと、エラーや摩擦が生じないため、知能が発達しないのではないでしょうか。知能の発達を目指さない動物は、本能を満たすことを目的とする最適化マシーンになってしまうのではないでしょうか。

大規模言語モデルを1社が独占して1つのAIを作るという行為は、万能な1つの脳を作るということであり、それを使用する人間を1つの脳に接続するということになります。これによって知性の多様性や創造性が失われ、人間はAIに従う最適化マシーンとして生きることになるのかもしれません。それは、結局、AIは人間の拡張システムではなく、人類補完計画 *22のためのアンチATフィールドなのかもしれないという考えに至ります。

まとめ

これからの技術開発において、私たちはAIの役割とその限界を理解し、適切なバランスを見つけることが重要です。AIと人間が共に協力し、互いの長所を活かすことが求められます。また、異なる人間やAIが持つ多様な知識やアプローチを組み合わせることで、新たな発見や洞察が得られるでしょう。独占的な状況を避け、オープンで競争的な環境を維持することによって、技術や知性の発展に大きく貢献できます。

私たちの目指すべきは、人類補完計画のためのアンチATフィールドではなく、AIと人間が共存し、互いに学び合いながら発展する未来です。

その他参考図書

*1:Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N. & Ganguli, S.. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics. Proceedings of the 32nd International Conference on Machine Learning, in Proceedings of Machine Learning Research 37:2256-2265 Available from https://proceedings.mlr.press/v37/sohl-dickstein15.html.

*2:Radford, Alec and Karthik Narasimhan. “Improving Language Understanding by Generative Pre-Training.” (2018).

*3:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017.

*4:Pinheiro Cinelli, Lucas; et al. (2021). "Variational Autoencoder". Variational Methods for Machine Learning with Applications to Deep Networks. Springer. pp. 111–149.

*5:Calvin Luo, "Understanding Diffusion Models: A Unified Perspective," arXiv: 2208:11970.

*6:Pascal Vincent, Hugo Larochelle, Yoshua Bengio and Pierre-Antoine Manzagol. Extracting and Composing Robust Features with Denoising Autoencoders. Proc. of ICML, 2008.

*7:Olaf Ronneberger, Philipp Fischer, Thomas Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351: 234--241, 2015, available at arXiv:1505.04597 [cs.CV]

*8:Geoffrey E. Hinton; R. R. Salakhutdinov (2006-07-28). “Reducing the Dimensionality of Data with Neural Networks”. Science 313 (5786): 504-507.

*9:Alex Tamkin, Dan Jurafsky, and Noah Goodman. 2020. Language through a prism: a spectral approach for multiscale language representations. In Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS'20). Curran Associates Inc., Red Hook, NY, USA, Article 461, 5492–5504.

*10:What Are “Bottlenecks” in Neural Networks? | Baeldung on Computer Science

*11:X. L. Li, J. Thickstun, I. Gulrajani, P. Liang, and T. B. Hashimoto, "Diffusion-lm improves controllable text generation," arXiv:2205.14217.

*12:Justin Lovelace, Varsha Kishore, Chao Wan, Eliot Shekhtman, Kilian Weinberger, "Latent Diffusion for Language Generation," arXiv:2212.09462.

*13:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7871–7880, Online. Association for Computational Linguistics.

*14:Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv, abs/1810.04805.

*15:Forsgren, Seth and Martiros, Hayk, "Riffusion - Stable diffusion for real-time music generation," 2022, https://riffusion.com/about

*16:Dieleman Sander, "Diffusion language models," 2023, https://sander.ai/2023/01/09/diffusion-language.html, (閲覧日2023/4/15).

*17:ちなみにDiffusion-LMでは連続ベクトルからトークンへの変換は、トークンの埋め込みベクトルとのL2（またはコサイン）類似度でargmax（最大点集合）を取得しています。LD4LGではBARTのデコーダーに分類器が内蔵されています。

*18:記憶術３選｜記憶力世界一の使う3種類のテクニック | 記憶の学校｜実生活で役立つ記憶術が身につく記憶スクール

*19:紙の本の重要性がここにある気がします。

*20:Xing, C., Wang, D., Liu, C., & Lin, Y. (2015). Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation. North American Chapter of the Association for Computational Linguistics.

*21:片方のネットワークを学習するとき、もう片方のネットワークをフリーズすれば2つのネットワークとして扱えそうですが、生体脳に同じことができるでしょうか。

*22:人類補完計画 (じんるいほかんけいかく)とは【ピクシブ百科事典】

実践的なデータ分析に挑むデータサイエンティストのブログ

統計/機械学習/AWSに関する投稿をしていきます

ブラックホールの表面積は量子化される？ ― “8 π” と “4 ln 3” が語る量子重力の現在地

1. はじめに

2. 面積量子化をめぐる 8 つの視点

3. $\Delta A$ をプランク面積で規格化すると

4. 係数がズレる 6 つの理由

5. “8 π” への収束と観測的テスト

6. まとめ

ブラックホール面積は本当に量子化しているのか？──QNM量子化のアイデアと観測状況まとめ

消費の実装

第二次LLMブームに思いを馳せる

第二次LLMブーム？

シンギュラリティはもうすぐ？

Web3.0がやってきた

Web3.0とWeb3は別物

Web3.0を体現した生成AI

次に来るのはWeb4.0？

Web3はどうなるのか

まとめ

2020年代の大きな物語　〜AIの本格的到来と杞憂の民〜

創作活動は農耕を経て狩猟の世界へ

ホワイトカラー世界の侵略

落合陽一のAI+VC層とAI+BI層

見かけの分散社会

オルタナティブとしてのちきりんのBI

私たちは杞憂の民

画像生成AIと文章生成AIの比較および人間の知覚システムに対する仮説

モデルの構造の比較

Diffusion Modelsによる文章生成

人間の知覚システムに対する仮説

伝達エラーと解釈の余地

まとめ

その他参考図書

1. はじめに

2. 面積量子化をめぐる 8 つの視点

3. をプランク面積で規格化すると

4. 係数がズレる 6 つの理由

5. “8 π” への収束と観測的テスト

6. まとめ

第二次LLMブーム？

シンギュラリティはもうすぐ？

Web3.0とWeb3は別物

Web3.0を体現した生成AI

次に来るのはWeb4.0？

Web3はどうなるのか

まとめ

創作活動は農耕を経て狩猟の世界へ

ホワイトカラー世界の侵略

落合陽一のAI+VC層とAI+BI層

見かけの分散社会

オルタナティブとしてのちきりんのBI

私たちは杞憂の民

モデルの構造の比較

Diffusion Modelsによる文章生成

人間の知覚システムに対する仮説

伝達エラーと解釈の余地

まとめ

その他参考図書

3. $\Delta A$ をプランク面積で規格化すると

5. “8 π” への収束と観測的テスト