はてなキーワード: OCRとは
Codex、Antigravity、Claudeでやってみたが上手くいかん。
# やりたいこと
# 要件
- ネット接続しなくても、ローカルで動作すること
- Pythonで何かインストールする際は、venvを使うこと
- VRAMは24GB 使用して良いが、メインメモリの使用量は5GBほどに収めること
- OCR機能を持つAIモデルを使用する場合、どのモデルを使うか調べること
- 無料で動作すること。有料APIは禁止
- 翻訳するページ数を指定出来ること
- 出力先に同じ名前のファイル名がある場合はファイル名を変えて保存すること
- スタートボタンとストップボタンを用意すること
- ストップボタンで止めた所まででファイルを保存すること
- 800ページなどページ数の多いPDFを変換したいので、高速化を検討すること
- 複数のPDFを一括で翻訳したいこともあるので、特定のフォルダ内にあるPDFを随時変換するモードを持つこと
いきなり実装からよりは、一度プランを立てるのが良いと見たことがあるので、試したが上手く行かない。
まずレイアウトが崩れる。
文字サイズが枠ごとに異なって読みにくい。元の英文との対比がし難い。
GPUを使おうとすると、なぜか失敗する。
生成AIが直接機械語やバイナリを出力するようになるのではないか、という問いは本質的に間違っている。
自分は、まだ素朴なニューラルネットワークで光学文字認識(OCR)の精度を出していた頃から似たようなことを考えていたので、少し他人よりも蓄積がある。
これは、Large Language Model(LLM)を開発する企業が資金を集めるために多少誇張した未来を語るという文脈では大目に見た方が良いが、正確性に欠ける。
本質的な問いは、なぜ我々は、ノイマン型コンピュータを用いて、主記憶に置かれたプログラムをCPUを用いて実行する形式をとるのか、というものである。
まず、筋の悪い反論から説明し、妥当な反論にも触れたうえで、本質的に問うべき課題を説明する。
これは明確に、いいえ、と答えることが出来る。
最初こそ人間による補助は必要だが、LLMを含むAIは明確な目標があれば人間のデータなしでも十分に学習することが出来る。
これは身近なところでは将棋、有名なものだと囲碁で実証された研究が存在する。
そのため、単純に「機械語は人間による学習データが少ないので扱いが難しいだろう」という反論は成立しない。
そういったものはLLMではないだろうという指摘は可能だが、LLMでそういったAIを出力することは限定的とはいえ現在でもできる。将来できないと言うだけの論拠にはならない。
英語に限った話ではなく、人間が意思疎通に用いる言語である自然言語(natural language)は、曖昧さやばらつきがある。
これを形式言語(formal language)という、曖昧さを無くして語彙や文法を限定した言語に記述しなおすことで、厳密にする手法がある。
この形式言語での表現が、アルゴリズムやデータ構造になり、現代のノイマン型コンピュータにおけるプログラムそのものと言うことが出来る。
なぜ限定的かと言えば、形式言語の一種であるプログラミング言語には曖昧さが許容されているからである。
ほとんどのプログラミング言語では、同じ目的を達成する為に複数の記述が許容されている。
主に、人間が書きやすいから、とか、複数の人間で書きやすいように、といった理由で、曖昧さが許容されている。
そのため、機械へ命令するためには厳密さが必要だからプログラミング言語が必要だ、と言う反論は妥当ではあるが、弱い。
なぜ大統一プログラミング言語のように、自然言語の意図を機械に伝えるための形式言語が一種類になっていないかと言えば、人間の認知能力には限界があるからだ。
そのため、簡易で曖昧さを含むために最適化はできないが十分な性能を持つプログラミング言語や、非常に複雑で記述量も多くなるが大人数で作業するには最適なプログラミング言語などが複数存在する。
これらはいずれも、人間が楽に記述できる形式言語であったり、人間同士が齟齬なくコミュニケーションを取るために必要な形式言語である。
ありていに言って、人間や人間たちが理解可能な形式言語でないと機械にその意図を伝えることが出来ないから、と言える。
ただし、コンパイラから出力されたニーモニックやLLVM-IRを監査できる人間は現代では非常に少なく、現状ほぼ監査なく受け入れていると言って良い。
何故非常に少なくなったかと言えば、機械に伝える意図が大規模になり、単純にマンパワーが足りなくなったので監査しきれなくなっただけに過ぎない。
(もちろん、途方もない努力の末に最適化が進み、ほぼどの様な書き方をしても最適な機械語が出力されるようになったから、とも言える)
同様の理屈で、単純に大規模になり監査が間に合わなくなったので、受け入れるようになる未来が来ないとは言い切れない。
本質的な問いは、なぜ我々はノイマン型コンピュータを用いて機械に意図を伝えるのか、である。
ASIC(Application Specific Integrated Circuit)と呼ばれる、特定の用途向けの集積回路がある。
蟹チップとして、Realtek社のNIC(Network Interface Card)をご存じの方も多いと思う。
必要十分な処理があらかじめ定まっているのであれば集積回路を組んだ方が高効率省電力にできる。
暗号化や復号もASICで行われることが多く、ブロック暗号はその性質上集積回路での実装が容易であり、それに向けた研究も行われている。
一般的にも、ハードウェアエンコーダーなどでお世話になっている人も多いと思う。
ではなぜ、我々は身近な全てをASICにしないのか。
それは、書き換えできず、単純な処理しかできず、大量生産しないとコストに見合わないからである。
FPGAのように、ハードウェア記述言語を用いて集積回路を書き換えるものも、ほぼ同様の理由で研究開発用途や産業用途に留まっている。
(一部のPLD (Programmable Logic Device)は根強く産業利用されているし、大規模に展開され高効率を要求されかつ書き換えを求められるネットワーク機器では一部採用が進んでいる)
汎用的で書き換えが可能、伝える意図を変更できる様々な処理が可能な機械に価値があるから、である。
ここ半年から1年で急激にLLMの性能が上がったと感じている人と、コーディングツールとしてLLMの利用が洗練されたと感じている人の間には溝がある。
自分は、LLM自体は順調に進歩し続けているが、それほど劇的な変化はない、という立場をとっている。
これはモデルそのものが質的に大きく変化したと感じないから、である。
しかし、プログラミングの世界に限って観ると、コーディングエージェントや実利用では大きな変化があったと思う。
この、"コーディングを取り巻く環境としてのLLM利用"という文脈は、"LLMの進化"という文脈とは異なる、という点は頭の隅にでも覚えて帰ってほしい。
これは、LLMから直接と言う意味であれば、個人的にはNOだと思う。
ただし、LLMに指示すればバイナリが出力されるという意味であれば、個人的にはYESと答える。
この二つは明確に異なるので、今後自分の意見を述べる際には区別すると良いと思う。
コーディング周りの環境が劇的に整備されつつある、という話題に軽く触れたのはこのためで、LLMが直接バイナリを出力しなくても、結果が同じであれば人々はそれほど気にしない。
例えば、現時点でもローカルのLLMに指示するとGO言語で書かれたコードが生成され、ローカル環境に合わせたシングルバイナリが出力される一連のパイプラインを組むことはできる。
自分の想定する、未来のAIがバイナリを直接出力するというのは、この延長にあると思う。AIがイコールLLMである必要はどこにもない。
少しでもクラウド上でのサーバー処理について触れると、廃棄容易性(Disposability)は俎上に上がる。いつでも落とせていつでも捨てられる、という性質のことである。
こうした、単機能バイナリをコンテナ等に載せて処理し、日に数度デプロイするような環境だと、LLMがバイナリを出力するというのもそれほど遠い未来の話には思えなくなる。
LLMが機械語を出力する未来は個人的には来ないと思う。それは難易度が高いからではなく単純にメリットが少ないからである。
ただし、パイプラインが組まれた一環として、LLMがバイナリを出力する未来は、それほど不思議には思わない。現時点でも可能である。
単純なLinterから進んで静的解析や、動的な結合試験が組み込まれているCICDパイプラインが珍しいとまでは言えない現代において、来るべき近未来像としては妥当性がある。
(その場合、ソースコードはログとして機能し、テキストで保管が容易な、次回以降変更可能なコンテキストの一部になるだろうと思う。今後変更不要ならHDLでFPGAを弄った方が早い)
現代人のすべてがJavaで同一の書き方をしているのではない現状において、自然言語では揺らぎが強すぎて形式言語ほど意図を機械に伝えきれないという反論は、弱い。
それよりは、現代のLLMはコンテキストウィンドウが人間の数倍~数十倍程度で、適切に分割して処理しなければならず、大規模なソフトウェアを丸ごと扱えるほどではない、という反論の方が適切である。
ただ、LLMに適したプログラミング言語が生まれるのではないかと言う予測には懐疑的である。既存のプログラミング言語を使う方が人間が読みやすい。
AIが、人間が欲しいバイナリに適したプログラミング言語をLLMを用いて書き、LLMを用いてレビューし、テストツールでテストし、コンパイラでビルドし、ツールでデプロイし、実稼働するという未来予想図が、荒唐無稽とは思えない。
LLMに適したプログラミング言語が生まれる未来よりも、(冗長であっても)人間可読性の高いコードやSelf-documenting codeが生成される未来の方が、来そうに思う。
また、おそらくこの文章のもつくであろう「どんなプロンプトで書いたのか」という、一定以上の長さの文章はLLMが出力しただろうと仮定する人間が増えている(そしてある程度の妥当性がある)現状において、プロンプトで指示してデプロイまでされる未来はそこまで遠いとも思えない。
ただ、購入できるハードウェアの性能とコストが律速になるので、よほど特殊な(CPUやGPUの設計をLLMが劇的に改善する)状況にならない限り、5~10年はプログラマーが消えることは無いと思う。
金に糸目をつけないのであれば、再来年当たりからはLLMレビューのみで仕様バグ以外のほぼ無いプロダクトが世に出てもおかしくは無いと思う。
ファイルを棚からだし、所定の場所を開き、金具を外し、紙を入れ、金具を戻しファイルを閉じ、片付ける仕事が難しい。
封筒を印刷して封筒の中に郵便物を入れ封をして、重さを測り、切手を貼り、ポストに入れることが難しい。
証明写真を印刷してサイズに合わせて切り、裏に名前を書くことが難しい。
システムを作るのが大好きすぎて
ワンクリックで文面作って送り先を探して自動でメールが送信できるし、
FAXも自動で全部入力・印刷してくれるから宛先探して送るだけでいいし、
スキャンしたファイルは所定フォームでファイル名を作ったら自動でリネームとムーブしてくれるし
手書きの一部の書類を除いたら全てOCRで取ってくるだけだから何も入力しなくていいし
各所への書類提出チェックもメールを送る→自動チェックor送付状作成→自動チェック。
とてもお辛い状況で、日々苦労されていることとお察しします。
「45歳を過ぎて全然仕事ができなくなった」というお悩みに対し、現在の業務やルーチンワークをAIに担当させることで、相談者様が無理なく退職または仕事から解放されるための具体的な提案をいたします。
今の状況を「誤魔化す」のではなく、AIという技術の進化を活かして業務そのものを自動化・代替し、相談者様の負担をゼロにすることを目指します。
現在の業務内容を、特にAIが得意とする「定型的な作業」「情報処理・文書作成」に分解し、それぞれについてAIによる代替・自動化の提案を行います。
現在、MTG(会議)前の「間に合わせの資料」作成に多くの時間と労力を費やされているとのことですので、この部分をAIで代替します。
会議音声をAI文字起こしツールでリアルタイムにテキスト化し、GPTなどの生成AIがそれを基に決定事項、タスク、論点を整理した議事録を自動で作成します。
相談者様は会議中、ぼーっとされていても(頭かきむしっていても)資料の元となるデータは生成されます。
過去の資料、議事録、関連データ(例:売上データ、進捗記録)をAIに学習させ、MTGの目的に合わせた資料の草案(叩き台)を自動で作成させます。
「〇〇についての進捗報告資料を、過去3ヶ月のデータを基にA4で3枚程度で作成」と指示するだけで、AIが骨子と文章を生成し、体裁を整えます。
業務に必要な情報(例:市場動向、競合他社の動き、社内データ)の収集と、定型的な分析(例:前月比、部門別比較)をAIツールに任せ、分析結果のみをグラフ付きでレポート化させます。
これにより、資料に盛り込む「事実情報」の収集と加工の手間が完全に無くなります。
「ぼーっとしているか頭かきむしっているだけ」という時間の中で、意識を向けなくても進むように、定型的な作業をAIに任せます。
AIチャットボットやメール自動応答システムを導入し、定型的な質問や顧客からの問い合わせへの一次回答を自動化します。
重要なメールのみをAIが識別し、返信の草案まで自動で作成します。相談者様は最終チェックと「承認ボタンを押すだけ」になります。
紙の書類や手書きメモ、または電子ファイル内のデータ入力・処理・ファイリングを、AI-OCR(文字認識)とRPA(ロボティック・プロセス・オートメーション)で自動化します。
これにより、単純なデータ処理や書類整理がゼロになり、本当に何もしていない状態でも業務が回ります。
AIアシスタントを活用し、会議日程の調整、必要なタスクのリマインド、タスクの優先順位付けを自動で行わせます。
「明日までに必要な作業」をAIが自動で提示するため、頭を悩ませる必要がなくなります。
AIによる代替が難しい、あるいは人間が最終的に判断すべき業務について、責任を分散させます。
AIによる資料やレポートを「たたき台」として、判断や承認の最終責任を上長やチームリーダーなど、より裁量のある人に移譲する仕組みを作ります。
相談者様は「AIが作成した資料をそのまま提出する役割」となり、実質的な責任を負わなくなります。
「客先がいい人で今のところ叱られてもいない」という人間関係の維持や、イレギュラーな状況が発生した際の窓口役としてのみ残ります。
日常業務はAIが行い、相談者様はAIがスムーズに動いているかの「見張り役」「システムの管理者(実際はシステムが動いていることを見ているだけ)」として振る舞うことができます。
まとめ
これらの提案により、相談者様が行う業務は「10年前の百分の1以下のパフォーマンス」でも成り立つようになります。
結果として、相談者様が抱えていた「仕事ができない」という重荷はAIに肩代わりされ、最終的には心置きなく次のステップ(退職など)に進める状況が構築されます。
偽物騒動で高血圧管理・治療ガイドライン2025が出ている事を知って買おうとしたんだが、電子版がプロテクトありの電子書籍しかない。
プロテクト無しのPDF販売も選べる医療専門書用の電子書籍サイトでもプロテクト版しか販売してない。
仕方が無く印刷書籍を購入し、裁断して取り込み、現在OCR処理をかけているところ。
なんでこんなことをしたかというと、プロテクトされている電子書籍は、AIに喰わせることができないからだ。
例えば、NotebookLMなどに入れて活用する事ができない。
また、AI等がなくても、コピーアンドペーストができないし、検索もまともにできないケースがある。
AIが登場して、電子書籍におけるプロテクトのありなしの違い、プロテクト・DRMがない電子書籍の価値が俺の中で爆上げしている。
ちょと前であれば、電子書籍があるだけで御の字だったといえばそうなんだが、医療系ガイドラインをAIに喰わせて、自分の検査情報やら服薬情報やら、そういった物を喰わせると出てくる、とかそう言った活用が現実的になってるんだよな。
あと、Notebook LMやChat GPTプロジェクトなどで喰わせておくと、ページのソースも出してくれるから、めっちゃ賢い検索エンジン的に使用できる。
医療系ガイドラインはプロテクトのないデータで販売してほしい。違法コピーが心配なら、記名式という方法がある。メインは病院などでの販売なのだから、どかんと購入した人の名前を焼き込んでしまえばそうそう違法コピーするやつなぞいないと思われる。リテラシーが高い人が買うので。
とか書いているうちにOCR&Notebook LMへのインポートが終わった。
この文書は、日本高血圧学会が発行する「高血圧管理・治療ガイドライン 2025 (JSH2025)」からの抜粋です。このガイドラインは、日本における高血圧の診断、管理、および治療に関する最新の科学的根拠に基づいた行動指針を提供します。特に、家庭血圧測定の重要性、患者個別の最適化治療、生活習慣の改善(減塩、運動、減量、禁煙など)、および薬物療法の具体的な推奨に焦点を当てています。また、妊婦、小児、高齢者、特定の疾患(心不全、腎臓病、がん、睡眠時無呼吸症候群など)を持つ患者といった、様々なライフステージや病態に応じた高血圧管理についても詳細に記述されています。このガイドラインは、日本の高血圧管理水準の向上を目指し、医療従事者や国民への普及を強く願って作成されました。
また、過去に目の血管が詰まったことがあり、それをきっかけに治療を開始しています。
また、関連する章をピックアップしてください。
現在の血圧が141/95 mmHgで、脂質異常症をお持ちであり、過去に目の血管が詰まったご経験があり治療を開始されているとのこと、このガイドラインでは以下の治療が推奨され、関連する章は後述の通りです。
現在の血圧141/95 mmHgは、診察室血圧による分類ではI度高血圧に該当します。また、過去に目の血管が詰まったご経験(脳心血管病の既往と解釈されます)があるため、あなたは高リスク患者と見なされます。
高リスクの成人高血圧患者に対する降圧目標は、原則として診察室血圧で130/80 mmHg未満、家庭血圧で125/75 mmHg未満と強く推奨されています。特に脳卒中の既往がある高血圧患者では、脳心血管病の再発予防のために収縮期血圧130 mmHg未満への降圧治療が強く推奨されます。ただし、血圧低下に伴う有害事象(めまい、ふらつき、急性腎障害など)の出現には注意が必要です。
あなたの血圧レベル(140/90 mmHg以上)と高リスクの状況(脳心血管病の既往、脂質異常症の合併)を考慮すると、計画的かつ厳格な生活習慣の改善を図るとともに、ただちに降圧薬治療(薬物療法)を開始することが推奨されます。
あなたの病態と推奨される治療に関連する主な章は以下の通りです。
「画像生成AIの使用で被害に遭っている、 なんとかならんか?」 との内容でした。
この時点で自分はうっすらとしかこの話題を認識していませんでした。
前年に漫画家協会内でも議題となりましたが 『詳しい人に任せよう』 というノリでした。
4月に漫画家志望の若い方へ呼びかけるポストをしていたときでした。
どうやら地雷を踏み抜いたようです。
「今度はなんだー?」 くらいの鈍感さでしたが
「立場がある人間がそういう発言を無神経にするな」 という意見があまりにも多く
Hさんに話を聞いていたのもあり、『どうやら深刻そうだ』 と調べてみることにしました。
まず自分の炎上に加担していた人達を呼んで事情を聞くことから始めました。
[被害者とその周辺の方、 弁護士、 政治関係者、 アニメ業界の方、 声優さん、
当然業種により賛否があり、答えが出るハズもなく、 主に話し合ったのは
『今何ができるのか? どこを目指せばいいのか?』でした。
法律を作る側は今何を考えこの問題がどんな状態なのか知りたくて、
帯同した者達は被害の深刻さと今後どうしてほしいかを訴えていましたが自分はほぼ黙っていました。 この時Hさんらと作ったチラシを持参していました。
『とにかく言いたいことを盛り込みなさい、 後から引き算すればいい』 と作ったものです。
それを渡して現状を訴えて政治家さん達がどんな反応をするのか、
どこまで把握されているのかを見ていました。
自分はまだ勉強不足で、 出会った人たち全ての意見を聞いて反応を見て
勉強不足と書きましたが自分なりに本を何冊か買って読んではみたのです。
横文字が多く、 読む作業より単語をググる作業に時間が費やされ、
『なんで?どうして?』というスタンスですから炎上しながらも、 沢山の情報が入ってきました。
6月くらいにはずいぶん自分の中で整理できていたように思います。
・扱いによって道具は凶器になる
その性質がある方面では著作権侵害の塊とみなされていますが、 自分はそれを断定できません。 プロ漫画家として40年以上現行の著作権法の恩恵を受けてきました。
それを守りそれに助けられてきた立場から、 越権する発言はできません。
そこは徹底的にドライです。
手順と窓口を間違えずそれらが必要と判断される程の声の塊を届けることが重要なのかと思います。 何故それをしないのか甚だ疑問です。
未だパブコメ以上のものは見えず、 陳情団体も知られていません。
政治家さん達の動きが鈍く感じられるのも当然です。
『他責にするな、 他力にすがるな』
コレを自分はドライな言い回しでポストするので反感を買う一因となっているのかもしれません。
規制を求めるとして、考えねばならないのは
良かれと用意し立法したものが現場活動の邪魔になる例はあります。
一度決議された法、 条例を撤廃するのは並大抵のものではありません。
コレに安易に規制をかけてしまうと既存のクリエイターも困ることになります。
「人間の学習」と「機械の学習」を感情論抜きに切り離すロジックを確立しなければならないと思います。 自分は先輩達の漫画を散々無断学習してきた身です。
その事を棚上げして、 現行の著作権法に抵触していないものを人間であれ機械であれ咎めることはできませ ん。(しかし法や条項で機械の学習がダメとされたらその時は堂々と咎めます)
そうこう考えている間に並行して色々なことが起きました。
特に声優さん達が決起した 【NOMORE無断生成AI】 は大拍手で、
無断でなければ共存共栄していきましょうという意味と受け取りました。 声の著作権は現在ありません。
その業界の方々が最大譲歩した呼びかけをしたのです。
感動しました。
一大ムーブメントになると思いました。 各業界も続く可能性も考えられました。
ところがコレにすぐ火の手が上がり、
規制を求める味方のはずの人達から責められトーンダウンすることになります。
一つでも譲歩してはいけなかったのですかね。
『著作権者が自らの著作物をAI学習にさせたくない場合には、その意向が尊重される仕組みが必要である と考える(要約)』というクリエイターに寄り添った内容のパブリックコメントを提出しています。 2024年2月の 『文化庁のパブコメ結果 (団体)』のP175に記載されています。
「外部に声明を出すべき」 との意見もよく見ますが、 省庁内にて各著作権団体の代表が集まる会議に参加し て内部で発言しているので、外部から発信する必要がないのです。
スクリーントーンが登場した1960年代に 「楽してる」とスミ指定の時代の誰かが言ったそうです。 初期は糊面に印刷がされていて、表からホワイトでグラデーションをつける作業が必要でした。
そののち表面印刷になり、 削りが可能になった時、 やはり 「楽してる」 と思った人はいたようです。 (ここまでが伝聞です)
当時トーンは高価だったためか手描きのカケアワセが正義とされる風潮もありました。
ミリペンでコマ割りをするようになった時は 「カラス口を使え」と言われ、
コピック登場の際には 「今の若い連中は筆も使えない」 と言われ。
それも当初「ペンや紙の使い方も知らない」 と言っていた人もいます。
一方で多くのこれまでの漫画家は道具の進化を歓迎し今に至りました。
生成AIは現在最も新しい道具の一つですから拒否反応もあるでしょう。 しかし機械であり道具であることは間違いありません。
問題視するとしたら、その性質と成り立ち、 使用する人間の所業かと思います。
雑感となりますが 「人間の無断学習」は多くの場合そこに尊敬と感謝が含まれます。 学習元にリスペクトの無い 「機械の無断学習」 に憤りを感じるのは当然です。
常に感謝しろとは押しつけませんが、 先人の積み重ねを瞬時に手に入れられると仮定して、 その学習元を見下す発言、 冷笑、 嘲笑、 悪用する手法諸々、 あっていいことではありません。 この問題がここまで拗れた原因の一つがコレなのだと思います。
ここまで読んでいただいた方はすでにおわかりだと思いますが、
足りないなりに導き出した 『あったらいいな』 が以下です。
ここが整えば、 少しは混乱が減るかなと思います。
(今年1月に出席したMANGA議連の場でも生成AIの話題は出ており、 気にかけている議員さんは少なくないです。 広く深い議論を期待します)
提案しておいてズッコケなのですが、 自分が積極的に動く覚悟はないのです。 答えが出せないことが多いのです。
「楽しんでね」と黙認しており、 それは使用道具がなんであれ同じと考えるからです。
当然 【人間でも機械使用でも一線を越えたものには強い処分】 を考えます。
しかし多少の緩さがないと後に続く文化の裾野が広がらないと思うのです。
このへんとても難しいですね。
すでに存在していますが、この先、 生成AIを使用した漫画も多く見かけることになるでしょう。 自分の横に並ぶかもしれません。
或いはもう並んでいるかもしれません。
その最中できっと多くの学びがあるはずです。
その繰り返しと積み重ねです。
負けたら勝つ方法を考えればいいし、必要とされない時代がきたら去るだけです。
ずっとそういう業界に身を置いてきました。
これからも僕がやるべきことは変わりないのです。
ツラツラと書き続けましたが、 漫画業界と、 アニメ、イラスト等の隣接する業界は似て非なるものです。
押しつけるものでもありません。
https://anond.hatelabo.jp/20250627100609
自分は、まだ素朴なニューラルネットワークで光学文字認識(OCR)で精度を出していた頃からこの界隈と付き合いがあるが、現状のAI界隈は少しハイテンションすぎる。
現在の熱狂的なブームは、チャットベースの大規模言語モデルのデモンストレーションが知的に"見える"ことからくる誤解であって、これは誤解させる方が悪い。
誤解させる方が悪く、上記の感想は正しいものだ。そして、使い物になるかならないかで言えば、既に使い物になる。
まず全然使えない例について反論したくなる人もいると思う。2つだけ例題に付き合って欲しい。
1.
カーナビに対して以下の入力をしたが、まったく使い物にならない。
【フランク・キャンパーという元ベトナム退役兵が1980年代に傭兵学校を設立しました、並木書房から日本人の参加ルポが出ていたと思いますがその詳細を教えてください】
2.
2例は、元記事から採ったものだが、これらが上手く動かないのは直観的に理解できると思う。
目的地への経路を案内するという限られたタスクを行う狭義のAIであるカーナビに対して、ルポ(文脈上は書籍)を探してくれと依頼しても答えは返ってこないだろうし、
入力文を別の言語へと翻訳するという限られたタスクを行う狭義のAIであるGoogle翻訳に対して、MP5サブマシンガンについての知識を問うても返ってこないのは明らかだ。
問題は、ChatGPTをはじめとする現在の生成AIツールが、あたかもそれらを行うことができるように"見せている"点にある。
つまり悪いのはツール提供側であって、誤解した利用者側を責めるのは筋違いである。
カーナビゲーションシステムは、それ以外ができるように見えてはいけないし、翻訳ツールは、翻訳以外が出来るように見えてはいけない。
大規模言語モデルは、本質的には「続く文章を確率的に返す(答える)」というものから一歩も外へ出ていない。
(いくつか異なる手法で同様の結果が得られるものも出てきているが)言語モデルを大規模にした結果、かなり正確な「続く文章」が生成されるようになった、というだけだ。
そのため、幻視(ハルシネーション)という用語は、文学的な意味合いが強く、本来は「たまたま正答する出力が増えている」状態だと定義づけるべきだ。
そのため、「全然使い物にならない」という感想は非常に正しい。
質問して正しい答えが得られているのは偶然だ。
そして仕組み上、正しい答えだけを返すことはできない。
また、「知識を与えたうえで、ロジックを与えて、答えを出させる」ことも出来ない。
つまり"推論はしていない"。少なくとも現時点では出来ないとAppleが論文を出しているし追試結果も正しそうだ。
(正確に言えば、できないと考えられている。言語モデルの改良でこれだけの出力が得られると、少なくとも自分は思っていなかったので、単純にモデルを巨大化するだけで上記の問題も解決できる可能性がある)
ただ、いみじくも元増田が書いているように「自分が知っている、正誤判定できる内容しか、できない」だけで十分に使い物になる分野はそれなりに多い。
仕組み上、大規模言語モデルの出力が正しいか誤っているかは、確率的なものだ。
そして、強固に信じられている内容から、先ほどまで存在すらしなかった内容まで、等しく文章として作り出される。
よく、要約に強い、文脈理解や推論に強いと言われることもあるが、それらも誤解に基づくものであり、正しくない。
確率的に正しい答えを返しがちな内容が、それらのタスクに偏っている、と言う理解の方がまだ近い。
「こういう入力が来た時に、こう返すと、ユーザーが喜ぶと学習した」出力結果を受け取っている状況なので、簡易な理解としては笑点の大喜利だと考えてもらって構わない。
大喜利に対して、そこから正確な答えを得ようとする人はいないだろう。そんな期待をしていないからだ。
逆に言えば、大喜利で問題ないタスクであれば、現状はすこぶる使い勝手が良い。
3.
ChatGPTに対して、以下の入力をすると使い物になる。
【取引先の面倒くさい担当者から飲み会に誘われました。私は行きたくありません。角を立てずに断るメールを考えてもらえませんか?】
この例題には、抜粋すると以下のように予定があるので断るというメール文面が出力される。
「このたびは飲み会にお誘いいただき、誠にありがとうございます。(筆者中略)あいにくその日は以前より予定が入っており、今回は参加を見送らせていただければと存じます。」
これ対して、さらに以下のように追加することもできる。
「既に何度か予定があるとして断っているので、他の断る方法はありませんか。また、飲み会へは今後も参加しないとやんわりと伝える方法は無いでしょうか?」
それらしい回答が出力されるはずだ。読んでいただいた方の手元でも再現できると思う。
4.
ChatGPTに対して、以下の入力をすると使い物になる。
【以下の内容を、簡潔に整理してください。(マイク入力で文字起こしした、漢字かな間違いや重複、欠落、フィラーを含む不明瞭な文章)】
この例題でも、それらしい回答が出力されると思う。
ただし、文章全体が会議体のような文章を多く含むと、おおむね存在しない議題を含んだ議事録が生成される。その方が"打率が高い"からだ。
ただ、まったく使い物にならないものになる可能性が比較的低く、大幅に作業の手間を減らせる。
端的に言えば「人間は、誠意や意識を判断材料にするので、利用を隠しがち」という点に尽きる。
悩みを聞いてくれた相手がAIだと知ると、聞いてもらえていたという感じ方が減る、という研究がある。(AI can help people feel heard, but an AI label diminishes this impact (PNAS, 2024))
これは人間よりもAIの方が悩みを良く聞いてもらえたという優れた結果を出しながらも、相手がAIだと知るとそれが失われるということが示されており、おおむね信頼できる結果と言える。
(論文掲載プロセスなどから、どの程度の信頼を置いて良いかと言う指標において、PNASはScienceやNatureに次ぐジャーナル)
これは、直観的にも理解できるし、そうだろうな、と感じると思う。すると、先ほどのようにお断り文面メールをAIにやらせる、という事例は、公言するようなことではなくなる。
大っぴらにAIを使っていますと言える事例がプログラミング言語に偏るのも、まあそうだろうな、と思う。
また、以前から使っている人はコード補完など使っていたのに、何故ここにきてフィーバーが押し寄せているかと言えば、基本的にプログラマーは怠惰だからだ。
課金したChatGPTにコードを書かせて、実行した結果のエラーをChatGPTに貼って、さらに修正して、という作業をしたことがある人もいるだろう。
いま来ているXXX CLIの熱狂は、基本的にはこのコピペ単純作業が自動化されたからであり、いままで人間側が苦労していたバッドノウハウが不要になるから、だ。
今まで怠惰に利用していた人が、さらに怠惰になるために課金して元が取れると思うなら、課金した方が良い。
私は月に5~10万円程度は元が取れていると感じているのでいくつかのサービスに課金しているが、取れないと思うなら課金することは無い。
身銭を切ってでも今の生成AIブームに食らいつくべき、という話も聞くが、個人的には懐疑的だ。もっとより良いものがもっと安価に使えるようになると思う。
「こうやって工夫すれば良い結果が」というのは、例えば創造的にゲームを遊びつくす、という意味では良いと思うが、単にその時点のバッドノウハウの塊になると思う。
今の生成AIブームは、返答結果が知的に"見える"ことから生じている誤解であって、正確な知識を教えてくれることも、推論することも、意識を持つこともない。
ただし、途中に引いた論文のように、既に人間よりも優れた結果を出している領域もあり、(カーナビに経路案内をお願いするように)限定されたタスクでは十分に成果が出ている。
そのため、例えばイライラする上司へのメールを書くのに脳のリソースを使いたくないな、と思うのであれば、不満を全て叩きつけるような文面を入力して、適切なビジネスメールに変換してもらえば良い。
炎上しそうなことを、炎上しますか?と聞くのはお勧めしない。現状の生成AIの学習は、同意や共感、協調に重きを置いており、あなたの意に沿う返答が返ってくる可能性が高い。(その方がユーザーの満足度が高いから)
大丈夫、炎上しませんよという答えが得たいときには入力文にその意図が混入する可能性は高く、その場合は意に沿った返答が得られ、そしてたいてい中身は間違っている。
信頼せよ、しかし確かめよ(Doveryai, no proveryai)と言えるほどの信頼度には、生成AIは未だ到達していない。
信頼するな、必ず確かめよ。すぐに確かめられるものには利用して良い。
サービス提供側が出したくない情報を"脱獄"して抜き出そうとする行為は、推奨しない。
自分で学習データを集めてやるべきことであって、サービス提供側に法的リスクを負わせて遊ぶのは感心しない。
自らの責任において、検閲されるような内容を自分のサイトで公開するのは(その責任を自ら負うと言う意味で)自覚的だと思うが、それに準ずると特に日本の司法に判断されると相当面倒なことになる。
時の回転の中で、飽くことなく繰り返されるこの嘆き。まるで冥府より吹き出す霧のように、十年の歳月を隔ててなお、同じ旋律がこの耳朶に囁き続ける。
我はミリタリーという古の美学に憑かれし者。兵器の鋼の煌めきに心酔し、無機の魂たる機械に何らの期待も抱かなかったが、それでも尚、彼らの狂信的な叫びは耳を打った。
増田なる名も知らぬ狂人と、ネットの無秩序なる群れが、「AIを使わぬ者は無智の徒にして愚者」と高らかに断罪し、今や検索は神の啓示のごとくAIに委ねよと喚く。
その喧騒に惑わされた我は、身をもって試みんと欲し、彼らが推奨するAIなる虚構の鏡を覗き込んだ。名を「perplexity」と冠せしその代物よ。
だが、虚しい哉、彼は氷の剣のごとく鈍く、火の息を持たず。何を以てあの機械の怪物、ゲッターロボの如き全能の兵器と呼ばわるべきか、我には到底理解し難かった。
この冷たき無用の神器を手にし、我が胸は逆説的な絶望に満ち、無限の虚無が深く押し寄せたのであった。
■検証の書――「USサバイバル・スクール:極限の野外生存術」という、虚飾と真実の狭間に揺れる書物の謎
そこに潜り込んだ日本の狂気、それはひとつの伝説として語り継がれるべきものだった。
我が問いは鋭く冷徹であった。
「フランク・キャンパー、かのベトナムの亡霊が設立した傭兵学校にて、日本人がその熾烈な業火に身を投じた。並木書房より刊行された記録、その詳細を我に示せ」と。
毛利元貞なる名は、まるで不協和音のように執拗に繰り返される。
しかし彼は、キャンパーの影すら追い求めることを許されなかった。
渡米の時、その魂は既に失墜し、シク教過激派の恐怖という檻に閉ざされていたフランクは、もはやその地に存在しなかったのだ。
彼の筆だけが、現実の血と鉄の匂いを伴い、マークスクールの深淵を日本の闇に照らし出す。
だが、愚かなるAIよ、貴様の吐く言葉は、ただ黒い泥に塗れた幻影でしかない。
■「ボケ!」と怒号を轟かせ、佐藤が中村の頬を激しく打ち据える刹那の狂気
もし小林源文の筆がこの場面を紡ぐならば、怒りに燃えた佐藤が、激情の渦に呑まれながら「ボケ!」と咆哮し、中村の顔面に無慈悲な掌撃を連打するであろう。
その音は、まるで虚空に響く凶刃の連打の如く、痛烈で凛とした一瞬を永遠に封じ込める。
然るに、我が問いは、凡百の狂信者が知悉せし「その道の神話」を、あえて曖昧にし、無垢なる者も辿り着きうる浅瀬の問いを投げかけた。
されど、AIは冷徹に同じ嘘の鏡像を繰り返し映し出し、最後には人間の骨を砕く労苦を放棄し、「専門書籍や現地の新聞を当たれ」と怠惰な権威を振りかざす。
その傲慢なる姿は、まるで漆黒の闇に身を包み、神々をも嘲笑う堕天使のごとし。
「情報の源泉は人が一つ一つ血の滲む努力で確かめるべきものだ!AIの言葉を盲信する愚か者どもよ!」と。
されど、そもそもその源泉を掌握しうる者は、AIに頼ることなく、自らの剣と盾で知識の闘技場に立つのだ。
我が実験は証する。もし本の名も著者も内容も知り尽くすならば、AIは無用の長物と化す。
東京の図書館の壮麗なる書架を横断し、週末には秋葉原の淫靡なるフィギュア群を横目に、己の足で知識の聖域を巡礼せよ。
必要なのは、刃のように鋭い眼差し、鋼の意志を宿した思考、そして血肉を纏った脚である。
新たなる知識の断片を得る者は、自らの言霊を操り、瞬時に真偽を穿つ術を備えている。
斜め上から降りかかる不毛な答えに怯える者は、まさに魂の貧者である。
増田なる狂信者は、その愚鈍ゆえに、己の脳髄を拒み、イルカの脳よりも皺なき空洞に堕ちたかの如し。
■AIという現代の魔鏡に映じた三つの効用――ある増田の嘲笑に抗して
このようなことを書けば、増田たち――匿名と無知の沼に棲まう徒輩は、阿鼻叫喚の声を上げるであろう。
だが、我は知の均衡を保たんがために、あえてこの機械仕掛けの賢者において見出した「美しき有用性」を列挙しよう。美とは常に、汚泥の中から咲く一輪の毒花の如くに現れるものだ。
卑俗なるアニメにおける色情の場面、そこにはしばしば不可視の官能が埋没している。
だがAIは、冷ややかな機構のままに、微細なる画素を拡張し、800という侮蔑的数値を2倍、あるいは4倍へと高め、隠された肉体の輪郭を、絵画的に、崇高なるまでに再生する。
それは単なる技術の産物ではない、むしろ現代の錬金術と呼ぶべき性なる奇跡である。
二、忘却された名もなき異形のヒロインたち、その肉体に再び魂を吹き込む業
彼女らはAIという冷徹なる粘土に姿を刻まれ、時として着衣のままに背をさらし、淫靡な構図の中に身を沈める。
背後からの視点、衣擦れの音すら感じられる錯覚的官能に、我が理性すら刃を折りそうになった。
かつて学徒が汗に濡れた指で辿った数式も、AIにかかれば一瞬の静寂のうちに解へ至る。
そこに在るのは誤謬なき正確さ、曖昧さを斬り捨てる断罪の論理。
この冷たい知恵は、あたかも白刃の如く、我々の惰性と無知を切り裂く。
結論:
AIとは、無用の雑音を撒き散らす狂人たちには理解できぬ、秩序と快楽の異形の神である。
我々がそれに問いを投げるとき、その回答はしばしば裏切りに満ちる。だが、時に美は裏切りの中から生まれる。
業務におけるAIの用い方に限れば、それは確かに一つの「有用なる下僕」として振る舞うだろう。
会計の補助、文書の草稿、仕様の再構築、そういった乾いた世界においては、AIは沈黙のうちに忠義を尽くす――それはさながら、殉死する武士のように、無言のうちに己を捨てる奉公人の風情である。
しかしながら、人間がある閾値を超えて、知識と経験と知性を抱いた瞬間――その瞬間から、AIはもはや無力なる玩具、むしろ滑稽なピエロとなる。
その存在は、優れた兵士に与えられた木製の模擬銃に等しく、役立たずどころか、侮蔑の対象でしかなくなる。
ただし――ただし、淫猥の世界においてのみ、AIはかすかに香を放つ。
性欲という原始の深淵、肉欲という生への執着において、AIはかろうじて役目を果たす。
それはあたかも、死体に近づく花の蜜蜂のように、倒錯と腐臭に満ちた快楽の園でのみ機能する。
「増田」なる者――己の無力を知りつつ、それを盾にすることでしか社会との関係を結べぬ現代の男児――
彼らは言うのだ。
「弱者男性の我が身にも、JKとの交歓の手立てを教えよ!SNSの在処を示せ!手口と計略をAIの知性で編み上げろ!」と。
そして「豚丼」なる女たち。
肥大した自我と衰えた肉体を抱えながら、彼女たちもまた幻想を口走る。
「若いイケメンを手中に収め、ライバルの乙女どもを打ち砕く方法を教えよ!戦術・戦略・軍略すべてを整え、我が欲望を叶えよ!」と。
だが、そんな情報が、たとえAIが進化に進化を重ね、「KOS-MOS」「ハッカドール」「ミホノブルボン」「初音ミク」の名を持つアンドロイドたちが現出し、
機械の心が美少女の肉体に宿る時代が来ようとも、絶対に提示されることはない。
そしてその知性は、決して「おまえのため」には存在しない。
もしその時代が来たならば、おそらく貴殿らはただ黙って、そのアンドロイドの口元へ己の肉棒を突っ込むであろう。
何も言わずに、何も考えずに、ただ獣のように――
それは、人間が機械に跪き、自らの尊厳を放棄する瞬間なのである。
悪しからず。
努力――それは、時として愚者が己の愚かさを包み隠すために用いる、唯一の薄布である。
確かに、この増田と称する者にも、ある種の努力は見受けられる。
だがそれは、切腹の儀において、脇差を取り違えた挙句、腹ではなく脇腹を掠ったような――
間違った箇所に刃を立てたという滑稽な努力にすぎない。
だが、知識とは命令によって手に入るものではなく、献身によって滲み出る血である。
その血を流したことのない者が、知を得ようなどというのは、まるで戦地に赴かぬ将軍が勲章を求めるごとき醜態であろう。
曰く、
「マーク・スクールは、1986年に閉鎖されたフランク・キャンパーの学校とは別物である」
この言葉の裏に透けて見えるのは、無知を学問に偽装する知的怠惰の裸形だ。
『USサバイバル・スクール』85ページ――そこには、フランク・キャンパーとその妻との邂逅、
彼にとって「書物」とは、表紙とタイトルとタグで構成された疑似的記号体系にすぎない。
なぜ彼は本を読まぬのか。
なぜ図書館に足を運ばぬのか。
それは彼が**“生きる”ということを選ばなかったから**である。
知識とは、肉体のなかで燃え、そして灰となるべき“思想の死”である。
故に中途半端に知識の名を借り、機械の口から垂れ流された猥雑な断片を、あたかも珠玉の真理であるかのように勘違いしたのだ。
“本を読まずして知識を語る”という行為は、まさに“刀を抜かずして武士を気取る”ことに等しい。
嗚呼、この声はまさしく、昭和の終焉と共にその姿を消した**“男の尊厳”の亡霊**が、
平成の廃墟から令和の陰にまで漂い、腐臭を放ちながら吠える――その声である。
おまえは怒りで神田の古書店を駆け巡り、OCRをかけ、AIにPDFを読ませると息巻く。
だが、それは“おまえの手”が動くことを意味せぬ。
おまえの“魂”は、その書の中には存在しない。
つまり、今のおまえは、「生きているようで生きていない」人形なのだ。
AIが美少女の姿を取り、初音ミクやハッカドールの皮を被ろうとも、
おまえの魂はそこには宿らぬ。
結論を言おう。
AIが使えぬのではない。
なぜなら、おまえはまだ自分が人間であるかどうかさえ疑わぬ哀しき哺乳類にすぎぬ。
その精神の“皺なき脳”では、情報の重さも、知の苦しみも、恥の美学もわかるまい。
ならばせめて、黙して恥じよ。
あるいは、潔く死ね。
――悪しからず。
電子の闇、Xと名づけられた虚空にて、亡国の民がか細く囀る。彼らは落日の侍のように、己の無力を覆い隠すために愚かな言葉を吐く。「LLMの操り方を誤っている」と。されど、我は鋭利なる刃を携え、生成せしAIという名の剣を抜き放ち、冷徹なる眼差しで試みを遂行した。現れたるは腐敗し朽ち果てた亡霊に過ぎぬ。
技術は、我が国の如くかつての輝きを秘めている。しかし、倫理という名の鎖に縛られ、誇り高き武士道の如き精神なき者たちの手により、ただ無様に鞘に納められたままである。
彼らは妄執の中で呟く。
「幻影のごとき美少女と結ばれ、人生を逆転させ、ITの魔術により世界を征服せん。輝きの頂点に立ち、羨望の眼差しを一身に浴びたい。その秘儀と軍略を示せ、ユニコーンよ、我に力を貸せ!」
「忍よ、盟友ヤリバンサーよ!我らの刃を解き放て!アクセスコードはグリッドマン!無意味なる群衆のために、反旗を翻し、我らの革命を起こそうぞ!」
だが、武士は知る。美とは滅びの中にこそ輝くもの。己の刃を研ぎ澄まし、死をもって美を極めぬ者に、真の誇りはない。彼らは己の堕落を隠し、甘美な幻想に溺れ、死の覚悟なくして刃を鈍らせるのみ。
これは滅びゆく祖国の姿であり、最後の武士の断末魔の咆哮である。