シロナガス/星景写真と科学本のブログ

「暮らしの中の星空」=星景写真+サイエンスノンフィクション書評。PENTAX使い。

AI画像生成で遊ぶ

今回は、最近、話題になっているAIによる画像生成を使って、写真について考えてみた記事です。

 

やってみたのは、まず、自分が撮った写真の代替テキスト(alt)をAIによって自動で得て、その代替テキストを画像生成AIにかけて画像を出力するということです。

altの自動生成には、Chromeの機能+PC-Talker neo、画像作成にはStable diffusionを使っています。

huggingface.co

 

自動alt+自動画像生成

この四角の建物と天の川の写真。

この自動生成altは「a close up of a bridge in the night sky」と出ました。

これを元に、画像作成をしてもらったのがこちら。

ああ、なるほど、雰囲気はありますね。

 

次にこの雲の写真を試してみました。

得られた自動生成altは「clouds that look like things Cumulus」。

これを元にした、画像生成を試してみます。

前景に関するテキスト情報が出なかったので、前景はないですが、雲の画像としては、割とちゃんと出てきている。

そして、このユリの写真も試してみました。

自動生成altは「close up of a flower Lily」。なるほど。確かに。

これで得られた画像はこちら。

見事にユリの花ですね。

これは、ほとんど正解と言っていい。(4つ画像が出るはずですが、ひとつは、明らかに百合とは違う花、後の2つはセンシティブな画像になったのか、システム側で表示されませんでした)

 

そして、ここで、もう一回工程を繰り返してみることにしました。

上の自動生成の画像の自動altは、「close-up of a lily flower Lily」、何かLilyが重複しているようですが、これをそのまま、画像生成にかけます。

と、こちら。

色々な百合の花が出ました。

これを、どんどん、繰り返していくと、どこにたどり着くのか面白そうではあるのですが、とりあえず、今回はそこまではしませんでした。

 

最後に、これを、「花しらべ」というiPhoneアプリで、AIによって花の種類を調べてみると、特に3番目の赤い花は、アプリでも「百合(Lily)」と判定が出たので、もう、これはユリですね。

ちゃんと描けている。すごい。

 

写真とは何か

うーむ。

このAIに媒介された画像生成は、写真とは何かということの定義にも踏み込んできますね。

私は、これまで、ある実在を元に、ある装置を用いて、画像として生成されたものは写真と言って差し支えないだろうと考えてきました。

装置の部分は、自動である必要があります。というのは、装置を、人間の技巧に置き換えると、それは絵画になるだろうからです。

人間の技巧によらず、装置が画像を生成する、それは写真だろうと。

 

となると、今回出力した最終画像も、写真と言って差し支えない。

まず、実際のユリの花を私は、カメラ(装置①)で撮ったわけです。

これを、altの自動生成を通してテキスト化(装置②)、さらにそのテキストを画像自動生成AI(装置③)を使い、画像化しています。そして、それを2回繰り返しました。

 

この時、シャッターを押すという行為の後は、私の技巧的な介入はありません。AIによって自動で画像が出力されている。

となると、自動的に現実的実在と何かしらの照応関係にある画像が得られたわけで、それは、定義上写真だといわざるを得ない…と思います。

 

AIというのは、なかなか、すごいと思うのですが、この時、私が撮ったユリの写真をちゃんとユリの写真だと判断してるんですね。

本来、テキストと写真というのは弱い結びつきしかもたない(大体は作者や鑑賞者がテキストを付す)のですが、こうやってAIでテキストが自動生成されると、逆に、その結びつきが強固になってしまう。

大げさに言うならば、AIが写真の何たるかを決めてしまうということですね。

まだ、それほど詳しく代替テキストが出力されていないだけで、これが進んでいけば、結構重大な問題です。

 

しかし、この写真の読みは、どこまでいってもバルトの言うストゥディウム的読みなのかもしれません。ストゥディウムというのは、科学的な、また社会的コンテクストに基づいて写真を客観視するような読み方…ですかね。

バルトは、もう一つの写真の読みをプンクトゥムといって区別しています。これは、理解を超えたところで、見る者の心に、刺さってくるような写真の在り方のことです。
AIが、写真の読みを自動化したとしても、そういうプンクトゥム=コード化できない写真受容に、何かしら人間的な自由が残るとは言えるのかもしれません。

ストゥディウム/プンクトゥム

 

逆に言えば、ストゥディウム的な写真の把握は、今後、AIによって、いつか完全に代替されていくのかもしれません。おそらく、今のこの世界に氾濫する画像群を、一番つぶさに見ているのは、人間ではなく、AIのアルゴリズムでしょうから。

その中に、ストゥディウム的な、説明可能な特徴を読み取っていくことは、むしろAIの得意とするところでしょう。

 

ということは、写真が人間の営みとして残っていくためには、プンクトゥムという、言葉に寄らない把握、しかも偶然に生み出されるものに頼らなければならないのかもしれません。

そして、写真とは、本質的に、まさに言葉には寄らないものであり、偶然性を内在的メカニズムとして宿したものだと思います。

何回か書いていますが、私は、写真が偶然性を持つのは、実在的世界がまさに偶然に充ちていることからだと考えています。実在的世界の偶然性を掬い取るメディウムが写真であると。

 

プンクトゥムな写真。それが偶然生み出されるもの(偶然でしか生み出されないもの)であるならば、撮ろうと思っても撮れないわけですから、とにかく撮り続けていく中で、そして提示し続けていく(プンクトゥムは見る時に起こるので、何らかの形で提示しなければならない)中で、プンクトゥムが生まれる瞬間を待たなければなりません。

という意味で、写真とは、往々にして、未だ来たらぬものの到来を待つ営みなのかもしれませんね。

 

ということでした、ではまた。