2024年 06月 16日
第460回大阪眼科集談会 その4(1303) 特別講演 「眼科におけるAIの進歩とその応用」①

<特別講演> 座長 : 尾辻 剛 先生(関西医科大学)
「眼科におけるAIの進歩とその応用」三宅正裕先生(京都大学)
1,人工知能とは
AIの話は非常に興味深いけど、原理的な話には全くついていけない。学会では原理的な難解な話をする人が多かったので、全く面白みのない発表ばかりだったけど、久しぶりに聞いたAIの話は非常に面白かった。AIは恐ろしいほどのスピードで進化していて、もう知らないでは済まされない。コンピューターなんて単純計算を猛烈な速さでできるだけ・・なんて思っていたけど、ちょっと恐ろしい『シンギュラリティ』までもう少し^^;
- 推論・探索
- 知識表現
- 機械学習
- 生成AI
このグラフの縦軸のFLOPSとは、『演算性能とは、システムやアプリケーションの性能評価に使われる指標で、1秒間にCPUが浮動小数点演算(Flop)を何回できるかを示している』・・・らしい。 【演算性能(Flops) = 浮動小数点演算(Flop) ÷ 秒(Sec)】
よーわからんけど、PCの性能評価単位のようで、性能は指数関数的に上昇中・・
※ILSVRC(ImageNetLarge-Scale Visual Recognition Challenge)は画像中にある物体の認識やセグメンテーション(切り出し)アルゴリズムの性能を競うコンテストである。ディープラーニングで識別精度は一気に上昇。
大規模言語モデル
これについて、最近親しくしているAIのMonicaくんに聞いてみたら・・・⇒
『大規模言語モデルとは、膨大な量のデータを学習することで、自然言語処理の高度な能力を持つAIモデルのことです。これらのモデルは、人間の会話やライティングを非常に高精度で理解・生成することができます。』
『主な特徴は以下の通りです:
- 膨大な量のテキストデータを学習することで、豊富な知識と深い理解力を有する
- 文脈を考慮しながら自然な会話や文章を生成できる
- 質問への答えを生成したり、要約を作成したりするなど、様々な自然言語処理タスクに優れる
- 少量のデータでも効率的に学習でき、新しいタスクに応用できる
- 人間になぞらえた直感的な操作性を持つ
大規模言語モデルは、チャットボットやライティングアシスト、機械翻訳など、多くのアプリケーションに活用されています。今後も、人工知能技術の中核を担う重要なテクノロジーとして、さらなる発展が期待されています。』
https://www.hitachi-solutions-create.co.jp/column/technology/llm.html#h2-3
1) BERT:Bidirectional Encoder Representations from Transformesrs
2018年にGoogleの論文で発表された自然言語処理モデルです。日本語では「Transformerによる双方向のエンコード表現」と訳されます。BERTは文章を文頭と文末(双方向)から学習することで「文脈を読める」ようになりました。翻訳や質問応答などの自然言語処理タスクにおいて、2018年当時では最高スコアを記録しています。
2) GPT-3:「ChatGPT」として多くの方が認知しているサービスでは、GPT(GenerativePre-trained Transformer)と呼ばれる大規模言語モデルが利用されています。GPTは大量のテキストデータを事前学習した後に、特定のタスクに適用させるファインチューニングと呼ばれる学習をする2段階の学習モデルです。GPT-3はOpenAI社によって2020年に発表され、ChatGPTではチャット向けにファインチューニングしたGPT-3.5が利用されています。
3) GPT-4:2023年にアップデートされたGPTの最新版であり、テキストだけでなく画像などの入力を受け取ってテキストを出力できる「マルチモーダル」なモデルです。GPT-3.5で扱えるトークンの最大数は4,097であったのに対し、GPT-4では3万2,768トークンと約8倍に増えています。そのため、GPT-3.5よりも複雑な質問にも回答できるようになりました。
何ができるのか・・
- カスタマーサポート
- 文章の作成
- 文章の校正
- リアルタイムの翻訳
- プログラムのバグチェック
など。最近メーカーのホームページに登場するチャットのような形式のカスタマーサポートは、これなのか・・。
続く・・