産婦人科超音波と人工知能（機械学習とディープラーニング）

こんにちは。

今回は、産科超音波診断と人工知能についてのお話です。

理事長もAIを使って、赤ちゃんの頭を計測できないか、といろいろ試したことがあるのですが、結局、資金がなくってほとんど使い物にならずに終わってしいました。

胎児の推定体重をだしたり、在胎週数を推定するのに、赤ちゃんの体の一部を計測することがあります。

超音波の手技は、慣れてしまえば簡単なのですが、慣れるまでに時間がかかる、という難点があります。

特に、胎児計測をする場合、どこでも好きなところを計測すればいい、というものでもないので、正確に計測断面を描出するだけの技量が必要になってきます。

ホンジュラスやシエラレオネなどの国で産科超音波を指導した経験からすると、この胎児計測というのができないことが多い。

自分の研修医時代を思い出してみると、できるようなるまで先輩の先生にオンザジョブで指導してもらっていました。日本であれば、エコーをさわったことのない産婦人科の先生は少ないと思いますが、途上国でエコーが使える医師を探すのは一苦労です。

それで、まったくの素人でも簡単に産科超音波を習得できるな方法はないかと思って、頭を計測する簡易方法をホンジュラスで試してみたり、e-learinigを導入してみたりしました。それらの活動の報告は、以前のブログでもご紹介しています。

このAIによる超音波診断の恩恵は、先進国よりも途上国で大きいと思われます。

現在のところ研究が進んでいる産婦人科超音波でのAI応用としては、プローブの使い方をガイドする、胎児計測、胎児奇形のスクリーニング、奇形があったところをハイライトする、卵巣嚢腫の分類、新型コロナウイルス感染した妊産婦の肺野エコー、などです。

今回ご紹介するのは、２０２０年１０月の Ultrasound in Obstetrics and Gynecology に掲載された、人工知能を産科超音波診断に応用した研究論文２本です。

一つは、イスライエルでの研究で、人工知能（機械学習）を用いて、肩甲難産（分娩のときに赤ちゃんの肩がひっかかって産道から出てこれない状態）のリスクを評価するもの、そしてもう一つは、中国からの研究で、人工知能（ディープラーニング）を用いて、胎児の頭蓋内構造奇形を診断するもの、です。

さて、みなさんは機械学習とディープラーニングの区別をご存知でしょうか？

ちなみに理事長は、人工知能も機械学習もディープラーニングもすべて一緒だと思っていました。。汗

全体像は、人工知能＞機械学習＞ディープラーニング、といった関係みたいです。

人工知能AIは機械学習を含み、機械学習はディープラーニングを含みます。

機械学習は、さらに教師あり、教師なし、強化学習、と３つに区別されるみたいですが、もう理事長の理解を超えていますので、この先は深入りしません。

ざっくり言うと、機械学習というのはすでにあらかじめ人間が注目すべきデータを与えておいて、それぞれの規則性と関連性を機械が学習していくもの、と理事長は理解しました。

そして、ディープラーンングは結果を出すために、そもそもどこに注目するのか（データ）ということすら、機械が自分で判断して学習していくもの、ということみたいです。人工知能で使用されるのは、Convolutional Neural Networkというアルゴリズムを使用するのですが、ディープラーングでは、これが何層にもわたって構築されており、なぜコンピュータが特定の結論にいたったかという論理はもう人間にはわからなくなっています。いわゆるブラックボックスです。

と、理事長なりの理解を書きましたが、かなりいい加減な説明なので、もしどなたか詳しい方がいたら、理事長に解説してください。。お願いします。。。

さて、今回の論文ですが、一つ目は機械学習を利用して、肩甲難産のリスクを評価した、という内容です（こちら）。

まず機械学習によるモデル構築に使用したのは、イスラエルのテルアビブ大学付属病院で入手可能だった、２０１１年から２０１８年までのデータを使用しています。１３１人分の肩甲難産症例と５５５人の通常分娩のデータを教師データとして採用しています。その後のモデルの検証はアメリカのカリフォルニア大学の病院データ（肩甲難産３１人、２５５３人分の正常産）を使用しています。

機械学習したモデルで使用したパラメーターは、母体年齢、分娩時週数、母体の身長、体重、肩甲難産の既往、それから胎児推定体重（修正後）、妊娠前からの糖尿病、妊娠糖尿病など１８個です。これらを機械学習で覚えさせて、アメリカの大学病院で、どれだけ正確に予測できるか、を検討しています。

結果は、今回の機械学習で得られたモデルは、従来の胎児の推定体重と母体糖尿病による予測よりも、肩甲難産の発生予測精度が高かったと報告しています(AUC = 0.866 vs 0.784, P = 0.00007)。さらに、出生後の体重が４kg以上の赤ちゃんを分娩した症例２７３人に絞って検討してみても、実は推定体重は予測にほとんど役に立たず(AUC = 0.548)、今回のモデルのほうのほうがより正確に予測できた、としています(0.775, P = 0.0002)。

面白いのは、実は妊娠糖尿病と診断されているだけでは、ほとんど肩甲難産発症の予測に役立たなかった、とのこと。

従来は、肩甲難産になりそうかどうかは、胎児の推定体重と糖尿病の有無が大きな要因でした。

昔理事長が研修医だったころ、先輩の産婦人科の先生が外来で、「うん、この人は帝王切開にしよう」とか「いや、経膣分娩でいきましょう」とか判断しているのをみて、すげーなー、とよく思ったもんです。

おそらく先輩医師の頭の中では、パラメーターとして、今回の研究で使っているような因子１８個を考慮して判断していたのだろうと思うのですが、その思考過程や判断理由を教えてもらたことはなく、職人技みたいなところがありました（みて覚えろ！てきな。。。）。

今回の研究結果は、いままで職人技でブラックボックスだった意思決定が、機械学習で１８個の因子を使ったモデルを構築すれば、職人の勘にたよらなくても、だれでもできるようになるかもしれない可能性を示唆しています。

二つ目の論文は、ディープラーニングを使用した研究です（こちら）。

中国の研究チームがディープラーニングを使用して、胎児頭部の超音波画像から頭蓋内構造異常を検出できるかどうか検討しています。

この研究では、２０１０年から２０１８年まで、中国のSunYat-Sen大学付属病院で得られた胎児頭部に異常の見つかった超音波画像１４０４７枚と正常頭部画像１５３７２枚を使用しています。

AIのトレーニングにつかったのが上記画像の約８０％で、残りの２０％の画像を、AIモデルの検証用に使っています。この論文では動画も使っていますが、それらは静止画像をキャプチャして使用しています。ですからこれだけの膨大な画像数になるのですね。

評価項目は、胎児頭部の認識、胎児頭蓋内構造が正常か異常かの判断、そして病変の局在を指摘できるか、です。

結果ですが、胎児の頭蓋内構造認識の正確性は９７．９％でした。正常か異常の判断は、９６．３％の正解率でした。頭蓋内構造異常発見の感度と特異度は、それぞれ９６．９％と９５．９％でROC曲線のAUCは 0.989 (95%CI, 0.986–0.991)でした。

けっこう当たっている、ってことですね。

今回の研究では、AIが頭蓋内超音波画像のどこに注目しているのかをヒートマップを使って画像化しています。AIが注目している超音波画像上の部分が、地図みたいに黄色から赤色に塗られて表示されています。

従来はブラックボックスだった、AIがどこに注目しているのかがわかるようになっている、といった感じでしょうか。

その画像をみてみると、きちんと病変分に注目している割合は、病変が描出されているエコー画像の 61.6% (1535/2491)、おしい！って感じのものは24.6% (614/2491)、まったくとんちんかんなところ見てるなーというのが、13.7% (342/2491)あった、とのことでした。

とんちんかんなところ見ているのに、正解がだせるというのがディープラーニングの恐ろしいところでしょうか。。。

きょうはこのへんで。