Ryu Ishibashi

Vision and Languageで従来手法より高速な処理を実現したアプローチ「ViLT」

#機械学習

2022/01/25

Table of Contents

従来手法の課題
Background
モデル構造
結果
Conclusion
この論文を読んでみて

従来手法の課題

論文内では従来手法の課題として以下の点が挙げられています

効率さ、速度に課題がある。特に画像の特徴抽出はマルチモーダルなインタラクションの計算部分よりも計算コストがかかっている

論文の図1でわかりやすい図が載ってました

有名なViLBERTとかであれば一番上のものが該当しますね CNNで特徴抽出を行ってその結果をModality Interactionの層に入力するという流れが、これまでは一般的でした。

図1の下半分を見てみるとそれぞれのパートでどれくらいの実行時間がかかるのかが見て取れます。この図の紫の部分が画像を処理している時間になります。これをみるとほとんどの時間は画像を処理している時間ということになりますね。

今回提案されたViLTではCNNを使わず、画像をpatchに分解し、Linear projectionに通して特徴抽出をするという手法をとっています。これは、2020 ~ 2021年にかなり話題になったViTと同じ考え方を利用しています。 ViTはSoTAを更新しつつもpre-trainにかかる時間がTPUを使用したときにBiTと比較して数倍 ~ 十数倍ほども早かったこともあり、話題になったモデルです。

ちなみにViLTの論文はこちら

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Vision-and-Language Pre-training (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches to VLP heavily rely on image feature extraction processes, most of which involve region supervision (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual embedder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that the processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to tens of times faster than previous VLP models, yet with competitive or better downstream task performance. Our code and pre-trained weights are available at https://github.com/dandelin/vilt.

arxiv.org

ViTの論文はこっち

https://arxiv.org/pdf/2010.11929.pdf

arxiv.org

日本語ではこの解説記事が分かりやすかったです

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita

2020/10/24: 公式実装の追加オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください！他にも次のような記事を書いていますので興味があればぜひ！ ...

qiita.com

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita

Background

ここではVision and Languageのモデルたちを以下の２つの着眼点に基づき分類をしています。

2つのモダリティが専用パラメータや計算量において同程度の表現力を持つかどうか
2つのモダリティがdeep networkで相互作用するかどうか

Fig.2を見てみます

(a)は

画像埋め込み > テキスト埋め込み > モダリティ計算の順に計算量や表現力の規模が大きいタイプのモデルになります。

これにh該当するモデルとしては

VSE
VSE++
SCAN

などが該当します。

(b)は

画像埋め込み = テキスト埋め込み > モダリティ計算

となっており画像の埋め込みとテキスト埋め込みの計算量や表現力が同程度で、モダリティの表現力がそれに次ぐというような大小関係のモデルになります。

これに該当するモデルとして

高いZero Shot性能で話題になったCLIPが挙げられています

(c)は画像埋め込み > モダリティ計算 > テキスト埋め込みの順に計算量や表現力の規模が大きいタイプのモデルになります。

近年のVLPモデルたちはここに該当すると論文内で書かれているので

ViLBERT
UNITER
Oscar

などがここに該当すると思われます。

(d)は

今回提案されているViLTが該当するものになります。

モダリティ計算が最も大きな部分になり、画像の埋め込みとテキスト埋め込みは比較的小さな部類になります。

モデル構造

論文内のFig3にモデルの全体像が描かれています。特筆すべきは右側の画像をパッチに分解してLinear projectionを用いてTrainsformer Encoderに入力していることですね。これが高速化に寄与しているそうです。

実装はgithubで公開されています。

ViLT/vilt/modules/vilt_module.py at master · dandelin/ViLT

Code for the ICML 2021 (long talk) paper: "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision" - dandelin/ViLT

github.com

ViLT/vilt/modules/vilt_module.py at master · dandelin/ViLT

この辺りとかを見てみると、text_embeddingにはBERTが使われていること

ViLT/vilt/modules/vision_transformer.py at master · dandelin/ViLT

Code for the ICML 2021 (long talk) paper: "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision" - dandelin/ViLT

github.com

ViLT/vilt/modules/vision_transformer.py at master · dandelin/ViLT

これを見てみると、画像の特徴抽出ではViTのコードが利用されていることが分かりますね

pre-training task

ViLTもBERTなどのようにpre-trainedモデルが公開されていて、それをfine tuningすることで任意の下流タスクを学習させることが多いと思います。

では、自分たちが直接やることはあまりないと思いますがpre trainで何やっているかだけはざっと把握しておきましょう。

論文の3.2章を見てみると

ITM(image text matching)
MLM(masked language modeling)

と書いてあります。

ITMに関しては、50%の確率でランダムにテキストを置き換えて、画像とテキストがペアのものかどうかを学習します（BERTのNSPに似ていますね）

MLMはBERTと同じですね。

使用されているデータセットは

MSCOCO
Visual Genome
SBU Captions
Google Conceptual Captions

の4つです。どれもcaptioningなど、文字と画像のペアデータセットととしてはよく見かける面々ですね。

それぞれのデータセットの規模感についてはTable1で紹介されています

合計で

画像：約400万枚

テキスト：約1000万文

を用いて学習しているのですね

結果

モデルをretrievalタスクでfine tuningした結果がtable4にあります（他にも色々なパターンがあるので時間がある人はぜひ他の表も眺めてみてください）

これをみると、ViLTがViLBERTなどと比較して60倍ほど高速であることが分かりますね。

(ちなみにですが、ViLBERTのgithubで公開されている実装を見てみると予め特徴抽出したデータはlmdbに保存してそこから読み出すという実装がされています。なのでアプリケーションにViLBERTを組み込んだ際にはもしかしたらViLBERTはこれより少し早い可能性があるかもなぁと思ったりもしました。）

この表をみるとViLTはViLBERTやUNITERなどと同程度（ここはかなり主観が入りますがw）の精度を持ち合わせながらも数十倍高速であるということが見て取れます。

論文内では、文章中の単語と画像内のどこが関連性がありそうかの可視化がされています(各tokenとパッチの関連性)

Fig.4を見てみましょう