Fusic Tech Blog

Fusion of Society, IT and Culture

# 機械学習

2022/07/11

2022年 Image CaptioningのSoTA OFAを試してみる

こんにちは、機械学習チームの石橋です 自分はVision and Languageに関連することをここ1年ほど扱ってきたのですが、Image Captioningの最近はどうなん?とふとおもって調べてみるとOFAなるものが公開されていました。 ...

2022/07/08

ARF を動かしてみる

おはようございます、始めましての人は始めまして。瓦です。 最近見つけた Artistic Radiance Fields という論文 (https:/...

2022/06/13

ViTGAN(新たな画像生成モデル)をPyTorchで実装

ViTGANはVision TransformerとSIRENを使用している敵対的ネットワークです。ディスクリミネータもVision Transformerです。 Kwon...

2022/03/25

Fusic 開発合宿日記 社内スカウターをHololens 2で作ってみた

Fusicでは開発合宿というイベントがあります 今回、苑田くんとペアを組んで参加しました 以前にも、hololensを使ってスカウターチックなものを作りたいと思って取り組ん...

2022/01/25

Vision and Languageで従来手法より高速な処理を実現したアプローチ「ViLT」

近年Vision and Languageのpre-trainedモデルを用いた事例が少しずつ増えてきています。 ViLBERTを皮切りに、OscarやUNITERなど様々なモデルが提案されてきました。 しかし、これらのモデルで画像の特徴抽出では物体検出などを用いており、そこが処理速度におけるボトルネックになっていました。 実際僕もText Image Retri...

2021/12/03

Sagemaker serverless inference を使ってみる

こんにちは、初めましての人は初めまして。機械学習チームの瓦です。 つい先日、...

2021/09/10

簡単に作れるTTSモデル:ESPnetを用いたつくよみちゃんTTSモデル作成

前回「複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について」記事で、ESPnetの特徴を説明し、その再現性・利用性に関して述べました...

2021/09/07

画像と言語を跨いだ機械学習 VLTaskについて

機械学習といえば 画像処理 自然言語処理 に関するところが代表的な分野であり、それぞれ発展してきた分野であります。 一方で、画像に写っている情景を自然言語で説明する文章を生成する(Image Captioning)などは 画像内の被写体 被写体の状態 ...

2021/08/12

AIに顔認識させて似ている顔を探してみる

こんにちは、石橋です。 先月、キックオフミーティングのチーム発表で機械学習チームは面白いデモを開発しました 僕が作ったのはfacenetを用いた社内で似た顔を探すアプリです こう見てみると、確かに似ている人がトップ3に...

2021/08/10

複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について

こんにちは、機械学習チームインターンのハンです。今回は、音声認識や音声合成のような音声処理に特化した、ESPnetというツールキットについて紹介します。2018年ESPnetが公開されてか...

2021/08/03

【論文解説】Implicit Neural Representations with Periodic Activation Functions (SIREN)

機械学習チームインターンのトシュコフです。本記事では、1年前に(2020年6月17日)にVincent Sitzmann らによって発表されたImplicit Neural Repr...

2021/08/02

顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説

こんにちは、機械学習チームの鷲崎です。最近、弊社では、GANに関する技術調査を行っていまして、女性の声を男性の声に変換してみた!CycleGAN VCを用いた...

2021/07/16

StarGANを用いた多者間の音声変換、StarGAN VC(Voice Conversion)の解説

こんにちは、機械学習チームインターンのハンです。前回、CycleGAN VC2を用いた音声変換を行いましたが、今回は、StarG...

2021/07/13

人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!

こんにちは、鷲崎です。最近、精巧な偽画像を作成するディープフェイクによる事件が摘発され、実社会の驚異となってきています。例えば、動画の顔をすり替えることで、偽の演説動画を作成したフェイクニュースや、ポルノ動画に写った人物の顔をアイドルの顔にすり替えるフェイクポルノなどの事件は話題になったかと思います。 このように犯罪用途で何かと注目されるAIによる顔すり替え技術ですが、非常に有...

2021/06/29

女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明

こんにちは、Fusicのインターンに参加したハンです。 私の初投稿の記事になります! 本記事では、ある人の声を別の人の声に変えるSpeech To Speech(STS)について書きました。...

2021/06/25

OCRで画像中の書類から表データを抜き出してみる

こんにちは、機械学習チーム インターンの石山です。 今回、書類中の表データの構造を保持したままデータ化する技術について調査し実装を行ったので記事にまとめたいと思います。 例えば、下図のように、画像中の書類に含まれいる表を右側のExcelのように抽出することを想定しています。 ...

2021/06/21

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!

こんにちは、鷲崎です。とうとう、CVPR 2021が開催されました!弊社でも、CVPRの最新論文で話題になっているものを読み、その結果に驚きを得ています。本記事で紹介する、GANs N' Roses: St...

2021/06/13

【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説

こんにちは、鷲崎です。先日(21年6月6日)、「○○ is Not All You Need」系の論文の系譜であるTabular Data: Deep Learning is Not All You Nee...

2021/06/08

【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説

こんにちは、鷲崎です。 最近、画像処理においてもTransformerが使われてきています。実際のところ分かりませんが、私としては、畳み込み演算はローカルな情報、Transformerは大域的な情報を得意にしているのかなというくらいの認識です。もう少し、Transformerについて知りたいと思い調査していたところ、セマンティックセグメンテーションで軽量で性能も良い...

2021/06/03

動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説

こんにちは、鷲崎です。2020年、新しい3次元空間の表現手法として、Neural Radiance Fields(NeRF)が登場しました。この手法は、下図のように複数の画像からNeRFを学習するこ...

2021/06/03

【論文読み】Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

こんにちは、石橋です。 Facebookから面白い論文が出てきました。 以前、僕はalphafoldに関する記事を書きましたが、 最近は機械学習が生物学へのドメインに転用されて大きな精度向上をもたらしています。 ...

2021/06/01

オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説

こんにちは、鷲崎です。弊社では、スポーツxAIという分野に取り組んでおり、画像分類や物体検出など多くの画像処理タスクを活用しています。今回は、選手の追跡タスクのため複数物体追跡(MOT; Multi Object Tracking)の最新手法に関して、弊社インターンの青木と共に調査しました。 本記事で解説する...

2021/05/31

StyleGAN2で、笑顔・無表情画像の生成を行いました!

こんにちは、Fusicのインターンシップに参加したHUANG BOYUと申します。今回インターンシップで、生成モデルStyleGan2-ADAを用いて、下図のような顔画像から笑顔、無表情の画像を生成するタスクを行いました。本記事では、この手法の解説を行います。 ...

2021/05/11

機械学習の画像系タスクでデータ入出力を整理して確認してみる

こんにちは https://fusic.co.jp/doings/312 以前に弊社広報でこんな記事を出しました 今回の記事ではより実装側によったことを書いてみ...

2021/04/23

Google colabでBERTを使ってライブドアニュースコーパスを多クラス分類をする

こんにちは、今回はライブドアニュースコーパスをBERTを使って多クラス分類する実装をしてみます。 よくよくやられていることなので、ネット上にたくさん似た事例がありますね。 今回は、比較的再利用しやすいような実装を心がけています。 ...