Fusic Tech Blog

Fusicエンジニアによる技術ブログ

#機械学習

2022/11/25
BERT+VATでQAタスクを解いてみた

機械学習チームでインターンをしています橋口です。 今回、BERTにVATを適用したQAタスクを実装したので、記事としてまとめました。 - - - ## **QAタスク** QAタスクは質問に対して解答するタスクです。 そのQAタスクの中でも選択式のQAタスクは、質問文に対してどの選択肢が尤もら...

BERT+VATでQAタスクを解いてみた
2022/09/06
Amazon SageMaker Batch Transform を試してみた。

こんにちは、ハンです。  今回はAWS SageMakerの「Batch Transform」を使ってみたので、簡単に紹介したいと思います。 また、Batch Transformの実装は[SageMaker Example Documents](https://sagemaker-examples.readthedocs.io/en/latest/frameworks/pytorch/get_s...

Amazon SageMaker Batch Transform を試してみた。
2022/08/31
自作の自動作曲サイトで作った曲をMuseMorphoseでアレンジしてみた

※ この記事はインターンの野方君によって書かれた記事です 去年自分が開発した自動作曲サイト(http://dordordo.herokuapp.com/)で生成した曲をMuseMorphoseという機械学習の技術でアレンジしてみました。 自動作曲サイトではコード進行からメロディを生成することができます。人のボーカルに似たメロディを生成できる様に、メロディの滑らかさとコードとの響き方を指定できる...

自作の自動作曲サイトで作った曲をMuseMorphoseでアレンジしてみた
2022/08/19
知識蒸留(Knowledge Distillation)を使ってResNet18をより賢くしてみよう

こんにちは、機械学習チームのハンです。 知識蒸留(KD:Knowledge Distillation)というものが気になり、簡単なResNetモデルで色々実験を行ってみたので紹介したいと思います。 ## Knowledge Distillationとは? **あるモデルが学んだ知識を他のモデルに移す**という概念であり、[Distilling the Knowledge in a Neura...

知識蒸留(Knowledge Distillation)を使ってResNet18をより賢くしてみよう
2022/07/11
2022年 Image CaptioningのSoTA OFAを試してみる

こんにちは、機械学習チームの石橋です 自分はVision and Languageに関連することをここ1年ほど扱ってきたのですが、Image Captioningの最近はどうなん?とふとおもって調べてみるとOFAなるものが公開されていました。 ![](/uploads/screen-shot-2022-07-11-at-16.21.53.png) githubのリポジトリをみてみるとImag...

2022年 Image CaptioningのSoTA OFAを試してみる
2022/07/08
ARF を動かしてみる

おはようございます、始めましての人は始めまして。瓦です。 最近見つけた Artistic Radiance Fields という論文 () がちょっと面白そうだったので、動かしてみただけの記事です。 ざっくりと概要を書くと、**写真から 3D 復元したオブジェクトに対して与えられた画...

ARF を動かしてみる
2022/06/13
ViTGAN(新たな画像生成モデル)をPyTorchで実装

[ViTGAN](https://arxiv.org/pdf/2107.04589v1.pdf)はVision TransformerとSIRENを使用している敵対的ネットワークです。ディスクリミネータもVision Transformerです。 Kwonjoon Lee達の論文の技術的な詳細については、[VITGAN: Training GANs with Vision Transform...

ViTGAN(新たな画像生成モデル)をPyTorchで実装
2022/03/25
Fusic 開発合宿日記 社内スカウターをHololens 2で作ってみた

Fusicでは開発合宿というイベントがあります 今回、[苑田くん](https://fusic.co.jp/members/108)とペアを組んで参加しました 以前にも、hololensを使ってスカウターチックなものを作りたいと思って取り組んだことがあるのですが、Hololensに対する理解と、Unity, C#やMSお作法がわからなすぎてうまくいってませんでした。 そんな中、苑田くんは研究...

Fusic 開発合宿日記 社内スカウターをHololens 2で作ってみた
2022/01/25
Vision and Languageで従来手法より高速な処理を実現したアプローチ「ViLT」

近年Vision and Languageのpre-trainedモデルを用いた事例が少しずつ増えてきています。 ViLBERTを皮切りに、OscarやUNITERなど様々なモデルが提案されてきました。 しかし、これらのモデルで画像の特徴抽出では物体検出などを用いており、そこが処理速度におけるボトルネックになっていました。 実際僕もText Image Retrievalの機能をViLBERT...

Vision and Languageで従来手法より高速な処理を実現したアプローチ「ViLT」
2021/12/03
Sagemaker serverless inference を使ってみる

こんにちは、初めましての人は初めまして。機械学習チームの瓦です。 つい先日、[SageMaker Serverless Inference](https://aws.amazon.com/jp/about-aws/whats-new/2021/12/amazon-sagemaker-serverless-inference/)についての発表がありました。[クラスメソッドさんの記事](http...

Sagemaker serverless inference を使ってみる
2021/09/10
簡単に作れるTTSモデル:ESPnetを用いたつくよみちゃんTTSモデル作成

前回「[複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について](https://tech.fusic.co.jp/posts/2021-08-03-espnet/)」記事で、ESPnetの特徴を説明し、その再現性・利用性に関して述べました。 今回、実際にESPnetを用いて、TTSモデルを作成してみましたが、そのプロセスについて説明していと思います。 ##...

簡単に作れるTTSモデル:ESPnetを用いたつくよみちゃんTTSモデル作成
2021/09/07
画像と言語を跨いだ機械学習 VLTaskについて

機械学習といえば * 画像処理 * 自然言語処理 に関するところが代表的な分野であり、それぞれ発展してきた分野であります。 一方で、画像に写っている情景を自然言語で説明する文章を生成する(Image Captioning)などは * 画像内の被写体 * 被写体の状態 * 状態を説明する文章を構成する といった具合に、画像ドメインだけでも、自然言語ドメインだけでも解けないようなタスクです ...

画像と言語を跨いだ機械学習 VLTaskについて
2021/08/12
AIに顔認識させて似ている顔を探してみる

こんにちは、石橋です。 先月、キックオフミーティングのチーム発表で機械学習チームは面白いデモを開発しました 僕が作ったのはfacenetを用いた社内で似た顔を探すアプリです ![](/uploads/screen-shot-2021-08-12-at-13.53.38.png) こう見てみると、確かに似ている人がトップ3に並んでいる気がしているような気もしますねw ## 手法 ### ...

AIに顔認識させて似ている顔を探してみる
2021/08/10
複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について

こんにちは、機械学習チームインターンのハンです。今回は、音声認識や音声合成のような音声処理に特化した、[ESPnet](https://github.com/espnet/espnet)というツールキットについて紹介します。2018年ESPnetが公開されてから、音声処理タスクがより扱いやすくなり、関連研究が活発的に行われているらしいですが、その特徴やメリットについて説明します。 「ま...

複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について
2021/08/03
【論文解説】Implicit Neural Representations with Periodic Activation Functions (SIREN)

機械学習チームインターンのトシュコフです。本記事では、1年前に(2020年6月17日)にVincent Sitzmann らによって発表された[**Implicit Neural Representations with Periodic Activation Functions**](https://arxiv.org/pdf/2006.09661.pdf)を解説します。 ...

【論文解説】Implicit Neural Representations with Periodic Activation Functions (SIREN)
2021/08/02
顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説

こんにちは、機械学習チームの鷲崎です。最近、弊社では、GANに関する技術調査を行っていまして、[女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明](https://tech.fusic.co.jp/posts/2021-06-29-ml-cycleganvc/) や [GANs N' Roses: Stable, Controllable, Diverse Image...

顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説
2021/07/16
StarGANを用いた多者間の音声変換、StarGAN VC(Voice Conversion)の解説

こんにちは、機械学習チームインターンのハンです。前回、[CycleGAN VC2を用いた音声変換](https://tech.fusic.co.jp/posts/2021-06-29-ml-cycleganvc/)を行いましたが、今回は、[StarGAN VC]()モデルを用いた音声変換の実験を試してみました。 CycleGAN VCモデルは、1対1関係向けのモデルであり、一人の声を他の一人...

StarGANを用いた多者間の音声変換、StarGAN VC(Voice Conversion)の解説
2021/07/13
人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!

こんにちは、鷲崎です。最近、精巧な偽画像を作成するディープフェイクによる事件が摘発され、実社会の驚異となってきています。例えば、動画の顔をすり替えることで、偽の演説動画を作成したフェイクニュースや、ポルノ動画に写った人物の顔をアイドルの顔にすり替えるフェイクポルノなどの事件は話題になったかと思います。 このように犯罪用途で何かと注目されるAIによる顔すり替え技術ですが、非常に有用な技術でもありま...

人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!
2021/06/29
女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明

こんにちは、Fusicのインターンに参加したハンです。 私の初投稿の記事になります! 本記事では、ある人の声を別の人の声に変えるSpeech To Speech(STS)について書きました。[CycleGAN VC2](http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc2/index.html)モデ...

女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明
2021/06/25
OCRで画像中の書類から表データを抜き出してみる

こんにちは、機械学習チーム インターンの石山です。 今回、書類中の表データの構造を保持したままデータ化する技術について調査し実装を行ったので記事にまとめたいと思います。 例えば、下図のように、画像中の書類に含まれいる表を右側のExcelのように抽出することを想定しています。 ![](/uploads/ishiyama-ocr-img1.png) # まえがき 数年前から年々とOCR(光学的...

OCRで画像中の書類から表データを抜き出してみる
2021/06/21
GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!

こんにちは、鷲崎です。とうとう、CVPR 2021が開催されました!弊社でも、CVPRの最新論文で話題になっているものを読み、その結果に驚きを得ています。本記事で紹介する、[GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)](https://arxiv.or...

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!
2021/06/13
【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説

こんにちは、鷲崎です。先日(21年6月6日)、「○○ is Not All You Need」系の論文の系譜である[Tabular Data: Deep Learning is Not All You Need](https://arxiv.org/abs/2106.03253)という研究が発表されました。この研究では、表形式のデータにおいて、XGBoostの精度が深層ニューラルネットワークを上回...

【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説
2021/06/08
【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説

こんにちは、鷲崎です。 最近、画像処理においてもTransformerが使われてきています。実際のところ分かりませんが、私としては、畳み込み演算はローカルな情報、Transformerは大域的な情報を得意にしているのかなというくらいの認識です。もう少し、Transformerについて知りたいと思い調査していたところ、セマンティックセグメンテーションで軽量で性能も良い[SegFormer](htt...

【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説
2021/06/03
動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説

こんにちは、鷲崎です。2020年、新しい3次元空間の表現手法として、[Neural Radiance Fields(NeRF)](https://arxiv.org/abs/2003.08934)が登場しました。この手法は、下図のように複数の画像からNeRFを学習することで、任意の視点(位置と角度)から見えるである画像を表現できるようになります。 ![nerf overview](/upload...

動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説
2021/06/03
【論文読み】Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

こんにちは、石橋です。 Facebookから面白い論文が出てきました。 以前、僕はalphafoldに関する記事を書きましたが、 最近は機械学習が生物学へのドメインに転用されて大きな精度向上をもたらしています。 このAlphaFoldではタンパク質の折り畳みに特化したモデルが提案され...

【論文読み】Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
2021/06/01
オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説

こんにちは、鷲崎です。弊社では、スポーツxAIという分野に取り組んでおり、画像分類や物体検出など多くの画像処理タスクを活用しています。今回は、選手の追跡タスクのため複数物体追跡(MOT; Multi Object Tracking)の最新手法に関して、弊社インターンの青木と共に調査しました。 本記事で解説する[SiamMOT(Siamese Multi Object Tracking)](htt...

オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説
2021/05/31
StyleGAN2で、笑顔・無表情画像の生成を行いました!

こんにちは、Fusicのインターンシップに参加したHUANG BOYUと申します。今回インターンシップで、生成モデルStyleGan2-ADAを用いて、下図のような顔画像から笑顔、無表情の画像を生成するタスクを行いました。本記事では、この手法の解説を行います。 ...

StyleGAN2で、笑顔・無表情画像の生成を行いました!
2021/05/11
機械学習の画像系タスクでデータ入出力を整理して確認してみる

こんにちは 以前に弊社広報でこんな記事を出しました 今回の記事ではより実装側によったことを書いてみようと思います。 上記リンクにもありますが、代表的な画像系のタスクとして * 画像分類 * 物体検出 * セグメンテーション が挙げられると思います。 今回はこれらそれぞれをPyTorchを使って実装して使ってみようと思いま...

機械学習の画像系タスクでデータ入出力を整理して確認してみる
2021/04/23
Google colabでBERTを使ってライブドアニュースコーパスを多クラス分類をする

こんにちは、今回はライブドアニュースコーパスをBERTを使って多クラス分類する実装をしてみます。 よくよくやられていることなので、ネット上にたくさん似た事例がありますね。 今回は、比較的再利用しやすいような実装を心がけています。 https://qiita.com/takubb/items/fd972f0ac3dba909c293 ベースとしてはこちらのコードを参考にさせていただきました。 ...

Google colabでBERTを使ってライブドアニュースコーパスを多クラス分類をする
2021/03/30
wav2vec 2.0を日本語で推論できるようにする

こんにちは、インターンの青木です。この記事では、2020/6/20にFacebook AIより提案された[wav2vec 2.0](https://arxiv.org/abs/2006.11477)を日本語データセット で学習させ、推論までを行いたいと思います。 [git リポジトリ](https://github.com/pytorch/fairseq/tree/master/examples/...

wav2vec 2.0を日本語で推論できるようにする
2021/03/30
Simple Transformersを使ってみた

こんにちは。機械学習チームの佐藤です。テキスト要約のタスクのモデルでMultilingual-T5がありますが、オリジナルリポジトリのTensorFlow版Multilingual-T5だと少々使いづらく感じたので(特にpredictの際に)、今回Simple Transformersを使ってみました。 また今回、Kaggleにて[Simple Transformers T5を使ったノート...

Simple Transformersを使ってみた
2021/03/25
Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた

こんにちは、鷲崎です。最近、畳み込みニューラルネットワーク(CNN)を用いて画像分類や物体検出などの視覚タスクに用いるハードルが低くなり大衆化してきました。一方で、視覚タスクにおける研究の流行は、CNN構造からAttention機構を用いた新しいアーキテクチャの発見などに移り変わってきている気がしています。 本記事で紹介する、[Involution: Inverting the Inherenc...

 Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた
2021/03/24
【論文読み】SQL Injectionと機械学習を用いた検知、防御手法

論文リンク # はじめに 「機械学習✖️セキュリティ」の分野に興味があったけどあまり追えていなかったのでサーベイ論文読んでみました...

【論文読み】SQL Injectionと機械学習を用いた検知、防御手法
2021/03/24
Most-Popular推薦を実装して理解する

# Most-Popular推薦を実装して理解する こんにちは。塚本です。 現在、社内で[推薦システム: 統計的機械学習の理論と実践 | Agarwal, Deepak K., Chen, Bee‐Chung, 直希, 島田, 健志, 大浦 |本 | 通販 | Amazon](https://www.amazon.co.jp/推薦システム-統計的機械学習の理論と実践-Deepak-K-Agarw...

Most-Popular推薦を実装して理解する
2021/03/23
Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来!

こんにちは、鷲崎です。最近、機械学習界隈で、[Attention](https://arxiv.org/abs/1706.03762)が驚くべき成果を上げています。例えば、OpenAIの[DALL・E](https://openai.com/blog/dall-e/)の発表は、恐ろしさを感じるくらい素晴らしいものでした。一昨年前は、自然言語処理にて注目されていたものが、去年は、画像にも適応され驚く...

Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来!
2021/02/25
【論文読み】 Nomalizer-Free ResNets (NFNet) with AGC - EfficientNetの画像認識精度を超えた最新のモデル

こんにちは、鷲崎です。ここ数年、画像認識の分野では、パラメータ数が少なく性能も良い[EfficientNet](https://arxiv.org/abs/1905.11946)が良く用いられ、弊社の機械学習チームでも利用しています。2020年の後半には、[LambdaNetworks](https://openreview.net/forum?id=xTJEN-ggl1b)が発表され、次の時代が...

【論文読み】 Nomalizer-Free ResNets (NFNet) with AGC - EfficientNetの画像認識精度を超えた最新のモデル
2021/02/19
【論文読み】AlphaFold

## はじめに 前回、[AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解](https://tech.fusic.co.jp/posts/2021-01-08-alphafold/)ということで、タンパク質の構造がわかるとどうして嬉しいのかということをタンパク質とはというところから調べてまとめました。 AlphaFoldは端的にいうと 「アミノ酸...

【論文読み】AlphaFold
2021/01/08
AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解

***(2021/01/18)アップデート***\ ***獣医学を専攻している友人からコメントをいただいたので適宜修正を入れました(ありがとう!!!)*** 2020年冬の頃、獣医学部で獣医学を専攻している、高校時代の友人から連絡があった。 「AlphaFold2っていう機械学習モデルがすごいんだけど知ってる?」 恥ずかしながら私はAlphaFoldがなんなのかは知らなかった。 その週の弊...

AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解
2020/12/25
【論文読み】Exploring Simple Siamese Representation Learning

こんにちは、鷲﨑です。弊社の機械学習チーム勉強会で、[Exploring Simple Siamese Representation Learning](https://arxiv.org/abs/2011.10566) という画像の表現学習に関する論文を読みました。自然言語処理におけるBERTのように、画像処理においても表現学習(Representation Learning)の手法が重要だと考...

【論文読み】Exploring Simple Siamese Representation Learning
2020/12/11
【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向

本記事は、[Fusic Advent Calendar 2020](https://qiita.com/advent-calendar/2020/fusic)の11日目の記事です。 昨日は、[@funassy](https://qiita.com/funassy)さんで、[まじめ・実用】会議の効率を爆上げさせる3つの習慣](https://www.youtube.com/watch?v=l1heW...

【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向
2020/11/27
オンライン対戦データを解析して、アイテム判定をする

こんにちは。Fusicの塚本です。 趣味で、ゲームを嗜んでる人、多いかと思います。 そんな中、僕は趣味としてポケモンをプレイしています。 今回は、個人的に集めたオンライン対戦のデータを使って、そのポケモンの持ち物判定を行うというものです。 持ち物とは、対戦で1匹1つだけ持たせることのできるアイテムのことを指します。 [ポケモンアイテム一覧](https://pente.koro-poke...

オンライン対戦データを解析して、アイテム判定をする
2020/11/20
自然言語処理モデルmultilingual-T5を日本語データセットで動かしてみた

こんにちは、インターン生の青木です。今回は Google が 2020 年 10 月に発表した NLP モデル”[multilingual-T5](https://arxiv.org/abs/2010.11934)"(以降 mT5)を日本語データセットで動かすことができたので、 その過程と、方法を記します。実行環境は  Google Colaboratory です。 ### mT5 とは...

自然言語処理モデルmultilingual-T5を日本語データセットで動かしてみた
2020/03/29
[論文読み] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

[Weekly Machine Learning #169](https://www.getrevue.co/profile/icoxfog417/issues/weekly-machine-learning-169-234724) で紹介されていた[NeRF](https://arxiv.org/abs/2003.08934) がとても興味深く、 また、簡単に触ってみることができる状態で[コー...

[論文読み] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis