Fusic Tech Blog

Fusion of Society, IT and Culture

# 機械学習

2021/09/10

簡単に作れるTTSモデル:ESPnetを用いたつくよみちゃんTTSモデル作成

前回「複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について」記事で、ESPnetの特徴を説明し、その再現性・利用性に関して述べました...

2021/09/07

画像と言語を跨いだ機械学習 VLTaskについて

機械学習といえば 画像処理 自然言語処理 に関するところが代表的な分野であり、それぞれ発展してきた分野であります。 一方で、画像に写っている情景を自然言語で説明する文章を生成する(Image Captioning)などは 画像内の被写体 被写体の状態 ...

2021/08/12

AIに顔認識させて似ている顔を探してみる

こんにちは、石橋です。 先月、キックオフミーティングのチーム発表で機械学習チームは面白いデモを開発しました 僕が作ったのはfacenetを用いた社内で似た顔を探すアプリです こう見てみると、確かに似ている人がトップ3に...

2021/08/10

複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について

こんにちは、機械学習チームインターンのハンです。今回は、音声認識や音声合成のような音声処理に特化した、ESPnetというツールキットについて紹介します。2018年ESPnetが公開されてか...

2021/08/03

【論文解説】Implicit Neural Representations with Periodic Activation Functions (SIREN)

機械学習チームインターンのトシュコフです。本記事では、1年前に(2020年6月17日)にVincent Sitzmann らによって発表されたImplicit Neural Repr...

2021/08/02

顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説

こんにちは、機械学習チームの鷲崎です。最近、弊社では、GANに関する技術調査を行っていまして、女性の声を男性の声に変換してみた!CycleGAN VCを用いた...

2021/07/16

StarGANを用いた多者間の音声変換、StarGAN VC(Voice Conversion)の解説

こんにちは、機械学習チームインターンのハンです。前回、CycleGAN VC2を用いた音声変換を行いましたが、今回は、StarG...

2021/07/13

人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!

こんにちは、鷲崎です。最近、精巧な偽画像を作成するディープフェイクによる事件が摘発され、実社会の驚異となってきています。例えば、動画の顔をすり替えることで、偽の演説動画を作成したフェイクニュースや、ポルノ動画に写った人物の顔をアイドルの顔にすり替えるフェイクポルノなどの事件は話題になったかと思います。 このように犯罪用途で何かと注目されるAIによる顔すり替え技術ですが、非常に有...

2021/06/29

女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明

こんにちは、Fusicのインターンに参加したハンです。 私の初投稿の記事になります! 本記事では、ある人の声を別の人の声に変えるSpeech To Speech(STS)について書きました。...

2021/06/25

OCRで画像中の書類から表データを抜き出してみる

こんにちは、機械学習チーム インターンの石山です。 今回、書類中の表データの構造を保持したままデータ化する技術について調査し実装を行ったので記事にまとめたいと思います。 例えば、下図のように、画像中の書類に含まれいる表を右側のExcelのように抽出することを想定しています。 ...

2021/06/21

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!

こんにちは、鷲崎です。とうとう、CVPR 2021が開催されました!弊社でも、CVPRの最新論文で話題になっているものを読み、その結果に驚きを得ています。本記事で紹介する、GANs N' Roses: St...

2021/06/13

【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説

こんにちは、鷲崎です。先日(21年6月6日)、「○○ is Not All You Need」系の論文の系譜であるTabular Data: Deep Learning is Not All You Nee...

2021/06/08

【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説

こんにちは、鷲崎です。 最近、画像処理においてもTransformerが使われてきています。実際のところ分かりませんが、私としては、畳み込み演算はローカルな情報、Transformerは大域的な情報を得意にしているのかなというくらいの認識です。もう少し、Transformerについて知りたいと思い調査していたところ、セマンティックセグメンテーションで軽量で性能も良い...

2021/06/03

動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説

こんにちは、鷲崎です。2020年、新しい3次元空間の表現手法として、Neural Radiance Fields(NeRF)が登場しました。この手法は、下図のように複数の画像からNeRFを学習するこ...

2021/06/03

【論文読み】Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

こんにちは、石橋です。 Facebookから面白い論文が出てきました。 以前、僕はalphafoldに関する記事を書きましたが、 最近は機械学習が生物学へのドメインに転用されて大きな精度向上をもたらしています。 ...

2021/06/01

オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説

こんにちは、鷲崎です。弊社では、スポーツxAIという分野に取り組んでおり、画像分類や物体検出など多くの画像処理タスクを活用しています。今回は、選手の追跡タスクのため複数物体追跡(MOT; Multi Object Tracking)の最新手法に関して、弊社インターンの青木と共に調査しました。 本記事で解説する...

2021/05/31

StyleGAN2で、笑顔・無表情画像の生成を行いました!

こんにちは、Fusicのインターンシップに参加したHUANG BOYUと申します。今回インターンシップで、生成モデルStyleGan2-ADAを用いて、下図のような顔画像から笑顔、無表情の画像を生成するタスクを行いました。本記事では、この手法の解説を行います。 ...

2021/05/11

機械学習の画像系タスクでデータ入出力を整理して確認してみる

こんにちは https://fusic.co.jp/doings/312 以前に弊社広報でこんな記事を出しました 今回の記事ではより実装側によったことを書いてみ...

2021/04/23

Google colabでBERTを使ってライブドアニュースコーパスを多クラス分類をする

こんにちは、今回はライブドアニュースコーパスをBERTを使って多クラス分類する実装をしてみます。 よくよくやられていることなので、ネット上にたくさん似た事例がありますね。 今回は、比較的再利用しやすいような実装を心がけています。 ...

2021/03/30

wav2vec 2.0を日本語で推論できるようにする

こんにちは、インターンの青木です。この記事では、2020/6/20にFacebook AIより提案されたwav2vec 2.0を日本語データセット で学習させ、推論までを行いたいと思います。 ...

2021/03/30

Simple Transformersを使ってみた

こんにちは。機械学習チームの佐藤です。テキスト要約のタスクのモデルでMultilingual-T5がありますが、オリジナルリポジトリのTensorFlow版Multilingual-T5だと少々使いづらく感じたので(特にpredictの際に)、今回Simple Transformersを使ってみました。 また今回、Kaggleにて...

2021/03/25

Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた

こんにちは、鷲崎です。最近、畳み込みニューラルネットワーク(CNN)を用いて画像分類や物体検出などの視覚タスクに用いるハードルが低くなり大衆化してきました。一方で、視覚タスクにおける研究の流行は、CNN構造からAttention機構を用いた新しいアーキテクチャの発見などに移り変わってきている気がしています。 本記事で紹介する、...

2021/03/24

【論文読み】SQL Injectionと機械学習を用いた検知、防御手法

論文リンク ...

2021/03/24

Most-Popular推薦を実装して理解する

...

2021/03/23

Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来!

こんにちは、鷲崎です。最近、機械学習界隈で、Attentionが驚くべき成果を上げています。例えば、OpenAIの...