Fusic Tech Blog
Fusicエンジニアによる技術ブログ
#機械学習
機械学習チームでインターンをしています橋口です。 今回、BERTにVATを適用したQAタスクを実装したので、記事としてまとめました。 - - - ## **QAタスク** QAタスクは質問に対して解答するタスクです。 そのQAタスクの中でも選択式のQAタスクは、質問文に対してどの選択肢が尤もら...

こんにちは、ハンです。 今回はAWS SageMakerの「Batch Transform」を使ってみたので、簡単に紹介したいと思います。 また、Batch Transformの実装は[SageMaker Example Documents](https://sagemaker-examples.readthedocs.io/en/latest/frameworks/pytorch/get_s...

※ この記事はインターンの野方君によって書かれた記事です 去年自分が開発した自動作曲サイト(http://dordordo.herokuapp.com/)で生成した曲をMuseMorphoseという機械学習の技術でアレンジしてみました。 自動作曲サイトではコード進行からメロディを生成することができます。人のボーカルに似たメロディを生成できる様に、メロディの滑らかさとコードとの響き方を指定できる...

こんにちは、機械学習チームのハンです。 知識蒸留(KD:Knowledge Distillation)というものが気になり、簡単なResNetモデルで色々実験を行ってみたので紹介したいと思います。 ## Knowledge Distillationとは? **あるモデルが学んだ知識を他のモデルに移す**という概念であり、[Distilling the Knowledge in a Neura...

こんにちは、機械学習チームの石橋です 自分はVision and Languageに関連することをここ1年ほど扱ってきたのですが、Image Captioningの最近はどうなん?とふとおもって調べてみるとOFAなるものが公開されていました。  githubのリポジトリをみてみるとImag...

おはようございます、始めましての人は始めまして。瓦です。 最近見つけた Artistic Radiance Fields という論文 () がちょっと面白そうだったので、動かしてみただけの記事です。 ざっくりと概要を書くと、**写真から 3D 復元したオブジェクトに対して与えられた画...

[ViTGAN](https://arxiv.org/pdf/2107.04589v1.pdf)はVision TransformerとSIRENを使用している敵対的ネットワークです。ディスクリミネータもVision Transformerです。 Kwonjoon Lee達の論文の技術的な詳細については、[VITGAN: Training GANs with Vision Transform...

Fusicでは開発合宿というイベントがあります 今回、[苑田くん](https://fusic.co.jp/members/108)とペアを組んで参加しました 以前にも、hololensを使ってスカウターチックなものを作りたいと思って取り組んだことがあるのですが、Hololensに対する理解と、Unity, C#やMSお作法がわからなすぎてうまくいってませんでした。 そんな中、苑田くんは研究...

近年Vision and Languageのpre-trainedモデルを用いた事例が少しずつ増えてきています。 ViLBERTを皮切りに、OscarやUNITERなど様々なモデルが提案されてきました。 しかし、これらのモデルで画像の特徴抽出では物体検出などを用いており、そこが処理速度におけるボトルネックになっていました。 実際僕もText Image Retrievalの機能をViLBERT...

こんにちは、初めましての人は初めまして。機械学習チームの瓦です。 つい先日、[SageMaker Serverless Inference](https://aws.amazon.com/jp/about-aws/whats-new/2021/12/amazon-sagemaker-serverless-inference/)についての発表がありました。[クラスメソッドさんの記事](http...

前回「[複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について](https://tech.fusic.co.jp/posts/2021-08-03-espnet/)」記事で、ESPnetの特徴を説明し、その再現性・利用性に関して述べました。 今回、実際にESPnetを用いて、TTSモデルを作成してみましたが、そのプロセスについて説明していと思います。 ##...

機械学習といえば * 画像処理 * 自然言語処理 に関するところが代表的な分野であり、それぞれ発展してきた分野であります。 一方で、画像に写っている情景を自然言語で説明する文章を生成する(Image Captioning)などは * 画像内の被写体 * 被写体の状態 * 状態を説明する文章を構成する といった具合に、画像ドメインだけでも、自然言語ドメインだけでも解けないようなタスクです ...

こんにちは、石橋です。 先月、キックオフミーティングのチーム発表で機械学習チームは面白いデモを開発しました 僕が作ったのはfacenetを用いた社内で似た顔を探すアプリです  こう見てみると、確かに似ている人がトップ3に並んでいる気がしているような気もしますねw ## 手法 ### ...

こんにちは、機械学習チームインターンのハンです。今回は、音声認識や音声合成のような音声処理に特化した、[ESPnet](https://github.com/espnet/espnet)というツールキットについて紹介します。2018年ESPnetが公開されてから、音声処理タスクがより扱いやすくなり、関連研究が活発的に行われているらしいですが、その特徴やメリットについて説明します。 「ま...

機械学習チームインターンのトシュコフです。本記事では、1年前に(2020年6月17日)にVincent Sitzmann らによって発表された[**Implicit Neural Representations with Periodic Activation Functions**](https://arxiv.org/pdf/2006.09661.pdf)を解説します。 ...

こんにちは、機械学習チームの鷲崎です。最近、弊社では、GANに関する技術調査を行っていまして、[女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明](https://tech.fusic.co.jp/posts/2021-06-29-ml-cycleganvc/) や [GANs N' Roses: Stable, Controllable, Diverse Image...

こんにちは、機械学習チームインターンのハンです。前回、[CycleGAN VC2を用いた音声変換](https://tech.fusic.co.jp/posts/2021-06-29-ml-cycleganvc/)を行いましたが、今回は、[StarGAN VC]()モデルを用いた音声変換の実験を試してみました。 CycleGAN VCモデルは、1対1関係向けのモデルであり、一人の声を他の一人...

こんにちは、鷲崎です。最近、精巧な偽画像を作成するディープフェイクによる事件が摘発され、実社会の驚異となってきています。例えば、動画の顔をすり替えることで、偽の演説動画を作成したフェイクニュースや、ポルノ動画に写った人物の顔をアイドルの顔にすり替えるフェイクポルノなどの事件は話題になったかと思います。 このように犯罪用途で何かと注目されるAIによる顔すり替え技術ですが、非常に有用な技術でもありま...

こんにちは、Fusicのインターンに参加したハンです。 私の初投稿の記事になります! 本記事では、ある人の声を別の人の声に変えるSpeech To Speech(STS)について書きました。[CycleGAN VC2](http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc2/index.html)モデ...

こんにちは、機械学習チーム インターンの石山です。 今回、書類中の表データの構造を保持したままデータ化する技術について調査し実装を行ったので記事にまとめたいと思います。 例えば、下図のように、画像中の書類に含まれいる表を右側のExcelのように抽出することを想定しています。  # まえがき 数年前から年々とOCR(光学的...

こんにちは、鷲崎です。とうとう、CVPR 2021が開催されました!弊社でも、CVPRの最新論文で話題になっているものを読み、その結果に驚きを得ています。本記事で紹介する、[GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)](https://arxiv.or...

こんにちは、鷲崎です。先日(21年6月6日)、「○○ is Not All You Need」系の論文の系譜である[Tabular Data: Deep Learning is Not All You Need](https://arxiv.org/abs/2106.03253)という研究が発表されました。この研究では、表形式のデータにおいて、XGBoostの精度が深層ニューラルネットワークを上回...

こんにちは、鷲崎です。 最近、画像処理においてもTransformerが使われてきています。実際のところ分かりませんが、私としては、畳み込み演算はローカルな情報、Transformerは大域的な情報を得意にしているのかなというくらいの認識です。もう少し、Transformerについて知りたいと思い調査していたところ、セマンティックセグメンテーションで軽量で性能も良い[SegFormer](htt...

こんにちは、鷲崎です。2020年、新しい3次元空間の表現手法として、[Neural Radiance Fields(NeRF)](https://arxiv.org/abs/2003.08934)が登場しました。この手法は、下図のように複数の画像からNeRFを学習することで、任意の視点(位置と角度)から見えるである画像を表現できるようになります。 
こんにちは、石橋です。 Facebookから面白い論文が出てきました。 以前、僕はalphafoldに関する記事を書きましたが、 最近は機械学習が生物学へのドメインに転用されて大きな精度向上をもたらしています。 このAlphaFoldではタンパク質の折り畳みに特化したモデルが提案され...

こんにちは、鷲崎です。弊社では、スポーツxAIという分野に取り組んでおり、画像分類や物体検出など多くの画像処理タスクを活用しています。今回は、選手の追跡タスクのため複数物体追跡(MOT; Multi Object Tracking)の最新手法に関して、弊社インターンの青木と共に調査しました。 本記事で解説する[SiamMOT(Siamese Multi Object Tracking)](htt...

こんにちは、Fusicのインターンシップに参加したHUANG BOYUと申します。今回インターンシップで、生成モデルStyleGan2-ADAを用いて、下図のような顔画像から笑顔、無表情の画像を生成するタスクを行いました。本記事では、この手法の解説を行います。 ...

こんにちは 以前に弊社広報でこんな記事を出しました 今回の記事ではより実装側によったことを書いてみようと思います。 上記リンクにもありますが、代表的な画像系のタスクとして * 画像分類 * 物体検出 * セグメンテーション が挙げられると思います。 今回はこれらそれぞれをPyTorchを使って実装して使ってみようと思いま...

こんにちは、今回はライブドアニュースコーパスをBERTを使って多クラス分類する実装をしてみます。 よくよくやられていることなので、ネット上にたくさん似た事例がありますね。 今回は、比較的再利用しやすいような実装を心がけています。 https://qiita.com/takubb/items/fd972f0ac3dba909c293 ベースとしてはこちらのコードを参考にさせていただきました。 ...

こんにちは、インターンの青木です。この記事では、2020/6/20にFacebook AIより提案された[wav2vec 2.0](https://arxiv.org/abs/2006.11477)を日本語データセット で学習させ、推論までを行いたいと思います。 [git リポジトリ](https://github.com/pytorch/fairseq/tree/master/examples/...

こんにちは。機械学習チームの佐藤です。テキスト要約のタスクのモデルでMultilingual-T5がありますが、オリジナルリポジトリのTensorFlow版Multilingual-T5だと少々使いづらく感じたので(特にpredictの際に)、今回Simple Transformersを使ってみました。 また今回、Kaggleにて[Simple Transformers T5を使ったノート...

こんにちは、鷲崎です。最近、畳み込みニューラルネットワーク(CNN)を用いて画像分類や物体検出などの視覚タスクに用いるハードルが低くなり大衆化してきました。一方で、視覚タスクにおける研究の流行は、CNN構造からAttention機構を用いた新しいアーキテクチャの発見などに移り変わってきている気がしています。 本記事で紹介する、[Involution: Inverting the Inherenc...

論文リンク # はじめに 「機械学習✖️セキュリティ」の分野に興味があったけどあまり追えていなかったのでサーベイ論文読んでみました...

# Most-Popular推薦を実装して理解する こんにちは。塚本です。 現在、社内で[推薦システム: 統計的機械学習の理論と実践 | Agarwal, Deepak K., Chen, Bee‐Chung, 直希, 島田, 健志, 大浦 |本 | 通販 | Amazon](https://www.amazon.co.jp/推薦システム-統計的機械学習の理論と実践-Deepak-K-Agarw...

こんにちは、鷲崎です。最近、機械学習界隈で、[Attention](https://arxiv.org/abs/1706.03762)が驚くべき成果を上げています。例えば、OpenAIの[DALL・E](https://openai.com/blog/dall-e/)の発表は、恐ろしさを感じるくらい素晴らしいものでした。一昨年前は、自然言語処理にて注目されていたものが、去年は、画像にも適応され驚く...

こんにちは、鷲崎です。ここ数年、画像認識の分野では、パラメータ数が少なく性能も良い[EfficientNet](https://arxiv.org/abs/1905.11946)が良く用いられ、弊社の機械学習チームでも利用しています。2020年の後半には、[LambdaNetworks](https://openreview.net/forum?id=xTJEN-ggl1b)が発表され、次の時代が...

## はじめに 前回、[AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解](https://tech.fusic.co.jp/posts/2021-01-08-alphafold/)ということで、タンパク質の構造がわかるとどうして嬉しいのかということをタンパク質とはというところから調べてまとめました。 AlphaFoldは端的にいうと 「アミノ酸...

***(2021/01/18)アップデート***\ ***獣医学を専攻している友人からコメントをいただいたので適宜修正を入れました(ありがとう!!!)*** 2020年冬の頃、獣医学部で獣医学を専攻している、高校時代の友人から連絡があった。 「AlphaFold2っていう機械学習モデルがすごいんだけど知ってる?」 恥ずかしながら私はAlphaFoldがなんなのかは知らなかった。 その週の弊...

こんにちは、鷲﨑です。弊社の機械学習チーム勉強会で、[Exploring Simple Siamese Representation Learning](https://arxiv.org/abs/2011.10566) という画像の表現学習に関する論文を読みました。自然言語処理におけるBERTのように、画像処理においても表現学習(Representation Learning)の手法が重要だと考...

本記事は、[Fusic Advent Calendar 2020](https://qiita.com/advent-calendar/2020/fusic)の11日目の記事です。 昨日は、[@funassy](https://qiita.com/funassy)さんで、[まじめ・実用】会議の効率を爆上げさせる3つの習慣](https://www.youtube.com/watch?v=l1heW...

こんにちは。Fusicの塚本です。 趣味で、ゲームを嗜んでる人、多いかと思います。 そんな中、僕は趣味としてポケモンをプレイしています。 今回は、個人的に集めたオンライン対戦のデータを使って、そのポケモンの持ち物判定を行うというものです。 持ち物とは、対戦で1匹1つだけ持たせることのできるアイテムのことを指します。 [ポケモンアイテム一覧](https://pente.koro-poke...

こんにちは、インターン生の青木です。今回は Google が 2020 年 10 月に発表した NLP モデル”[multilingual-T5](https://arxiv.org/abs/2010.11934)"(以降 mT5)を日本語データセットで動かすことができたので、 その過程と、方法を記します。実行環境は Google Colaboratory です。 ### mT5 とは...

[Weekly Machine Learning #169](https://www.getrevue.co/profile/icoxfog417/issues/weekly-machine-learning-169-234724) で紹介されていた[NeRF](https://arxiv.org/abs/2003.08934) がとても興味深く、 また、簡単に触ってみることができる状態で[コー...
![[論文読み] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis](/uploads/nerf_paper_capture.png)