Fusic Tech Blog

Fusicエンジニアによる技術ブログ

#機械学習

2024/02/19
BERT+VATでQAタスクを解いてみた

VAT を適用した BERT で JcommonsenseQA タスクを解いてみた。...

BERT+VATでQAタスクを解いてみた
2024/02/19
Amazon SageMaker Batch Transform を試してみた。

AWS Batch Transform ...

Amazon SageMaker Batch Transform を試してみた。
2024/02/19
自作の自動作曲サイトで作った曲をMuseMorphoseでアレンジしてみた

去年自分が開発した自動作曲サイト(http://dordordo.herokuapp.com/)で生成した曲をMuseMorphoseという機械学習の技術でアレンジしてみました。自動作曲サイトではコード進行からメロディを生成することができます。人のボーカルに似たメロディを生成できる様に、メロディの滑らかさとコードとの響き方を指定できる様にsmoothness,harmoniousというパラメータを...

自作の自動作曲サイトで作った曲をMuseMorphoseでアレンジしてみた
2024/02/19
知識蒸留(Knowledge Distillation)を使ってResNet18をより賢くしてみよう

知識蒸留(Knowledge Distillation)を使ってResNet18をより賢くしてみよう...

知識蒸留(Knowledge Distillation)を使ってResNet18をより賢くしてみよう
2024/02/19
2022年 Image CaptioningのSoTA OFAを試してみる

Image Captioningの2022年のSoTAを獲得してるOFAを試してみる...

2022年 Image CaptioningのSoTA OFAを試してみる
2024/02/19
ARF を動かしてみる

Artistic Radiance Fields を試してみました。...

ARF を動かしてみる
2024/02/19
ViTGAN(新たな画像生成モデル)をPyTorchで実装

ViTGANは、新たな画像生成モデルであり、素晴らしい結果を得ています。 この記事では私の実装を紹介します。...

ViTGAN(新たな画像生成モデル)をPyTorchで実装
2024/02/19
Fusic 開発合宿日記 社内スカウターをHololens 2で作ってみた

Hololens 2と、顔認証(機械学習)を用いて、ドラゴンボールのスカウターのようなものを作ってみました!...

Fusic 開発合宿日記 社内スカウターをHololens 2で作ってみた
2024/02/19
2024/02/19
Sagemaker serverless inference を使ってみる

Sagemaker serverless inference を使ってみました。...

Sagemaker serverless inference を使ってみる
2024/02/19
簡単に作れるTTSモデル:ESPnetを用いたつくよみちゃんTTSモデル作成

ESPnetを用いたTTSファインチューニングモデル - つくよみちゃん・JSUT・JVSコーパスで学習 - ESPnet TTSの使い方...

簡単に作れるTTSモデル:ESPnetを用いたつくよみちゃんTTSモデル作成
2024/02/19
画像と言語を跨いだ機械学習 VLTaskについて

画像処理と自然言語処理を跨ぐようなタスクに応用できるモデルの論文が出ていました...

画像と言語を跨いだ機械学習 VLTaskについて
2024/02/19
AIに顔認識させて似ている顔を探してみる

AIを使って似ている顔を探す...

AIに顔認識させて似ている顔を探してみる
2024/02/19
【論文解説】Implicit Neural Representations with Periodic Activation Functions (SIREN)

SIRENは、正弦関数の周期的な性質を利用してフーリエのような動作を行うネットワークです。 これにより、SIRENは、画像やビデオ、音声などの連続信号を非常に効率的に表現できます。...

【論文解説】Implicit Neural Representations with Periodic Activation Functions (SIREN)
2024/02/19
顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説

顔の向きや表情、年齢などの属性を変更する最新の顔編集技術であるPivotal Tuning for Latent-based Editing of Real Imagesを解説します。Pivotal Tuningは、学習済みの生成器を入力データに対してわずかにチューニングする技術で、メイクが濃い顔やメガネをかけた人など、学習データにあまり含まれていないような画像に対しても納得感のある顔編集を可能に...

顔編集で表情や年齢を変えてみた!Pivotal Tuning for Latent-based Editing of Real Imagesの解説
2024/02/19
StarGANを用いた多者間の音声変換、StarGAN VC(Voice Conversion)の解説

StarGAN VCの概念・モデル説明...

StarGANを用いた多者間の音声変換、StarGAN VC(Voice Conversion)の解説
2024/02/19
人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!

最新の顔入れ替え手法に関する研究 SimSwap: An Efficient Framework For High Fidelity Face Swapping に関して解説します。顔の向きや表情の特徴を残して顔を入れ替えることが可能で、スタントマンの顔の入れ替えや、洋服の仮想的な試着など、非常に有用な技術です。...

人の顔を入れ替えてみた!最新の顔すり替え手法 SimSwapの解説!
2024/02/19
女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明

cycleGAN VC(Voice Conversion)モデルを用いた音声変換の説明・実験結果に関する記事...

女性の声を男性の声に変換してみた!CycleGAN VCを用いた音声変換の説明
2024/02/19
OCRで画像中の書類から表データを抜き出してみる

こんにちは、機械学習チーム インターンの石山です。 今回、書類中の表データの構造を保持したままデータ化する技術について調査し実装を行ったので記事にまとめたいと思います。 ...

OCRで画像中の書類から表データを抜き出してみる
2024/02/19
GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!

そろそろ、CVPR 2021が開催されますね!弊社でも、CVPRの最新論文で話題になっているものを読み、その結果に驚きを得ています。本記事で紹介する、GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!) という論文は、最近発表されたGANの論文で、とても面白い結...

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!
2024/02/19
【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説

先日、表形式のデータで、競争力ある新たな深層学習アーキテクチャである、Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learningという研究が発表されました。論文で提案されているNon-Parametric Transformers (NPTs)は、Boosting系の手...

【論文解説】Self-Attention Between Datapoints - ノンパラメトリック深層モデル Non-Parametric Transformers の解説
2024/02/19
【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説

最近、画像処理においてもTransformerが使われてきています。実際のところ分かりませんが、私としては、畳み込み演算はローカルな情報、Transformerは大域的な情報を得意にしているのかなというくらいの認識です。もう少し、Transformerについて知りたいと思い調査していたところ、セマンティックセグメンテーションで軽量で性能も良いSegFormerという手法が話題になっていたので、記事...

【論文読み】SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers の解説
2024/02/19
動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説

最近、新しい3次元空間の表現手法として、Neural Radiance Fields(NeRF)という分野が登場しました。この分野は、学習に使用していない視点の画像を作成できるため、個人的に将来ゲームのように様々な視点で現実世界を旅行できるのではと期待しています。しかし、動的なシーンにおいてNeRFを形成できなくなります。そこで、NeRFを時間方向に拡張したNSFF(Nural Scene Flo...

動画にない視点の画像を作成してみた! NeRFを時間方向に拡張したNSFF : Nural Scene Flow Fieldの解説
2024/02/19
【論文読み】Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

Facebookが行った生物学の言語モデリングに関する研究 近年の自然言語処理界隈でよく行われる、大規模コーパスで事前学習し獲得した言語モデルを特定のタスクに応用するという流れを、タンパク質のドメインに持ち込み調査した興味深い研究...

【論文読み】Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
2024/02/19
オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説

こんにちは、鷲崎です。弊社では、スポーツxAIという分野に取り組んでおり、画像分類や物体検出など多くの画像処理タスクを活用しています。今回は、選手の追跡タスクのため複数物体追跡(MOT; Multi Object Tracking)の最新手法であるSiamMOTに関して、弊社インターンの青木と共に調査しました。...

オンライン複数物体追跡 SiamMOT: Siamese Multi Object Trackingの解説
2024/02/19
StyleGAN2で、笑顔・無表情画像の生成を行いました!

弊社のインターンシップに参加していただいた、HUANG BOYUに、StyleGAN2を用いた、顔画像変換を実験していただきました。StyleGan2に加え、顔を笑顔や無表情にする潜在空間の探索などに関して解説しています。...

StyleGAN2で、笑顔・無表情画像の生成を行いました!
2024/02/19
機械学習の画像系タスクでデータ入出力を整理して確認してみる

画像系のタスクをpytorchで触ってみる...

機械学習の画像系タスクでデータ入出力を整理して確認してみる
2024/02/19
Google colabでBERTを使ってライブドアニュースコーパスを多クラス分類をする

環境:Google Colab モデル:BERT 入力:記事のタイトル 出力:記事のジャンル(今回は9つ)...

Google colabでBERTを使ってライブドアニュースコーパスを多クラス分類をする
2024/02/19
Simple Transformersを使ってみた

Simple Transformersを使うと、自然言語処理の機械学習モデルが非常にシンプルに実装できます。...

Simple Transformersを使ってみた
2024/02/19
wav2vec 2.0を日本語で推論できるようにする

最新の文字起こしAIをためす...

wav2vec 2.0を日本語で推論できるようにする
2024/02/19
Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた

視覚タスクにおけるAttentionと同様に、空間に依存した特性を持ち、畳み込み演算と同様に汎用的な演算であるInvolutionが発表されました。本記事では、解説に加えて、EfficientNetにInvolutionを導入に実験の考察を行っています。...

 Involution: Inverting the Inherence of Convolution for Visual RecognitionをEfficientNetで試してみた
2024/02/19
【論文読み】SQL Injectionと機械学習を用いた検知、防御手法

機械学習を用いたSQL injectionの検知や対策などをまとめた論文読みました 【論文読み】SQL Injection Attack Detection and Prevention Techniques Using Machine Learning...

【論文読み】SQL Injectionと機械学習を用いた検知、防御手法
2024/02/19
Most-Popular推薦を実装して理解する

社内で推薦システム: 統計的機械学習の理論と実践 | Agarwal, Deepak K., Chen, Bee‐Chung, 直希, 島田, 健志, 大浦 |本 | 通販 | Amazonの本を輪読しています。 ようやく、6章の内容が終わり、具体的な話になってきたので、そろそろ実装をして理解します。...

Most-Popular推薦を実装して理解する
2024/02/19
Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来!

Attenton is All You Need in Speech Separation! とうとう、音源分離にもAttentionが進出しました。弊社、機械学習チームは、Attentionの発展をNLPを通して見てきましたが、画像処理や音声処理など、他のタスクへの適用も無視できなくなっている気がします。単一チャネルの混合音の音源分離には、複雑なモデリングが可能な深層学習が欠かせない技術になって...

Attenton is All You Need in Speech Separation. 音源分離にもAttentionの時代が到来!
2024/02/19
【論文読み】 Nomalizer-Free ResNets (NFNet) with AGC - EfficientNetの画像認識精度を超えた最新のモデル

画像処理における深層学習モデルのデファクトスタンダードとなっているEfficientNetを性能を超えるNFNetがこの度、発表されました。このモデルは、Nomalizer-Free モデルで、バッチ正規化を使用せず、深層なモデルの学習を可能にしています。今後、画像分類だけでなく物体検出などの他のタスクにも使用されることが期待されます。...

【論文読み】 Nomalizer-Free ResNets (NFNet) with AGC - EfficientNetの画像認識精度を超えた最新のモデル
2024/02/19
【論文読み】AlphaFold

AlphaFold1の論文を読み、個人的にポイントだと思うところをまとめています。 AlphaFoldとは何かというところの雰囲気を感じていただければと思います ...

【論文読み】AlphaFold
2024/02/19
AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解

2020年冬の頃、獣医学部で獣医学を専攻している、高校時代の友人から連絡があった。 「AlphaFold2っていう機械学習モデルがすごいんだけど知ってる?」 恥ずかしながら私はAlphaFoldがなんなのかは知らなかった。 その週の弊社機械学習チーム勉強会でAlphaFold2に関する記事が出てきた。 しかし、その内容は私にとっては難解で、概要はなんとなくわかったが何がすごいのか、どう...

AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解
2024/02/19
【論文読み】Exploring Simple Siamese Representation Learning

画像に対する表現学習の手法の一つであるSiamese 学習において、より単純な実装で、精度良く学習できるSimSiamが発表されました。この手法の表現学習手法の一般化における仮定に感動したので、紹介したいと思います。...

【論文読み】Exploring Simple Siamese Representation Learning
2024/02/19
【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向

ARや自動運転など様々なところに、長年行われている自律ロボットの研究が応用されています。そして、昨今のAI研究の発展に伴い、自律ロボット × AIの研究も進んでいます。本記事では、その研究分野を俯瞰する研究動向のSurvey論文を紹介します。...

【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向
2024/02/19
オンライン対戦データを解析して、アイテム判定をする

趣味をやる時こそ、そこに技術を持ち込めたら面白いと思い、個人的にオンライン対戦のデータを収集しています。 そのデータで、NNとベイズ ロジスティック回帰をそれぞれ使い、アイテム判定を行ってみました。...

オンライン対戦データを解析して、アイテム判定をする
2024/02/19
自然言語処理モデルmultilingual-T5を日本語データセットで動かしてみた

Googleが公開したmultilingual-T5を実際に学習させて推論させてみました。...

自然言語処理モデルmultilingual-T5を日本語データセットで動かしてみた
2024/02/19
[論文読み] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis の論文を読んだメモ...

[論文読み] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis