1 2 32

Michael Benayoun

michaelbenayoun

AI & ML interests

None yet

Recent Activity

updated a model 8 days ago

optimum-internal-testing/optimum-neuron-cache-ci

updated a model 8 days ago

optimum-internal-testing/optimum-neuron-cache-ci

updated a model 8 days ago

optimum-internal-testing/optimum-neuron-cache-ci

View all activity

Organizations

Articles 2

Article

Scaling up BERT-like model Inference on modern CPU - Part 2

Article

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

View all Articles

Collections 1

models 16

datasets 0

None public yet

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

models 16

michaelbenayoun/deepseekv3-tiny-4kv-heads-4-layers-random

michaelbenayoun/granite-tiny-4kv-heads-4layers-random

michaelbenayoun/qwen3-tiny-4kv-heads-4layers-random

michaelbenayoun/qwen3-tiny-4kv-heads-8layers-random

michaelbenayoun/lora-qkv-included-llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/lora-2-qkv-included-llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-16layers-random

michaelbenayoun/t5-tiny-random

michaelbenayoun/llama-2-tiny-4kv-heads-2layers-random

datasets 0

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

models 16 Sort: Recently updated

datasets 0

models 16