Pietro Lesci's picture

15 3 9

Pietro Lesci

pietrolesci

·

https://pietrolesci.github.io/

AI & ML interests

I like developing and applying causal methods to study the effect of training choices on models’ behaviour, including memorisation, shortcut learning, and tokenisation.

Recent Activity

updated a dataset about 5 hours ago

pietrolesci/dclm-edu150M

published a dataset 1 day ago

pietrolesci/dclm-edu150M

updated a model 2 days ago

pietrolesci/tokenisers

View all activity

Organizations

pietrolesci 's datasets 57

pietrolesci/dclm-edu150M

Viewer • Updated about 5 hours ago • 26.6M • 13

pietrolesci/unimixlm

Viewer • Updated Jul 25 • 81.9M • 118

pietrolesci/me-minipile-evals

Viewer • Updated Jun 3 • 1.22M • 69

pietrolesci/pile-deduped

Viewer • Updated May 5 • 748M • 373

pietrolesci/pythia-deduped-memorisation-profiles

Viewer • Updated Apr 9 • 2.13M • 103

pietrolesci/pile-validation

Viewer • Updated Apr 9 • 429k • 232

pietrolesci/pile-deduped-subset

Viewer • Updated Apr 9 • 16.3k • 17

pietrolesci/pythia-deduped-stats

Viewer • Updated Apr 9 • 16.3M • 25

pietrolesci/pythia-deduped-stats-raw

Viewer • Updated Apr 9 • 14.9M • 10.6k

pietrolesci/agnews

Viewer • Updated Apr 9 • 510k • 158

pietrolesci/amazoncat-13k

Viewer • Updated Apr 9 • 5.99M • 139 • 1

pietrolesci/wikitoxic

Viewer • Updated Apr 9 • 894k • 409 • 1

pietrolesci/multiwoz_all_versions

Viewer • Updated Apr 9 • 82k • 50 • 1

pietrolesci/anchoral-paper-artefacts

Viewer • Updated Apr 9 • 2.78M • 38

pietrolesci/pile-deduped-pythia-preshuffled

Viewer • Updated Mar 25 • 244M • 1.44k

pietrolesci/pile-deduped-pythia-tokfreq

Viewer • Updated Mar 17 • 50.1k • 9

pietrolesci/finewebedu-20B

Viewer • Updated Mar 16 • 40.4M • 254

pietrolesci/minipile

Viewer • Updated Feb 27 • 6.06M • 101

pietrolesci/opus-5langs-1M

Viewer • Updated Dec 10, 2024 • 5M • 42

pietrolesci/opus-raw

Viewer • Updated Nov 27, 2024 • 4.06B • 353

pietrolesci/pythia-pile-stats

Viewer • Updated Sep 23, 2024 • 113M • 22

pietrolesci/slim-pajama-eval

Viewer • Updated Sep 16, 2024 • 1.84M • 24 • 1

pietrolesci/pile-subset

Updated Sep 13, 2024 • 51

pietrolesci/cmnist

Viewer • Updated Jul 29, 2024 • 308k • 42

pietrolesci/celeba-wilds

Viewer • Updated Jul 2, 2024 • 203k • 20 • 1

pietrolesci/civilcomments-wilds

Viewer • Updated Jul 2, 2024 • 893k • 60

pietrolesci/mnli-stats

Viewer • Updated May 13, 2024 • 785k • 7

pietrolesci/mnli-embeddings

Viewer • Updated Mar 22, 2024 • 785k • 11

pietrolesci/_mnli-stats

Viewer • Updated Mar 20, 2024 • 15.7M • 21

pietrolesci/wikitext-103-raw-v1_gpt2-20k

Viewer • Updated Nov 16, 2023 • 8.01M • 81