NFDI4DS | UHH-SEMS - Publication Details

Introducing v0.5 of the AI Safety Benchmark from MLCommons

Benchmark (surveying)

DOI: 10.48550/arxiv.2404.12241 Publication Date: 2024-04-18

Abstract Supplemental Material References Cited by

AUTHORS (97)

Bertie Vidgen

Adarsh Agrawal

Ahmed Mohamed Ahmed

Victor Akinwande

Namir Al-Nuaimi

Najla Alfaraj

Elie Alhajjar

Lora Aroyo

Trupti Bavalatti

Borhane Blili-Ham...

Kurt Bollacker

Rishi Bomassani

Marisa Ferrara Bo...

Siméon Campos

Kal Chakra

Canyu Chen

Cody Coleman

Zacharie Delpierr...

Leon Derczynski

Debojyoti Dutta

Ian Eisenberg

James Ezick

Heather Frase

Brian Fuller

Ram Gandikota

Agasthya Gangavarapu

Ananya Gangavarapu

James Gealy

Rajat Ghosh

James Goel

Usman Gohar

Sujata Goswami

Scott A. Hale

Wiebke Toussaint ...

Joseph Marvin Imp...

Surgan Jandial

Nick Judd

Felix Juefei-Xu

Foutse Khomh

Bhavya Kailkhura

Hannah Rose Kirk

Kevin Klyman

Chris Knotz

Michael Kuchnik

Shachi H Kumar

Chris Lengerich

Bo Li

Zeyi Liao

Eileen Peters Long

Victor M. Lu

Yifan Mai

Priyanka Mary Mammen

Kelvin Manyeki

Sean McGregor

Virendra Mehta

Shafee Mohammed

Emanuel Moss

Lama Nachman

Dinesh Jinenhally...

Amin Nikanjam

Besmira Nushi

Luis Oala

Iftach Orr

Alicia Parrish

Cigdem Patlak

William Pietri

Forough Poursabzi...

E. Presani

Fabrizio Puletti

Paul Röttger

Saurav Sahay

Tim Santos

Nino Scherrer

Alice Schoenauer ...

Patrick Schramowski

Abolfazl Shahbazi

Vin Sharma

Xudong Shen

Vamsi Sistla

Leonard Tang

Davide Testuggine

Vithursan Thangarasa

Elizabeth Anne Wa...

Rebecca Weiss

Chris Welty

Tyler Wilbers

Adina Williams

Carole-Jean Wu

Poonam Yadav

Xianjun Yang

Yi Zeng

Wenhui Zhang

Fedor Zhdanov

Jiacheng Zhu

Percy Liang

Peter Mattson

Joaquin Vanschoren

ABSTRACT

This paper introduces v0.5 of the AI Safety Benchmark, which has been created by MLCommons Working Group. The Benchmark designed to assess safety risks systems that use chat-tuned language models. We introduce a principled approach specifying and constructing benchmark, for covers only single case (an adult chatting general-purpose assistant in English), limited set personas (i.e., typical users, malicious vulnerable users). new taxonomy 13 hazard categories, 7 have tests benchmark. plan release version 1.0 end 2024. v1.0 benchmark will provide meaningful insights into systems. However, should not be used sought fully document limitations, flaws, challenges v0.5. includes (1) comprises cases, types under test (SUTs), context, personas, tests, items; (2) categories with definitions subcategories; (3) seven each comprising unique items, i.e., prompts. There are 43,090 items total, we templates; (4) grading system against benchmark; (5) an openly available platform, downloadable tool, called ModelBench can evaluate on (6) example evaluation report benchmarks performance over dozen models; (7) specification

SUPPLEMENTAL MATERIAL

Coming soon ....

REFERENCES ()

CITATIONS ()

EXTERNAL LINKS

OPENALEX - Publications OPENAIRE - Products

PlumX Metrics

Introducing v0.5 of the AI Safety Benchmark from MLCommons

RECOMMENDATIONS

FAIR ASSESSMENT

Coming soon ....

JUPYTER LAB

Coming soon ....