microsoftarchive/promptbench

A unified evaluation framework for large language models

Archived

/ 100

Emerging

Provides modular support for prompt engineering techniques (few-shot chain-of-thought, emotion prompting), adversarial robustness evaluation via prompt attacks, and dynamic test data generation to mitigate contamination. Built on PyTorch with extensible components for datasets, models, and evaluation methods, integrating specialized frameworks like DyVal for dynamic evaluation and PromptEval for efficient multi-prompt assessment across standard benchmarks (MMLU, BigBench Hard, GLUE) and multi-modal datasets.

2,787 stars.

Archived No Package No Dependents

Maintenance 0 / 25

Adoption 10 / 25

Maturity 16 / 25

Community 19 / 25

How are scores calculated?

Stars

2,787

Forks

219

Language

Python

License

MIT

Featured in

You're Shipping AI You Can't Measure

Higher-rated alternatives

microsoft/promptbench

A unified evaluation framework for large language models

uptrain-ai/uptrain

UpTrain is an open-source unified platform to evaluate and improve Generative AI applications....

gabe-mousa/Apolien

AI Safety Evaluation Library

babelcloud/LLM-RGB

LLM Reasoning and Generation Benchmark. Evaluate LLMs in complex scenarios systematically.

PromptMixerDev/prompt-mixer-app-ce

A desktop application for comparing outputs from different Large Language Models (LLMs).

Explore Prompt Engineering Tools

All categories Trending Prompt Engineering directory Insights