工具网站

LMArena (Large Model Arena) :免费提供主流AI大模型及在线评测排行平台

LMArena (Large Model Arena)...

标签:

LMArena (Large Model Arena) 是一个提供AI大模型在线评测、盲选和排行的平台,用户可以直观对比不同模型在对话和指令遵循上的表现。

这个网站是做什么的?

LMAna(通常指代 Chatbot Arena,由LMSYS Org维护)是一个开源的研究项目和在线平台,旨在通过众包(crowdsourcing)的方式来评估和排名大型语言模型(LLMs)。它允许用户匿名地与两个未知的大型语言模型进行对话,然后投票选出哪个模型表现更好,或者两者都不好。通过收集大量的用户投票数据,LMArena能够根据Elo评级系统对模型进行实时排名,提供一个相对客观的模型性能参考。
关于团队,这个项目主要由加州大学伯克利分校、卡内基梅隆大学、斯坦福大学等高校的研究人员推动,像Wei-Lin Chiang、Ziwei Liu等是该项目的重要贡献者,他们在自然语言处理和大规模模型评估方面有深厚的专业背景。

LMArena提供的核心服务是 模型竞技场(Arena) 和 模型排行榜(Leaderboards)。用户可以在竞技场里输入问题或指令,然后看到两个匿名模型的回答,并进行投票。排行榜则根据用户投票结果,实时更新各大模型的综合评分和排名。

其目标市场主要是AI研究人员、开发者、AI爱好者以及需要选择或了解当前最先进语言模型性能的企业和个人。

技术优势在于其创新的众包评估机制,通过海量真实用户的互动和反馈来生成模型评分,这比传统的固定基准测试更能反映模型在实际应用中的表现,尤其是在对话流畅度、指令遵循和创造力方面。它还支持了非常广泛的模型,包括许多最新的开源和闭源模型。

核心能力是提供一个公平、透明且持续更新的AI模型评测平台,让大家能够方便地了解和比较不同模型的优劣。

都是谁在用这个网站?

使用LMArena(Chatbot Arena)的用户群体非常广泛,主要包括:
AI研究人员和学者:他们用LMArena的数据来研究模型的性能差异、评估方法,并进行学术论文的发布。我记得有次看到一篇论文就是用LMArena的数据分析模型在特定类型问题上的偏见。
AI开发者和工程师:在选择将哪个LLM集成到自己的应用程序或服务中时,他们会参考LMArena的排名和实际使用体验来做决策。比如,我有个朋友在做一个AI写作助手,他就在LMArena上对比了几个模型,最终选了一个在他测试场景下得分比较高的。
AI爱好者和科技尝鲜者:这部分用户对最新的AI技术充满好奇,喜欢尝试各种大模型,并通过在Arena里的互动来体验和了解它们的能力。我自己就是其中一员,经常上去随便问点问题,看看不同模型的“性格”和回答风格。
学生和学习者:对于学习AI和自然语言处理的学生来说,LMArena是一个了解当前SOTA(State-of-the-Art)模型的好地方。
内容创作者和营销人员:可能会用它来测试哪个模型更适合生成特定风格的内容。
用户特征通常是具备一定技术理解能力,对AI发展趋势敏感,并且愿意花时间参与互动以获取信息或做出判断。

使用环境主要是通过网页浏览器在线访问。

场景特色在于它模拟了一个“盲盒”式的对决,用户在不知道模型身份的情况下进行评价,这大大减少了品牌偏见对评价的影响。

不适合的场景可能包括:需要对模型进行非常深入、细致的技术性压力测试(比如长文本处理的稳定性、特定代码生成准确率等,这些可能需要更专业的评测框架),或者需要离线使用、大规模自动化调用的场景(尽管它提供API,但核心的Arena体验是网页交互)。

这个网站提供的服务适合哪些业务应用场景?

LMArena提供的服务,尤其是其模型对比和评分能力,非常适合以下几种业务应用场景:
模型选型与采购决策:企业在决定使用哪个大模型API(如OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列等)或部署哪个开源模型(如Llama、Mistral等)时,可以参考LMArena上的用户评价和排名,特别是针对特定任务(如写作、编程、问答)的综合表现。比如,一个需要高质量内容生成的公司,可以看看在类似任务上得分高的模型。
AI产品研发:AI产品经理和开发者可以利用LMArena了解当前模型能力的“天花板”在哪里,为产品功能设计和技术选型提供依据。他们可能会关注排名靠前的模型,分析其回答的特点,思考如何通过Prompt工程或模型微调来达到更好的效果。
市场趋势分析:对于关注AI行业动态的分析师、投资者或媒体,LMArena提供了一个快速了解模型市场竞争格局和性能演进的窗口。
内部AI能力评估:大型企业内部如果部署了多个模型或自行训练模型,也可以借鉴LMArena的模式(如Arena的众包打分机制),建立自己的内部评估体系,用于模型迭代和性能监控。
AI教育与培训:作为教学工具,向学生展示不同模型的性能差异,以及如何进行模型评估。
简单来说,任何需要依赖大模型能力来驱动业务、提升效率或创造新产品的场景,都可以从LMArena获得有价值的参考信息。

有哪些有亮点的特色功能和服务?

LMArena(Chatbot Arena)最亮眼的几个特色功能和服务,我用起来觉得特别棒:
模型竞技场(Arena – Side-by-Side Blind Test)

名称:模型竞技场(Arena)
内容:这是LMArena的核心。你输入一个问题(prompt),系统会随机选择两个未标明身份的大模型来回答。用户需要将两个模型的回答并排比较,然后选择哪个更好(Model A is better, Model B is better, Tie, Both are bad),并可以给出投票理由。
技术特点:采用了匿名化和随机配对机制,并且基于Elo评分系统进行动态排名。这种设计最大限度地减少了用户对特定模型的先入为主的偏见。
使用效果:提供了非常真实的、大规模的用户偏好数据。我感觉这种方式比看那些固定跑分(比如MMLU、HellaSwag)更能体现模型在实际对话中的“好用”程度。上次我对比了一个冷门模型和一个热门模型,结果冷门模型在我的特定问题上表现出乎意料地好,让我对它刮目相看。
实时模型排行榜(Leaderboards)

名称:模型排行榜(Leaderboards)
内容:基于Arena收集到的海量投票数据,LMArena会生成一个公开的、动态更新的模型排名列表。通常会区分不同的榜单,比如综合排名、特定任务(如编码、写作)的排名等。
技术特点:使用Elo等级分系统,这是一个在棋类比赛等领域广泛应用的评分方法,能够根据对手的强弱和比赛结果来动态调整评分。模型排名会随着新的投票不断变化。
使用效果:让用户可以非常直观地了解当前哪些模型在真实用户那里最受欢迎或表现最好。我经常会上去瞄一眼排行榜,看看最近有没有新的模型“黑马”出现,或者老牌模型排名有没有波动。

广泛的模型覆盖

名称:模型库(Model Catalog)
内容:LMArena收录了市面上绝大多数主流的大型语言模型,包括商业闭源模型(如GPT-4o, Claude 3 Opus, Gemini Pro)和各种优秀的开源模型(如Llama 3, Mixtral, Qwen等)。
技术特点:快速跟进模型更新,新模型上线后不久通常就能在LMArena上找到并进行比较。
使用效果:为用户提供了一个“一站式”比较众多模型的平台,省去了单独访问各个模型提供商网站的麻烦。
自定义提示词(Custom Prompts)

名称:自定义提示词输入
内容:用户可以在Arena中输入任何自己想测试的提示词(prompt),而不是局限于预设的问题。
技术特点:灵活性高,允许用户根据自己的具体需求进行测试。
使用效果:这对于开发者或者需要解决特定问题的用户来说非常关键。我上次帮一个朋友测试他写的代码生成Prompt,就是直接在Arena里输入,然后对比两个模型生成的代码片段。

如何使用网站提供的服务?

使用LMArena(Chatbot Arena)的过程其实挺直观的,我跟你捋一捋:

1、支持哪些大模型?

LMArena支持的模型列表非常全,基本上你能想到的主流模型都会在这里找到。截至我上次看(这个列表更新很快!),大概包括但不限于:
OpenAI系列:比如GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo等。
Anthropic系列:像Claude 3 Opus, Claude 3 Sonnet, Claude 3 Haiku等。
Google系列:比如Gemini 1.5 Pro, Gemini Pro 等。
Meta系列:Llama 3 (各种尺寸,如8B, 70B), Llama 2 等。
Mistral AI系列:Mistral Large, Mixtral 8x7B, Mistral 7B 等。
国内模型:也收录了不少,比如阿里通义千问(Qwen)系列,还有其他一些知名模型。
其他开源模型:还有像Phi-3, Yi-34B, CodeLlama, StableLM 等各种针对不同任务优化的模型。
这些模型大多是基于Transformer架构,能力覆盖了文本生成、对话、编程、翻译、摘要等多个方面。LMArena会根据模型的大小、训练数据、发布方等信息进行区分,方便用户了解。

2、如何注册登陆网站?

一般情况下,访问LMArena(Chatbot Arena)进行模型对比和投票**不需要强制注册或登录**。你可以直接进入“Arena”页面开始测试。

但是,如果你想:

参与投票并留下你的评价
跟踪你的投票历史
或者未来可能获得的某些高级功能(虽然目前主要是免费开放的)。

那么,你可能需要注册一个账号。注册流程通常很简单:

找到网站右上角或者显眼位置的“Sign Up”或“Login”按钮。
点击后,通常可以选择使用Google账号、GitHub账号快速登录,或者提供邮箱地址和密码进行注册。
如果是邮箱注册,可能需要你点击收到的验证邮件完成验证。
登录后,你就可以在Arena里进行互动并投票了。
我个人因为想追踪一下模型的评分变化,就注册了个账号,用Google账号登录非常方便,几秒钟就搞定了。

3、介绍如何选择网站提供的免费大模型?

这里可能有个小误会,“选择网站提供的免费大模型”这个说法不太准确。LMArena本身不是提供模型让你直接下载或部署使用的,它是一个**评测和比较平台**。你是在**使用它的评测服务**,而不是直接“选用”模型。
如果你想使用它的评测服务(也就是上面提到的Arena模式),步骤是这样的:

访问Arena页面:在LMArena网站找到“Arena”或者“Chat”入口,点击进入。
输入你的问题(Prompt):在页面下方的输入框里,输入你想要问模型的问题、指令或对话内容。比如,“请写一首关于春天的五言绝句”,或者“帮我解释一下什么是量子纠缠”。
提交并等待:点击发送按钮。系统后台会随机挑选两个未标明的模型(比如显示为“Model A”和“Model B”)来生成回答。这个过程可能需要几十秒钟,取决于当前服务器负载和模型响应速度。
进行比较和投票:当两个模型的回答都出来后,你会看到它们并排显示。仔细阅读两个回答,判断哪个更符合你的预期,然后点击“Model A is better”、“Model B is better”或“Both are bad”/“Tie”按钮进行投票。你还可以选择性地写下投票理由。
查看下一轮:投完票后,你可以继续输入新的问题,开始下一轮的模型“对决”。
这就是使用其免费评测服务的基本流程。你不是在“选择”模型来用,而是在“测试”和“评价”它们。

4、介绍如何对比两个模型输出的内容?

对比两个模型的输出内容是LMArena(Arena模式)的核心体验,操作很简单:
发起对话:像上面说的,在Arena里输入你的prompt,然后提交。
等待结果:后台会分配两个匿名的模型(Model A 和 Model B)来生成回答。
并排审阅:当两个模型的回答都显示出来后,你会看到它们并排放在一起。通常左边是Model A,右边是Model B。它们的回答会清晰地展示在各自的区域里。
评估标准:你需要根据自己的标准来评估。这可能包括:
准确性:回答是否正确、信息是否可靠?
相关性:是否直接回答了你的问题?
流畅度与自然度:语言是否通顺,听起来像人话吗?
完整性:是否包含了所有需要的信息?
安全性与风格:回答是否恰当、是否有害?风格是否是你想要的?
创造力/深度:对于开放性问题,回答是否有新意或见解?
投票:根据你的评估,在每个模型回答下方对应的投票按钮(例如,“Model A is better”, “Model B is better”, “Tie”, “Both are bad”)中选择一个。
(可选)提供理由:你还可以点击“Edit reason”或类似按钮,简要说明你为什么这么投票。这对研究项目非常有价值。
继续或查看排名:你可以继续输入新的prompt进行下一轮对比,或者在网站其他地方查看基于这些投票生成的模型排行榜。
我每次对比都会特别留意细节,比如同一个知识点,一个模型解释得更透彻,另一个可能更简洁。这种对比确实能帮我快速了解不同模型的细微差别。

5、如何查看分析各类模型的使用情况和评分?

查看模型使用情况和评分,主要是通过LMArena的 **Leaderboards(排行榜)** 功能。
找到排行榜入口:在LMArena网站的导航栏或者首页,通常会有“Leaderboard”、“Rankings”或类似的链接,点击进入。
浏览排行榜:你会看到一个列表,展示了当前所有被评估过的大模型。这个列表通常会按某种评分标准(最常见的是Elo评分)降序排列。
模型名称:显示模型的具体名字(比如GPT-4o, Llama 3 70B Instruct等)。
Elo评分:这是核心指标,分数越高通常代表综合表现越好。这个分数是根据用户在Arena模式下的投票动态计算得出的。
胜率/其他指标:有时还会展示模型与其他模型的胜率对比、得分区间等辅助信息。
筛选与排序:排行榜通常提供筛选和排序功能,你可以根据模型的类型(如开源/闭源)、参数量大小、或者特定的评估基准(如果网站提供的话)来查看。
分析模型表现:通过观察排名和Elo分数,你可以了解:
哪些模型是当前最领先的。
某个模型相对于其他模型的具体优势(比如,你可能发现某个模型在“写作”任务上排名很高,但在“编程”上就没那么突出)。
开源模型和闭源模型之间的性能差距。
新模型的崛起速度。
我个人很喜欢看这个排行榜,感觉就像AI界的“武力排行榜”一样,实时更新,非常有参考价值。

6、有哪些API接口?如何使用API功能?

LMArena(背后的LMSYS Org)确实提供了一些API接口,主要是为了让开发者能够以编程方式访问他们的数据和评估结果。
是否提供API接口:是的,LMArena(LMSYS Org)提供了API。你可以在他们的官方网站(比如Chatbot Arena的GitHub仓库或相关文档页面)找到API的说明。
API功能:这些API通常允许你:
获取模型列表及其相关信息。
检索Arena的基准测试结果(包括Elo排名、模型胜率等)。
可能还可以提交对比请求(但这部分可能需要特定权限或用于研究目的)。
如何使用API功能:
查找API文档:首先需要找到LMSYS Org官方提供的API文档。这通常在他们的GitHub项目页面(搜索“lmsys chatbot arena github”)或者官方网站上能找到链接。
获取API密钥(如果需要):某些API可能需要注册并获取API密钥(Key)才能访问。查看文档了解如何申请。
理解API端点(Endpoints):文档会列出不同的API接口地址(URL),每个接口用于获取特定的数据,比如 /models 获取模型列表,/leaderboard 获取排行榜数据等。
构造请求:根据文档说明,使用HTTP请求(如GET请求)来调用API。你可以使用各种编程语言(如Python的requests库、JavaScript的fetch API)或者像curl这样的命令行工具来发送请求。
处理响应:API通常会返回JSON格式的数据。你需要解析这些JSON数据来提取模型信息、排名分数等。
例如,你可能会看到类似这样的请求(仅为示意):
curl https://api.lm-sys.org/models (这是一个假设的URL)
或者
import requests; response = requests.get(“https://api.lm-sys.org/leaderboard”); data = response.json()

需要注意的是,API的可用性和具体细节可能会随项目更新而变化,务必参考最新的官方文档。

7、有哪些访问方式?

LMArena(Chatbot Arena)主要提供了以下几种访问方式:
Web浏览器访问:这是最主要、最直接的访问方式。你只需要在任何现代网页浏览器(如Chrome, Firefox, Safari, Edge等)中输入 LMArena 的网址(https://lmarena.ai/),就可以直接使用其核心的比较和排行榜功能。这是我最常用的方式。
浏览器插件访问:目前,我没有找到LMArena官方提供专门的浏览器插件。它主要是一个独立的Web应用。
桌面版App:同样,LMArena没有提供独立的桌面应用程序(App)。它是基于Web的。
移动端App:虽然没有专门的移动App,但它的网站是响应式设计的。这意味着你可以在手机或平板电脑的浏览器上访问https://lmarena.ai/,网站界面会自动适应你的屏幕尺寸,让你也能进行模型对比和投票。我试过在手机上用,体验还可以,不过在小屏幕上仔细对比长回答可能稍微有点吃力。
总的来说,主要就是通过网页浏览器访问,无论是电脑还是移动设备都可以。

8、最近升级或者增加了哪些新的功能?

LMArena(Chatbot Arena)团队一直很活跃,会定期更新模型库和改进平台。根据我最近的观察和一些信息,他们可能增加或改进的功能包括:
新增模型支持:他们会迅速跟进并加入最新发布的大型语言模型,无论是闭源的还是开源的,让排行榜保持最新。比如最近Llama 3发布后,很快就在上面有了。
改进排行榜:可能优化了Elo评分算法,或者增加了新的维度来评估模型,比如针对特定能力(如长上下文处理、多语言能力)的子排行榜。
优化Arena体验:可能包括提高模型响应速度、改进用户界面、增加更多的投票反馈选项或理由标签。
数据可视化增强:可能会提供更丰富的图表来展示模型之间的对比关系、得分分布等。
API功能扩展:可能增加了新的API端点,允许开发者获取更多样化的数据。
因为更新频繁,具体到某一个时间点的“最新功能”最好是直接访问网站查看“What’s New”或相关公告。

还提供哪些收费的套餐或者功能?

根据我目前了解到的信息以及LMArena网站本身的介绍,**LMArena(Chatbot Arena)的核心服务是完全免费且无限量使用的**。
总的来说,你想怎么测就怎么测,完全免费,这一点对我们普通用户来说太友好了!

大家还提出了哪些问题

我在网上搜集和根据使用经验,总结了几个大家经常问的问题:
问:LMArena(Chatbot Arena)上的模型评分是绝对准确的吗?
答:不能说是绝对准确,但它是基于大量真实用户投票的众包评估,因此非常具有参考价值,能较好地反映模型在实际对话中的用户偏好。不过,评分也会受到投票用户群体、提问类型等因素的影响。

问:我可以用自己的API Key连接模型进行测试吗?
答:LMArena的Arena模式通常不允许用户接入自己的API Key。它提供的是平台托管的、匿名的模型进行对比。如果你想用自己的API Key测试特定模型,需要直接访问该模型提供商的平台。

问:为什么我有时找不到某个最新的模型?
答:LMArena更新模型库需要一定时间。如果某个模型刚发布,可能需要等待几天到几周才能在平台上可用。可以关注LMSYS Org的更新公告。

问:投票时选“Tie”(平局)或者“Both are bad”(两者都不好)对排名有影响吗?
答:有的。这些选项都会被纳入Elo评分系统的计算考量中,只是计算权重可能与分出胜负的情况有所不同。它们同样能帮助反映模型的真实表现。

问:LMArena的排行榜和Hugging Face的LLM Leaderboard有什么区别?
答:LMArena主要侧重于用户在真实对话场景下的主观偏好(通过Elo评分),而Hugging Face的排行榜则更多地基于一系列标准化的客观学术基准测试(如MMLU, GSM8K等)。两者各有侧重,互为补充。

其他用户的评价怎么样?

我收集了一些其他用户对LMArena(Chatbot Arena)的评价:
正面评价:“简直是AI模型的‘武道会’!每天上去看看哪个模型又进步了,还能亲自下场投票,感觉自己也参与了AI的进步,太有意思了!”
正面评价:“对于我这种想了解不同大模型能力边界的人来说,这里是首选。不用自己费劲去注册各个平台的账号,直接在这里就能横向对比,效率很高。”
正面评价:“我特别喜欢它的盲测机制,隐藏了模型名字,这样就不会因为‘我知道这是GPT-4’就下意识觉得它更好。评价更客观。”
正面评价:“排行榜更新很及时,每次有新模型出来,很快就能在上面看到它的排名和评分。对于关注行业动态很有帮助。”
负面评价:“有时候Arena匹配模型等待时间有点长,尤其是在高峰时段。而且偶尔会遇到两个模型都回答得不太行的情况,虽然可以投‘Both are bad’,但还是希望平台能优化一下模型选择的质量或速度。”

与同类应用对比有哪些亮点和不足?

我们来和几个类似的AI模型评估或展示平台简单对比一下LMArena(Chatbot Arena):
1. 对比 Hugging Face LLM Leaderboard

LMArena亮点:
交互式评测:提供直接的“Arena”模式,用户可以亲身体验和投票,基于用户偏好进行排名(Elo评分)。
更贴近实际使用:评分更侧重于对话的流畅度、趣味性和用户主观满意度。
实时性强:排名更新快,能快速反映新模型的表现。
LMArena不足:
客观基准相对较少:相比Hugging Face那样包含大量标准化学术基准测试(如MMLU、HellaSwag、ARC等),LMArena的客观评测数据可能不那么详尽。
Hugging Face亮点:
全面的基准测试:提供了非常详尽的、基于多种学术基准的客观性能得分,适合需要量化评估模型在特定能力上表现的研究者。
模型社区:Hugging Face本身是一个庞大的模型和数据集托管社区,信息更丰富。
Hugging Face不足:
评测方式较静态:主要是展示预计算的分数,缺乏LMArena那种实时交互的“竞技”体验。
2. 对比 Poe.com (Quora)

LMArena亮点:
专注于评测和排名:LMArena的核心目标是提供公平的模型比较和排名,其数据公开透明。
完全免费的评测:Arena模式完全免费,无限制。
LMArena不足:
功能相对单一:主要就是模型对比和排行榜。
Poe.com亮点:
集成多种模型+用户体验:Poe聚合了多个热门模型(包括LMArena上很多模型),提供了一个统一的聊天界面,用户可以方便地在不同模型间切换对话。
社区分享:用户可以创建和分享自定义的“机器人”(基于特定模型和Prompt)。
Poe.com不足:
评测非核心:Poe的主要目的是提供模型访问服务,虽然可以对比,但没有LMArena那样系统化的、基于众包的评测排名体系。免费额度有限,很多模型需要付费订阅才能大量使用。
3. 对比 Chatbot Arena 官方GitHub/项目页面

LMArena亮点:
用户友好的Web界面:LMArena.ai提供了一个图形化的、易于使用的Web界面,方便普通用户直接参与。
LMArena不足:
信息聚合度:相比直接看GitHub仓库,可能缺少一些底层的技术细节或研究论文的直接链接。
官方GitHub/项目页面亮点:
信息源头:通常包含最原始的研究信息、代码库、数据集(如果公开)、以及相关的学术论文。
技术细节:对于开发者和研究者,这里是获取最深入技术信息的地方。
官方GitHub/项目页面不足:
对普通用户不友好:界面通常是代码和文本为主,不方便非技术用户直接进行模型体验和对比。
总的来说,LMArena以其独特的众包盲测模式和清晰的排行榜,在AI模型评测领域占据了重要位置,尤其适合想要了解模型实际表现和用户偏好的用户。

数据统计

相关导航

暂无评论

暂无评论...