Products
剥茧教育 2026-05-22 10:49 3
本文共计1231个文字,预计阅读时间需要5分钟。
想象一下,未来的法庭上,除了人类法官,还有AI法官坐镇,它们能否像地方法官一样,权衡各方主张,将复杂的法律学说应用于事实,并做出有理有据的裁决?这个问题,近日的一项重斤研究“Magis-Bench”给出了初步 目前的顶尖AI,距离真正合格的“AI法官”还有很长的路要走!

由巴西Maritaca AI、Jusbrasil等机构的研究团队,在国际人工智能与法律会议发布了全球首个地方法官级别法律任务评估基准——Magis-Bench。与以往AI法律基准多侧重于生成法律论证或文件不同,Magis-Bench直指法律系统中最核心的能力之一——判决!它旨在评估大型语言模型是否能像一名合格的法官那样,进行严谨的法律推理和专业的文书写作。
这项基准不玩虚的,直接采用2023年至2025年间巴西实际进行的8次司法职位竞争性考试中的74个真题。这些考题不仅包含多轮对话式的论述性法律分析,更要求模型撰写完整的民事和刑事司法判决书!每个题目都附有详细的官方评估标准,仿佛一位真实的考官,对AI的答卷进行0到10分的严格打分。其难度可想而知,这远超简单的法律条文检索或文本生成,而是对AI法律知识运用、逻辑推理、文书结构和司法判断力的综合考验。
研究团队史无前例地动用了强大的“AI法官团”——四个独立的顶尖大模型作为评估者,对23个主流大型语言模型进行了盲测。结果显示:
谷歌的Gemini-3-Pro-Preview表现最佳,取得平均分6.97/10,其次是Gemini-3-Flash-Preview (6.67) 和Claude-4.5-Opus (6.46)。
最令人震惊的是,即使是表现最好的模型,其得分也未达到最高分的70%!这意味着,按照巴西司法考试的标准,这些顶尖AI模型,全部“不及格”!
这表明,地方法官级别的法律推理和写作对于当前的大型语言模型来说,依然充满巨大的挑战。司法判决不仅仅是堆砌法律条文,更需要:
严谨的逻辑分析:准确理解案情事实,抽丝剥茧,权衡各方矛盾,识别法律核心问题。
深厚的法律理解:灵活运用法律学说、判例法和法律原则,而非简单匹配。
公正的裁决能力:排除主观偏见,作出合法且公正的判断,并进行充分论证。
专业的文书撰写:遵循严格的司法文书格式和语言规范,确保论证清晰、严谨。
这些复杂任务,超出了目前AI模型单向、以辩护为导向的法律文本生成能力,更侧重于以司法立场进行的客观、全面的判断和决策。
Magis-Bench的另一大亮点在于其评估方法的严谨性。研究发现,四个独立的“AI法官”在模型排名上显示出非常高的一致性,这表明评估结果捕捉的是模型质量的真实差异,而非任意偏好。研究团队还通过“校准测试”证实,“AI法官”能够准确区分真正优秀的 和普通的模型输出,进一步增强了评估结果的可靠性。
这项研究填补了法律人工智能评估的空白,首次将目光聚焦于“地方法官级”的司法能力。尽管结果显示AI仍需努力,但Magis-Bench的发布,无疑为未来法律AI的发展指明了方向。随着AI技术的不断进步,特别是其在司法推理和决策支持系统中的应用,一个更加智能、高效的法律系统或许离我们并不遥远。
----------------
英文原文:https://arxiv.org/abs/2605.08437
中文译文:https://www.run1tech /pdf/toutiao/2026-05/4d74d5fe91e34ab8a1dea7eb6af81a9f.pdf
Demand feedback