九游app 香港科大与新加坡国立大学找到了评判AI翻译SQL语句的更好设施

发布日期：2026-04-27 点击次数：133

这项由香港科技大学（广州）与新加坡国立大学共同主导的商量，发表于2026年4月，论文预印本编号为arXiv:2604.12988，商量标的从属于计较机数据库边界（cs.DB）。

你有莫得碰到过这么的情况：你问一个东说念主"帮我从账本里找出上个月花了几许钱"，他回身给你写下的算式和你心里想的不完全一样，但算出来的谜底却是对的。这时候，你会说他答错了吗？大多数东说念主会说，答对了，毕竟你要的等于阿谁数字。

相干词，面前主流的AI评估体系，却偏巧会说他"错了"。

这恰是这篇论文试图措置的中枢问题。商量的主角，是一种叫作念"NL2SQL"的本领——全名是Natural Language to SQL，浮浅说等于"把东说念主类说的话翻译成数据库能读懂的查询谈话"。当你对一个智能系统说"帮我找出销售额最高的三个月"，背后的AI需要把这句话翻译成一串结构化的数据库指示（SQL语句），才能着实去数据库里"取货"。

这项本领在多半数据分析、企业报表、智能客服等场景里极为常见。而如何判断AI翻译得好不好，一直是个让商量者头疼的难题。商量团队给出的谜底叫作念**ROSE**，全名是ReasOning ScorE（推理评分），并配套构建了一个由众人共鸣标注的考据数据集ROSE-VEC。

---

一、旧裁判犯了什么错

先从"老裁判"提及。现存的主流评估圭臬叫作念实行准确率（Execution Accuracy，简称EX）。它的责任道理特殊直白：把AI写的SQL和东说念主工标注的"圭臬谜底SQL"各自跑一遍，如果双方跑出来的数据放胆一模一样，就算对；不一样，就算错。

这听起来很合理，但商量团队通过多半实测发现，这位"老裁判"在至少三种常见情况下会判错。

第一种情况，叫作念"写法不同，谜底疏浚"。数据库查询就像作念数学题，同沿途题不错有多种解法，比如先排序再取第别称，和平直取最大值，终末都能得到合并个冠军。但EX只强劲"圭臬谜底写法"，一朝AI用了另一种正当但不同的写法，它就判"错"。商量发现，这类误判带来的假阴性比例高达28.9%，也等于说快要三成正确谜底被冤枉成毛病谜底。

第二种情况，叫作念"问题本人有歧义"。比如"上个季度推崇最佳的居品是哪个"，有东说念主伙同为销量最多，有东说念主伙同为收入最高——两种伙同都合理，写出来的SQL当然不同。EX只强劲那一份标注好的圭臬谜底，其他合伙同读一律判错。一项专门商量歧义问题的基准测试Ambrosia发现，突出一半的"失败案例"其实都源于这类歧义。

第三种情况更贫乏，叫作念"圭臬谜原来人就写错了"。大边界数据集里，标注员也会犯错。商量者审查了BIRD Dev这个著明数据集，发现圭臬谜底SQL的毛病率高达6.91%，而在他们我方抽样核查时，竟有约25%的样本被至少一位众人象征为有问题。用一个毛病的圭臬谜底去评判AI，等于用一把迂回的尺子量东西，量出来的数字能信吗？

由此可见，EX这位"老裁判"的问题，不是偶发性的小谬误，而是系统性的结构残障——它太执着于"和圭臬谜底长得像"，而健忘了评判的着实宗旨：AI写的SQL，到底有莫得修升引户的问题？

---

二、新裁判是如何责任的

ROSE的中枢瞎想玄学，不错用"先寂然判断，再经受质疑"来伙同。

扫数这个词评判经过分红两个变装，一个叫"证明者"（SQL Prover），另一个叫"反驳者"（Adversarial Refuter），两者串联组成一个审查活水线。

证明者的责任原则是完全寂然。它拿到一条AI写的SQL，同期拿到用户的原始问题和数据库的结构信息，然后在完全不看圭臬谜底的情况下，自行判断这条SQL有莫得正确修升引户的意图。它就像一位考官，只看学生的答题纸和原题，不参考"圭臬知道"，爽朗从逻辑和语义上评判谜底合分歧理。

相干词，仅靠证明者还不够，因为它有时会"过于宽松"。假定AI刚巧写了一条逻辑有残障的SQL，但恰好在这个数据库景象下跑出了正确放胆，证明者可能会被放胆招引，误判为正确。这等于所谓的"巧合正确"——好比一个学生答错了解题过程，却蒙对了最终谜底，如果只看谜底就会毛病地表扬他。

反驳者等于专门对付这种情况的。它在拿到圭臬谜底SQL之后，并不是浮浅地拿来"比对"，而是把它动作一件"有劲但弗成盲信的左证"，专门用来挑战证明者的判断。具体来说，在双方SQL实行放胆疏浚的情况下，反驳者会长远比对两条SQL的逻辑，望望AI的那条是否只是刚巧答对，照旧确凿伙同了问题。而在双方放胆不同、但证明者也曾判AI为"正确"的情况下，反驳者会进一步分析：到底是AI的逻辑更贴合用户意图，照旧圭臬谜底更准确，抑或这说念题本人就有歧义，两种写法都合理？

反驳者还有一个额外的智力：打"会诊标签"。当它判断某个案例的问题来自问题歧义时，凤凰彩票(welcome)APP官网下载它会打上"AmbQ"（Ambiguous Question，问题歧义）的标签；当它发现圭臬谜底SQL本人存在毛病时，会打上"GoldX"（Gold Error，圭臬谜底毛病）的标签。这让ROSE不单是是一个打分器具，同期亦然一个数据集质料审查器具。

在扫数这个词活水线中，独一通过了语法查验、经证明者寂然阐述、并最终扞拒了反驳者挑战的SQL，才能赢得满分1分；任何一关没过，都是0分。

---

三、用众人打分来教诲裁判是否可靠

光是瞎想出一套新评判体系还不够，还得证明它比旧体系更靠谱。为此，商量团队专门构建了一个考据数据集，叫作念ROSE-VEC。

这个数据集包含585个"问题-SQL展望"对，来自多个主流NL2SQL系统在Spider和BIRD两大巨擘数据集上的真实输出。每一个案例都由五位众人中的两位寂然打分，只保留两东说念主观点完全一致的案例。这五位众人都是计较机科学专科的商量生，在参与标注前已各自积蓄了至少两个NL2SQL相干技俩的商量教导，并经过专门的标注培训。

有了这个"众人共鸣"数据集，商量团队就能客不雅揣度：各式评估蓄意的判断，到底有多接近众人的判断。揣度方式采纳了多个统计蓄意，其中最中枢的是Cohen's Kappa（κ），这是一个专门用来揣度"超出当场揣度之上的一致性"的蓄意，越高代表越可靠。

放胆特殊澄澈。EX的κ值独一25.56%，意味着它和众人判断的一致性免强高于瞎猜的水平。同类的LLM裁判器具FLEX（一种相通用大谈话模子打分的评估设施）在最强的OpenAI o3模子赈济下达到了56.70%。而ROSE在相通的模子赈济下，达到了80.43%，比FLEX高出快要24个百分点。

准确率（ACC）相通说明问题：EX独一55.90%，FLEX达到78.97%，ROSE则达到了91.79%。

商量团队还测试了"如果去掉反驳者，只用证明者"会怎么，放胆是κ值降到60.74%——依然突出FLEX，但昭着低于齐备版ROSE。这说明反驳者这个"抉剔的质疑者"如实阐述了弗成替代的作用。

除了使用OpenAI o3，商量团队还测试了Google Gemini-2.5 Pro和开源的DeepSeek-R1。三款模子下，ROSE都褂讪超越了同模子下的其他评估方式，只是皆备数值有所各别——举例DeepSeek-R1启动的ROSE达到了64.49%的κ值，Gemini-2.5 Pro启动的ROSE为69.68%。这说明ROSE的上风在于设施瞎想本人，而非依赖于某款特定模子。

---

四、会诊智力：顺遂捏出数据集的时弊

ROSE的会诊标签功能在考据中也赢得了量化证明。

商量团队将反驳者象征为"圭臬谜底有错"（GoldX）或"问题有歧义"（AmbQ）的案例，交给东说念主工二次核验，计较"打对了几许"（精准率）。

在OpenAI o3启动下，GoldX标签的精准率达到84.32%，AmbQ标签的精准率达到91.23%。换句话说，ROSE每象征100个"圭臬谜底可能有问题"的案例，有84个经东说念主工阐述如实有问题；每象征100个"这说念题有歧义"的案例，有91个被东说念主工认可。这个准确率也曾足以赈济自动化的数据集质料审查。

不同底层模子下的推崇各别也很有规则：OpenAI o3最强，九游app下载Gemini-2.5 Pro居中，DeepSeek-R1较弱——疏淡是在AmbQ标签上，DeepSeek-R1的精准率独一51.85%，说明歧义识别对模子的推颖异力条目更高。

---

五、大边界再行评估19个NL2SQL系统后发现了什么

有了ROSE这把新尺子，商量团队再行测量了19个主流NL2SQL系统在BIRD Mini-Dev数据集（500说念题，11个数据库）上的推崇，并将放胆与EX对比。此次大边界复测带来了四个值得关爱的发现。

**第一个发现：是底层模子的智力决定了上限，而不是系统瞎想的精妙进度。**

商量者发现，扫数NL2SQL系统不错按使用的基础谈话模子分层聚类——GPT-3.5时期的系统聚在低分区，GPT-4时期的聚在等分区，GPT-4o和GPT-5时期的聚在高分区。合并时期内，不管系统用了几许尽心瞎想的多法子活水线和教唆工程技能，推崇都被基础模子的天花板紧紧压住。比如基于GPT-4o的RSL-SQL（ROSE得分81.92）全面超越基于GPT-3.5的C3-SQL（46.29），而GPT-4平直在零样本下（66.53）致使突出了同期代尽心打磨的DAIL-SQL（55.60）——因为后者用的是更早版块的GPT-4，而基线使用的是更新的版块。这意味着，频年来很多被归功于"系统瞎想翻新"的性能进步，履行上很猛进度上是基础模子升级带来的，商量者应该更严慎地将系统孝顺与模子孝顺划分开来。

**第二个发现：随着模子越来越强，EX和ROSE之间的分差越来越大，这是一场评估危急的信号。**

在2023年中的早期系统（如CoT、C3-SQL）上，EX和ROSE的差距还不到5个百分点。但到了2025年中期的最新系统，差距也曾扩大到突出20个百分点。以GPT-5为例，EX只给它打了55.74分，而ROSE给出了88.93分——差了33分。这种发散趋势不是偶而，背后有两层原因。一方面，早期模子犯的毛病频频是着实的语义毛病，EX和众人都会判错，两者一致；而如今的模子越来越少犯着实的逻辑毛病，更多的情况是写了"正确但与圭臬谜底写法不同"的SQL，EX判错而众人合计是对的。另一方面，更强的模子生成的SQL在写法上更为万般，更富余创造性抒发，但EX的严格比对机制恰恰对这类"创意写法"最不友好。EX越来越像是在处分模子的越过，而不是准确响应它。

**第三个发现：EX和ROSE之间的分歧，主要开始是数据集本人的残障。**

商量团队驾驭ROSE的会诊标签，专门统计了在"圭臬谜底有错"（GoldX）和"问题有歧义"（AmbQ）这两类样本上，EX和ROSE的不一致比例。放胆极为权臣：在GoldX样本上，不一致率突出80%（对扫数被测系统均如斯）；在AmbQ样本上，不一致率保管在60%傍边。比较之下，举座数据集的平均不一致率不到20%。这意味着，EX和ROSE之间突出一半的分歧，不错归因于数据聚积圭臬谜底毛病和问题歧义这两类不错被诞生的残障——如果畴昔的数据集能减少这类问题，EX的可靠性也会相应进步。

**第四个发现：微调（Fine-tuning）会减弱EX和ROSE之间的差距，但这未必是善事。**

对比教唆工程型系统和微调型系统，前者的EX与ROSE差距昭着更大（平均约12.9分），后者则小得多（平均约3.4分）。但商量团队的分析涌现，这种差距减弱并非来自微调系统确凿更好地伙同了语义——而是因为微调让模子"学会了"数据集里圭臬谜底的写稿作风，让展望的SQL在名义神气上更接近圭臬谜底，从而赢得更高的EX分数。一个理由的反例是OmniSQL，它主要在大边界合谚语料（SynSQL）上教诲，莫得深度合乎BIRD数据集的写稿作风，放胆EX与ROSE之间的差距反而比其他微调设施大。而反过来，像CodeS和CHESS这类可能对教诲数据过拟合的模子，EX致使比ROSE还高——意味着它们靠作风拟合把EX刷高了，却并莫得着实更好地伙同用户意图。微调可能只是在教模子"写得像谜底"，而不是"想明晰问题"。

---

六、系统的效果和永恒珍惜机制

一个实用的评估器具，还需要在效果和老本上经得起推敲。商量团队在时刻效果方面作念了专项测试，放胆涌现：ROSE在单线程下平均每题需要22.48秒，昭着高于EX的1.22秒。但通过8线程并行，每题时刻降到了3.35秒，扫数这个词322题的BIRD考据集跑完只需18分钟。

在老本上，ROSE反而故不测的上风。由于扫数这个词经过瞎想了"按需调用"机制——独一当证明者判为"正确"时才触发反驳者，因此履行上独一约45%的案例需要两次LLM调用，另外55%只需要一次。最终测算下来，ROSE在BIRD考据集上的平均每题老本为0.007好意思元，反而比FLEX的0.0118好意思元更低。

商量团队还为ROSE瞎想了一套版块束缚机制。每个ROSE实例都标注了底层模子和版块时刻，举例ROSEo3-2504代表使用2025年4月版o3的ROSE。当有更新的模子出当前，团队会在ROSE-VEC上再行考据，独一在准确率、κ、MCC、F1四个蓄意全部不低于前任模子的前提下，才会隆重切换为新的"官方版块"，以幸免版块迭代导致历史分数弗成比。

---

七、ROSE还会犯哪些错

商量团队对ROSE在BIRD考据集上的扫数判断毛病进行了逐案东说念主工分析，共发现29个谬误，其中26个是"漏判"（明明正确却打了低分），3个是"误判"（明明有问题却放行了）。这说明ROSE举座上偏保守，宁可错判正确为毛病，也不正常把毛病放过。

漏判主要聚积在三类场景。最多的是"逻辑健壮性"问题：AI写的SQL恰好在当前数据库景象下跑出了正确放胆，但如果数据变化（比如一个账户有了多笔纪录），谜底就会出错。ROSE会发现这种潜在的逻辑时弊并判为毛病，但众人有时经受"当前谜底是对的"这一事实而给出正确判断。其次是单元和形式问题：比如题目问"百分之几"，但AI给的是0到1之间的一丝比例，众人可能经受这是等价抒发，而ROSE会合计语义上如实有各别。第三类则是宇宙知识和模式解读的歧义：比如"最高经度的学校"，众人合计用皆备值取最大经度是合伙同读，而ROSE相持按字面道理取数值最大的经度。这些毛病揭示了ROSE作为一个基于谈话模子的评估器，在一些需要知识活泼性的细节判断上，仍然可能比真实众人更"刻板"。

---

说到底，这项商量作念的事情，是给AI翻译数据库谈话这件事配上一位"更懂东说念主意"的裁判。

往日咱们用的裁判太稚童，只认圭臬谜底的长相，不管谜底的道理。ROSE的出现，特殊于把裁判从"死记硬背型"换成了"伙同题意型"——先寂然看你答得对不对，再用参考谜底来质疑你有莫得偷懒取巧。

从实验放胆来看，这位新裁判和真实众人的判断一致性高出旧裁判整整三倍，况且还顺带帮商量者发现了现存数据集里多半积蓄的毛病和歧义问题。这对扫数这个词边界都有价值：不仅让现存AI系统的智力被更准确地揣度，也指出了畴昔数据集配置应该更隆重标注质料和问题澄澈度。

这项责任也建议了一个让东说念主深念念的问题：当AI越来越奢睿，能用多种正确方式完成任务时，咱们的评判圭臬是不是也应该随着进化？照旧说，咱们会链接用一把迂回的旧尺子，得出一个"AI没什么前途"的毛病论断？

对这个问题感敬爱的读者，不错通过论文编号arXiv:2604.12988查阅齐备原文，相干代码和ROSE-VEC数据集也已在GitHub上公拓荒布。

---

Q&A

Q1：ROSE评估蓄意和传统EX评估蓄意的根底区别是什么？

A：传统EX只比较AI写的SQL和圭臬谜底SQL实行放胆是否完全疏浚，谜底只须不一致就判错，完全不管AI的写法是否合理。ROSE则不同，它先让"证明者"寂然判断AI的SQL有莫得正确伙同用户的发问意图，再用"反驳者"拿圭臬谜底来挑战这个判断，最终宗旨是评估AI有莫得着实修起了用户的问题，而非是否和圭臬谜底写法一致。在众人考据集上，ROSE与众人判断的一致性达到80.43%，而EX独一25.56%。

Q2：ROSE发现现存NL2SQL数据集最主要的质料问题是什么？

A：商量发现两类主要问题：一是圭臬谜底SQL本人写错了，被象征为GoldX；二是问题本人存在多种合伙同读，被象征为AmbQ。在圭臬谜底有错的样本上，ROSE和EX的判断不一致率突出80%；在有歧义的问题上，不一致率约为60%。这两类问题算计解释了突出一半的蓄意各别，说明数据集质料是评估可靠性的关键瓶颈。

Q3：NL2SQL系统靠微调来提高分数是确凿变犀利了吗？

A：不一定。商量发现，微调系统的EX分数和ROSE分数之间差距更小，但这主淌若因为微调让模子学会了效法教诲数据集里圭臬谜底的书写稿风，导致EX分数虚高，而不代表着实进步了语义伙同智力。一些在独到数据上深度微调的模子，EX致使比ROSE高九游app，说明它们是在"写得像谜底"而非"着实伙同问题"。

澳门威斯人app官网下载入口