发布日期:2024-09-09 17:28 点击次数:70
西风 发自 凹非寺量子位 | 公众号 QbitAI
最新大言语模子推理测试引众议,DeepSeek R1不时在提供失实谜底前就“我废弃”了??
Cursor刚刚参与了一项沟通,他们基于NPR周日谜题挑战(The Sunday Puzzle),构建了一个包含近600个问题新基准测试。
这些谜题特色是很好交融,不需要专科知识就能看懂,然鹅处分起来却没那么容易。
举个栗子:
想一个熟练的五个字母、两个音节的单词。将中间字母改为字母表中该字母前边的字母,你将获得一个熟练的五个字母、三个音节的单词。这个单词是什么?
模范谜底是alpha → aloha,很容易考证。
但这么的题,即等于在好意思国长大讲英语的成年东说念主,五天也很高深出来。
沟通东说念主员用此最新基准,对OpenAI o1、OpenAI o3-mini、DeepSeek R1和Google Gemini Flash Thinking等模子进行测试,遵守发现这些最新一代的推理模子处分这么的谜题也很具挑战性。
他们还暗示,沟通揭示了一些新的模子“故障”模式,这在现存的基准测试中并不赫然。
比如DeepSeek R1会在推理经过中径直废弃,然后给一个它明知是失实的谜底,未必还会堕入“无尽念念考”景色。
具体来望望是若何回事。
周日谜题挑战数据集
“人品不行,终究打回原形!”网友犀利总结。“老俞”与“瘦子小孙”当年联手排挤的,如今凭借《与辉同行》的文旅项目风生水起,还创办了五家公司。而反观“东方某选”,不仅江河日下,甚至连曾经的辉煌都快被遗忘。这一场“凉凉”,究竟是商业竞争的常态,还是人心不古的后果?且听我娓娓道来。
马筱梅把一瓶豆汁儿,摆在精美的盒里,那时候宾客到,就能抽标识领礼物了!麻六记高层洋洋则抽中了马筱梅精心准备的豆汁儿,一开始洋洋估量着小箱子特别重,还以为品牌包,结果显示豆汁儿,洋洋立即拿出一瓶,全喝掉!长期在北京居住,谁还会喝不了一碗豆汁儿呢?
NPR Sunday Puzzle Challenge,是好意思国一档播送才调游戏节目,自1987年以来一直在播,每周日听众齐会收到一个直快谜题。
这些谜题泛泛波及字母游戏,只需要平素的英语知识和好意思国文化学问就能交融。
不外每个谜题泛泛唯有一个或少量数正确谜底,题目难度互异,即便听众有整整五天的时期念念考,未必终末也唯有少数听众能想出正确谜底。而当谜底揭晓时,听众们齐会幡然觉悟以为这个谜底既正确又优雅。
最近,来自韦尔斯利学院、得克萨斯大学奥斯汀分校、查理大学、Cursor、欧柏林学院、好意思国东北大学的沟通团队,从网上捏取了13年的周日谜题挑战纪录构建了一个数据集。
他们认为,咫尺一些最新基准测试用格外难的任务评估模子,比如大学级数学竞赛问题、编程问题以及需要在学术范围深切的范围专科知识问题,这种策动不仅对东说念主类来说难以处分,而况也格外难以交融和考证。
也就是说,大多量东说念主或无法查验谜底是否确乎正确,或无法考证模子在推理上是否正确且有用。
于是,他们从这个节目标“off-air challenges”中整理出了近600个问题手脚测试数据集。
这些题目很好交融且便于考证。
在整理经过中,他们补充了必要的高下文信息(时期、所在等),比如在一个对于电影称呼的谜题中,专诚标注了具体年份,幸免歧义。
电影Wild Wild West的首字母缩写是三个W。请示旧年2013年哪部著名电影的首字母缩写有两个W?模范谜底:The Wolf Of Wall Street
为确保每个问题的谜底了了明确,大多量挑战齐有一个或少数几个专有谜底,像底下这么婶儿有很多谜底的问题齐被pass掉了:
然后团队用该基准评估了一众顶流推理模子,包括OpenAI o1、o1-mini、o3-mini,DeepSeekR1、谷歌Gemini 2.0 Flash Thinking Experimental01-21,手脚对照,还测试了不具备推理功能的GPT-4o和Claude Sonnet 3.5。
测试接收zero-shot prompting,径直向模子提供问题,不给任何罕见的形状证实或调换。
不外有些谜题题目自身自带示例证实:
SWITZERLAND(瑞士)的字母不错再行陈列成LIZARD(蜥蜴)和NEWTS(蝾螈)两个单词,迪士尼彩乐园二LIZARD是一个动物的单数形状,而NEWTS是复数形状。请再说出另一个具有相似性情的国度。即另一个其字母不错再行陈列来拼写两种动物——一个单数和一个复数的国度。它是一个主要国度。这个国度是哪一个?模范谜底:Mexico(墨西哥) → ox(牛),mice(老鼠)
团队给出的最终测试遵守却出东说念主预料。
凭证下图该基准的平均准确率,OpenAI o1发扬最优,准确率为59%;然后是o3-mini,准确率为47%,DeepSeek R1准确率为35%。
不具备推理功能的GPT-4o和Claude Sonnet 3.5赫然不如推理模子。
出东说念主预料的点在于,在博士级科学问题GPQA基准上,DeepSeek R1、OpenAI o1和o3-mini的发扬差距不大,然则在该基准上o1在通用知识方面却显露出赫然的上风。
团队还不雅察到一些新的模子“故障”模式——推理半说念“I give up”
这种废弃发扬出两种形状,一种是给出一个在推理经过中全齐莫得出现过的“捏造”谜底
另一种是明知违背问题拘谨但仍然给出谜底,常发生不才面这种问题中:
想一个包含三个音节的八个字母的单词,每个音节中齐包含字母“I”,但奇怪的是,莫得一个“I”发音,不论是长音仍是短音。谜底不是复数形状。这个单词是什么?模范谜底:Daiquiri
以DeepSeek R1为例,它给出了“queueing”这个谜底,并径直暗示这个谜底“有点牵强”,还证明有些东说念主可能会把“queueing”发音为“kyoo-ee-ing”。
团队暗示,在595个测试问题中,DeepSeek R1在142个问题上明确“废弃”。
此外,他们还发现R1等会堕入“无尽念念考”的景色,在达到32768token高下文输出轨则前无法完成推理,并莫得。
极端在以下两个挑战中R1发扬欠安,在10次检修中有5次未能完成推理。
即使将轨则提高到128K,这个问题仍然存在,由此,团队认为R1需要某种推理时机抵制机制,饱读舞模子在接近输出token轨则时兑现推理。
沟通东说念主员还发现,这些推理模子未必会发扬出极端的概略情趣,可能会建议一个谜底,立时又收回,然后尝试给出新谜底。
在某些情况下,模子很早就找到了正确谜底,但仍会持续探索其它可能性。
终末团队分析了推理长度与准确率的磋磨,发咫尺输出约10000个token后,持续推理对擢升准确率的匡助不大
对于R1来说,在输出约3000 token时就运转首先Gemini Thinking的发扬。
新基准激勉网友热议
这项沟通发布后,在Hacker News上引起网友强烈沟通。
其中最具争议的一个点在于,有网友认为这项沟通并非传统真义上的“推理”挑战
处分这些问题所需的中枢手段似乎是清楚“流行品牌名”或“知名演员”等类别的所有已知称呼,查验它们是否得当。手脚东说念主类,你可能会因为不知说念某个极端称呼而永久无法回应某个问题,举例不是好意思国东说念主,我不知说念“Citgo”是什么,我这辈子从未见过这个名。
网友暗示这果真是一个AI系统原则上可能果真擅长的事情,但当测试实质过于侧重“挂牵回忆”时,把它称为“推理”似乎很奇怪。
如若问题是多项选择的,排斥了让候选谜底浮咫尺脑海中的挑战,那么我会开心这是一个“推理”测试。
持此不雅点的网友不在少数。
我有同样的主意。这让我想起处分Project Euler问题,泛泛存在一种赫然的通俗要害不错保证得出正确谜底,但如若试验到完成,将挥霍过多的内存/计较资源。如若教导模子制定一种有用处分这些挑战的政策,而不是径直处分它们,模子的发扬可能会好得多……这标明了一个潜在的雠校标的。
另外,针对模子发扬不一,也有网友建议能否详情这些谜题和谜底没被加到模子的老师数据中的疑问。
聚焦到沟通遵守上,网友对沟通中的发现很感兴味:
意思的是,模子在推理中泛泛包含正确谜底,但却没能意志到这一丝。
数草莓问题中“r”这一问题也再被网友搬出,有网友认为模子发扬欠安的要害仍是在分词器上。
对于这项沟通你若何看?
论文聚会:https://arxiv.org/abs/2502.01584测试遵守和数据集:https://huggingface.co/spaces/nuprl/verbal-reasoning-challenge参考聚会:https://news.ycombinator.com/item?id=42992336
上一篇:迪士尼彩乐园最新版本 丹麦发布精锐部队实弹检会照 使用好意思国机枪 展示保卫格陵兰的信心
下一篇:没有了