萝莉在线 27亿刀天价职工首个效果，谷歌版o1算出最难高考数学题，物理代码不毛闪电秒解

发布日期：2024-12-22 15:28 点击次数：139

萝莉在线 27亿刀天价职工首个效果，谷歌版o1算出最难高考数学题，物理代码不毛闪电秒解

OpenAI十二天直播萝莉在线，杀疯了的竟然是谷歌。

就在夜深，「谷歌版o1」Gemini 2.0 Flash Thinking片刻发布。

跟o1的政策访佛，它相同是将更多计较才能插足「推理时计较」——即模子实质贬抑遏题的时长。

但不一样的是，Flash Thinking能清亮地展示想考进程。

依然发布，它就径直屠榜Chatbot Arena。

从战绩来看，新模子在总榜位列第一，数学榜单第一，创意写稿第一，Hard Promt第一，视觉榜单第一！

举一个比较复杂的概率问题的例子。

淌若一直掷硬币，直到取得「正正正」或「正归正」，取得其中一个的几率和另一个的几率之比是些许？

这种水平的概率题，绝大大宗LLM王人会折戟。

但模子展示出了细心完备的想考进程，并鸿章钜字般地在34.7秒内就给出了最终谜底——2:3。

点击「张开检察模子想维」，即可不雅察推理进程

咫尺，Gemini 2.0 Flash Thinking已经在Google AI Studio和Vertex AI中上线了，建立者不错去免费测试。

对此，网友纷纷暗示，明明是OpenAI的圣诞特殊活动，怎么发出炸裂效果的全是谷歌？

咫尺王人是谷歌每天羞辱OpenAI

谷歌版o1澈底杀疯了，全是第一

在LLM竞技场上，Gemini 2.0 Flash Thinking连同Gemini-Exp-1206通盘，「横扫统统类别，荣登榜首」。

不管是复杂领导、代码、数学、创意写稿、指示跟随、长QA等等。

不外，这些名次并未包含OpenAI的好意思满o1模子。

但不管如何，Flash Thinking打了特殊漂亮的一仗。

这个模子，约略率即是谷歌对打OpenAI o1系列的火器，何况，它很可能不是最强版块，有时还有Pro或Ultra Thinking的存在。

据外媒THE DECODER报说念，Flash Thinking似乎是闻名AI盘问员Noam Shazeer进入谷歌后的首个责任效果。

淌若确凿如斯，谷歌27亿好意思元天价请回天才老职工的这笔营业，也算值了。

Shazeer是闻名论文「Attention is All You Need」的作家之一

在80百分位的情况下，Flash Thinking的反应速率险些是o1-mini的2倍！

比如底下这说念题，OpenAI的o1和o1 Pro永别用了102秒和138秒，而Gemini 2.0 Flash Thinking只花了14秒。

一举冲顶成为最强理科生，最难高考题也不在话下

有东说念主尝试把堪称「史上最难」的高考数学题扔给Flash Thinking，它尽然也给出了准确的修起。

这种清晰，胆怯了统统网友。

要知说念，这说念题连o1王人作念不出来。

何况更为蛮横的是，这说念题是汉文题。

能作念出数学高考题的含金量，无须细心证明了。

毕竟，中国的高考但是被Erudera评为地球上最难的历练。

而在Chatbot Arena的数学鸿沟中，Flash Thinking对比Flash相同也有着显赫性越过。

在物理方面，不错来望望底下这个演示，Flash Thinking展示了是如何贬责一说念物理题并阐发其推理进程。

演示中的题目为：一个电子被功令在一个一维无穷深势阱中，势阱壁位于x=- 0.15nm和x=+0.15nm处。求出电子在势阱中能级跃迁时辐射的四种最长波长的光子。

Flash Thinking最初会将问题自己复述清亮，接着就启动进行渐渐想考问题的求解门径。

经过16.9s的计较分析后，Flash Thinking给出了最终谜底，即为98.9nm，59.3nm，42.4nm ，37.1nm。

底下这个演示，则展示了Flash Thinking如那儿理触及触及视觉和文本陈迹的挑战性不毛。

演示中使用者最初上传了一张有四个台球的图片，并发问说念「我能怎么使用这其中的三个数字使其总数为30？」

在这个演示中，有一个很意旨的地点就在于中间第二个台球既不错识别为9，也不错倒置一下，识别为6。

Flash Thinking在初度尝试中先是将其识别为正常不雅察的9，但是发现并不成杀青问题的求解。

于是，他很灵敏的作念出了一个判断：「在题目中并莫得明晰的阐述每个数字只可出现一次」。

于是它启动尝试将数字进行重叠愚弄，但是照旧无法杀青问题的求解。

接着，意旨的地便捷来了，它独特地猜测了不错把9识别为倒置的6，这阐述它奏效地察觉到了这不单是只是一个数字游戏，而是实质上不错翻腾的台球。

最终取得了问题的正确谜底：愚弄11、13、6三个数字即可杀青总数为30。

总共想考进程清分解爽，一目了然。

从解题进程中不错看出，Gemini 2.0 Flash Thinking不仅能够杀青处理多模态信息，在求解实质的问题方面，它不再是也曾的大模子那种较为机械古板的智能水平，而是像东说念主一样能够学会去多视角地变通看待问题，最终活泼地取得问题的贬责决策。

谷歌DeepMind盘问者让Thinking模子尝试用不同步骤，求解普特南2024的一到数学题，然后自我考证谜底是否正确。

和学生的爸爸在他家做爱

35.9秒内，模子给出了谜底。

网友实测

手快的网友们，已经纷纷甩给了Gemini 2.0 Flash Thinking一堆不毛。

网友们给出的题目，难度王人不小。

比如这说念数列问题，条目写出一个数列的前六个数字，其中每个数字王人是前一个数字的三倍，且第一个数字是2。

最终，模子给出了正确谜底——E。

这位网友实测后发现，新模子的推理才能着实顽强，不光破解了单词网格不毛，致使连复杂的经济常识题王人作念得出来。

设想太阳能和模块化核反应堆的平日应用带来了弘大的动力供应，从经济学的角度深入想考以前十年可能出现的经济变化。请细心地分析可能产生的影响。

模子给出的谜底是：通货扩展率会着落，经济环境会发生要紧变化。

论断：变革的十年淌若太阳能和模块化核反应堆（SMR）电力的弥散性和可包袱性得以杀青，以前十年将见证一场深切的经济变革。咱们不错预期通货扩展率着落，经济环境发生要紧变化。

Hallid.ai联创indigo给了它一说念填数题，Thinking只需要20秒就作念出来了。

何况给出了正确谜底。

比拟之下，o1就花了40秒，何况还错了。

不外，不知说念是不是测试版的原因，Flash Thinking能不成数明晰「草莓」里的r，似乎统统取决于你给了啥prompt……

比拟之下，咱们在土产货跑的QWQ，不错节略贬责这个问题。

参考尊府：

https://x.com/JeffDean/status/1869789813232341267

https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/

作家：新智元，剪辑：剪辑部 HYZh萝莉在线，36氪经授权发布。

上一篇：白丝梁祝大全: 呜咽的大提琴《月牙》李维演奏。
下一篇：白丝足交最安全的植物染发剂哪个牌子好？网红同款！

友情链接：

Powered by 人妖女优 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024