ABeamInsight是如何看待当前大语言模型的价值？-智趣问答

ABeamInsight是如何看待当前大语言模型的价值？

Galactica模型上线的时候因为使用人数比较多，手机上随便输入了个题目想要生成survey，没排上队因为进门扫健康宝随手关了，没过几天就下线了，有点遗憾没能体验上。

看到一些评论说会生成一些真实的学者虚构的论文，或者虚构的学者真实的论文，这就是文本生成中的幻觉（hallucination），避免幻觉的产生是目前文本生成领域的难点之一，我一个月前在测试某度的大模型的时候，就会生成一些幻觉。比如我希望模型生成商汤科技的介绍，会出现莫名其妙名字的科学家。

我的感觉是目前基于大模型生成的文本只是“看起来像一回事”，固然有一些精心挑选的惊艳的case（合理怀疑这与训练集中数据有关），但大部分情况下只是压根都没法用。至少比起diffusionmodel在图像生成中惊艳的效果，目前基于大模型的技术距离生成有条理、有思辨性的文章还有一段不短的路要走。对于未来的科研，我认为暂时这个模型不会产生什么影响的。

模型在社区引发了一些有关学术伦理的争议导致很快下线了，遗憾没有用到这个模型的同时，我也简单聊聊读论文后受到启发的几个点吧。

我觉得最有意思的一点是Galactica能自己用Python来辅助数学运算了，不知为何这一点在许多相关的报道里面没有提及。

之前Google等公司已经开发过有类似能力的做题AI了（譬如Minerva），但这些模型对于数学运算的求解基本上依赖于语言模型的建模能力。

训练过神经网络LM的朋友应该能知道这类模型的运算能力既缺乏解释性、又没有可靠性，由此他们的运算正确率在实践中可能不是很有说服力。

而Galactica应该是第一个可以在运算中自动撰写Python脚本并执行的AI（有些相关工作用了Python来处理数学运算，但不是让LM自行调用Python）

我觉得这才是AI解题器正确的用法：即语言模型只理解语义和回答问题、而计算的事情交给更专业的”人“（Python解释器）来做。这种方法也和人类做题更加相似——因为咱们做理科题的时候也往往会单独打草稿，Python解释器运行的就是草稿本里面的逻辑。

虽然Galactica的这种做法很原始粗暴，且基本只能做一些简单的数字运算、无法做高级的代数或者算法的分析，但无疑是大幅度地增强了AI解题的可靠性。

第二点是老生常谈的数据工程。其实我认为这个paper最大的贡献就是利用数据工程做了一套完整的科研型AI的数据工程pipeline，包括两方面：

一是如何处理特殊文本和符号——包括引用、数学公式、化学式、DNA等等：

大部分特殊的文本和符号都用了prompt做封装，而封装内部的内容作者也做了很多一致化处理。这些数据工程其实是很重要也很麻烦的，MetaAI应该不会完全开源处理脚本、但提供的逻辑也很值得学习了。

二是训练集伪数据的构造，为了给Galactica学习完整的数理逻辑，MetaAI通过数据工程作模板造了大量伪数据，作者构造的伪数据模板给每个推理提供了详细的解题步骤和过程，前面那个带Python脚本的截图其实就是作者用模板构造的伪训练数据。

而作者花了很大篇幅讲述的prompttrain-tune细节等虽然也是很重要的实践参考、但我个人认为这些训练技巧的重要性和贡献度不及上面的数据工程、毕竟大型神经网络已经向我们展示了它们的神奇效果，弱一点训练策略大概率也能训出强AI。

第三点作者也在论文中讲过了，也就是之前的大规模AI工作大部分在堆数据的数量而不是建设数据的质量。Galactica用到的数据量在大模型中算很少的了（因此我觉得它和GPT系列不是一个赛道的选手）

论文中数据工程和一些其他尝试其实也是在增加数据的质量。作者在文末也夸耀到Galactica的优秀表现大概率来自于数据的高质量、badcase也更少。

小结一下：Galactica比起其他科研型AI，胜在质量好——运算质量好（可以自行调用Python）、数据质量好（做数据工程来处理原数据、构造伪数据）。用外部工具提升LM计算力和建设高质量数据也估计是未来工作的启发点。

而至于未来科研应用，我觉得离真正的AI科研或者AI创作还远得很，但是Galactica里有关reference生成、公式推导等部分也许可以作为独立的组件帮助写作——譬如自动化地给写作者提供参考文献、补全LaTeX公式等等，做一个论文写作版本的Copilot应该才是它的正确用法。

模型上线几天就下线了，还没有来得及深度体验。不过从科研需求的角度看，另一个AI工具Elicit能替代一部分功能。

随着人类的知识不断增长，学科也划分的越来越细。由此，通才几乎已经不可能存在，进而产生了一个痛点：我有一个问题，怎么寻找相关的文献？

最理想的情况是：我知道该搜什么关键词，我知道这是什么领域。

但在很多情况下，你根本不知道。你甚至不知道有没有人做过这个问题。有一个著名的生物笑话——年的一篇生物论文「重新发明了微积分」[1]。

这种现象有个专门的词——多重发现（multiplediscovery），维基百科上还有一个专门的词条：

从我个人的角度，我不期待、也不会使用Galactica去生成论文（试了一次，满纸荒唐）。我更期待的是它能帮我们避免多重发现：如果我问它如何计算两个曲线之间的面积，我希望它能让我去看看「微积分」。

多重发现（multiplediscovery）其实背后有一系列深刻的假设[2]，其中之一，就关于人类的知识结构——在解决具体问题的「论文」之上，还有一个抽象的「知识」层级。而一个研究者的工作能力，恰恰体现在「将具体问题映射到抽象的知识上」。

但这一点尤为困难，特别是在进行跨学科研究的时候。一不小心，就会搞出另一个「21世纪微积分」。而当前的NLP在这个问题上大有可为。

总结一下，我感觉Elicit的功能似乎更针对真实的科研，至于Galactica的「生成论文」……工作不要啦？？？

有人提到未来的GPT-
4，我表示谨慎乐观。目前的GPT-3在推荐关键词、协助科研方面就是个废物。你让它给你推荐几篇文章，它会装模作样地给你一堆论文标题，甚至还有DOI、链接。但是打开之后内容完全不对。不过这也可以理解——没有专门为论文调优过，效果自然好不到哪里去。

温馨提醒

本页面内容来自互联网用户分享，仅供参考，如有侵犯到你的权益请联系本站，将在24小时内做出处理!

本页地址 http://www.371dns.cn/12555/2350.html

上一篇：你觉得这种梦可怕吗？
下一篇：2024年三明有哪些新的招商政策？

ABeamInsight是如何看待当前大语言模型的价值？

公司事务#“ABeamInsight是如何看待当前大语言模型的价值？”推荐