ABeamInsight是如何看待当前大语言模型的价值?

Galactica模型上线的时候因为使用人数比较多,手机上随便输入了个题目想要生成survey,没排上队因为进门扫健康宝随手关了,没过几天就下线了,有点遗憾没能体验上。看到一些评论说会生成一些真实的学...
  
ABeamInsight是如何看待当前大语言模型的价值?

Galactica模型上线的时候因为使用人数比较多,手机上随便输入了个题目想要生成survey,没排上队因为进门扫健康宝随手关了,没过几天就下线了,有点遗憾没能体验上。

看到一些评论说会生成一些真实的学者虚构的论文,或者虚构的学者真实的论文,这就是文本生成中的幻觉(hallucination),避免幻觉的产生是目前文本生成领域的难点之一,我一个月前在测试某度的大模型的时候,就会生成一些幻觉。比如我希望模型生成商汤科技的介绍,会出现莫名其妙名字的科学家。

我的感觉是目前基于大模型生成的文本只是“看起来像一回事”,固然有一些精心挑选的惊艳的case(合理怀疑这与训练集中数据有关),但大部分情况下只是压根都没法用。至少比起diffusionmodel在图像生成中惊艳的效果,目前基于大模型的技术距离生成有条理、有思辨性的文章还有一段不短的路要走。对于未来的科研,我认为暂时这个模型不会产生什么影响的。

模型在社区引发了一些有关学术伦理的争议导致很快下线了,遗憾没有用到这个模型的同时,我也简单聊聊读论文后受到启发的几个点吧。

我觉得最有意思的一点是Galactica能自己用Python来辅助数学运算了,不知为何这一点在许多相关的报道里面没有提及。

之前Google等公司已经开发过有类似能力的做题AI了(譬如Minerva),但这些模型对于数学运算的求解基本上依赖于语言模型的建模能力。

训练过神经网络LM的朋友应该能知道这类模型的运算能力既缺乏解释性、又没有可靠性,由此他们的运算正确率在实践中可能不是很有说服力。

而Galactica应该是第一个可以在运算中自动撰写Python脚本并执行的AI(有些相关工作用了Python来处理数学运算,但不是让LM自行调用Python)

我觉得这才是AI解题器正确的用法:即语言模型只理解语义和回答问题、而计算的事情交给更专业的”人“(Python解释器)来做。这种方法也和人类做题更加相似——因为咱们做理科题的时候也往往会单独打草稿,Python解释器运行的就是草稿本里面的逻辑。

虽然Galactica的这种做法很原始粗暴,且基本只能做一些简单的数字运算、无法做高级的代数或者算法的分析,但无疑是大幅度地增强了AI解题的可靠性。

第二点是老生常谈的数据工程。其实我认为这个paper最大的贡献就是利用数据工程做了一套完整的科研型AI的数据工程pipeline,包括两方面:

一是如何处理特殊文本和符号——包括引用、数学公式、化学式、DNA等等:

大部分特殊的文本和符号都用了prompt做封装,而封装内部的内容作者也做了很多一致化处理。这些数据工程其实是很重要也很麻烦的,MetaAI应该不会完全开源处理脚本、但提供的逻辑也很值得学习了。

二是训练集伪数据的构造,为了给Galactica学习完整的数理逻辑,MetaAI通过数据工程作模板造了大量伪数据,作者构造的伪数据模板给每个推理提供了详细的解题步骤和过程,前面那个带Python脚本的截图其实就是作者用模板构造的伪训练数据。

而作者花了很大篇幅讲述的prompttrain-tune细节等虽然也是很重要的实践参考、但我个人认为这些训练技巧的重要性和贡献度不及上面的数据工程、毕竟大型神经网络已经向我们展示了它们的神奇效果,弱一点训练策略大概率也能训出强AI。

第三点作者也在论文中讲过了,也就是之前的大规模AI工作大部分在堆数据的数量而不是建设数据的质量。Galactica用到的数据量在大模型中算很少的了(因此我觉得它和GPT系列不是一个赛道的选手)

论文中数据工程和一些其他尝试其实也是在增加数据的质量。作者在文末也夸耀到Galactica的优秀表现大概率来自于数据的高质量、badcase也更少。

小结一下:Galactica比起其他科研型AI,胜在质量好——运算质量好(可以自行调用Python)、数据质量好(做数据工程来处理原数据、构造伪数据)。用外部工具提升LM计算力和建设高质量数据也估计是未来工作的启发点。

而至于未来科研应用,我觉得离真正的AI科研或者AI创作还远得很,但是Galactica里有关reference生成、公式推导等部分也许可以作为独立的组件帮助写作——譬如自动化地给写作者提供参考文献、补全LaTeX公式等等,做一个论文写作版本的Copilot应该才是它的正确用法。

模型上线几天就下线了,还没有来得及深度体验。不过从科研需求的角度看,另一个AI工具Elicit能替代一部分功能。

随着人类的知识不断增长,学科也划分的越来越细。由此,通才几乎已经不可能存在,进而产生了一个痛点:我有一个问题,怎么寻找相关的文献?

最理想的情况是:我知道该搜什么关键词,我知道这是什么领域。

但在很多情况下,你根本不知道。你甚至不知道有没有人做过这个问题。有一个著名的生物笑话——年的一篇生物论文「重新发明了微积分」[1]。

这种现象有个专门的词——多重发现(multiplediscovery),维基百科上还有一个专门的词条:

从我个人的角度,我不期待、也不会使用Galactica去生成论文(试了一次,满纸荒唐)。我更期待的是它能帮我们避免多重发现:如果我问它如何计算两个曲线之间的面积,我希望它能让我去看看「微积分」。

多重发现(multiplediscovery)其实背后有一系列深刻的假设[2],其中之一,就关于人类的知识结构——在解决具体问题的「论文」之上,还有一个抽象的「知识」层级。而一个研究者的工作能力,恰恰体现在「将具体问题映射到抽象的知识上」。

但这一点尤为困难,特别是在进行跨学科研究的时候。一不小心,就会搞出另一个「21世纪微积分」。而当前的NLP在这个问题上大有可为。

总结一下,我感觉Elicit的功能似乎更针对真实的科研,至于Galactica的「生成论文」……工作不要啦???

有人提到未来的GPT-
4,我表示谨慎乐观。目前的GPT-3在推荐关键词、协助科研方面就是个废物。你让它给你推荐几篇文章,它会装模作样地给你一堆论文标题,甚至还有DOI、链接。但是打开之后内容完全不对。不过这也可以理解——没有专门为论文调优过,效果自然好不到哪里去。

温馨提醒
本页面内容来自互联网用户分享,仅供参考,如有侵犯到你的权益请联系本站,将在24小时内做出处理!
本页地址 http://www.371dns.cn/12555/2350.html