清华大学计算机系副教授刘知远小学时写应用题,面壁们老会卡壳。智能知远他总会过度思考,创始从一个题目里读出多重含义。人刘到了高中,该把个工写英语阅读理解时,看作这种感受更强烈了。面壁们
刘知远从未怀疑过出题人,智能知远反而怀疑是创始不是自己太笨了,“理解不了题目”。人刘多年后深入学习语言哲学之后,该把个工他才渐渐意识到这其实是看作种天赋,“我就比较善于抓住语言里面那个不确定的面壁们地方”。
自然语言处理的智能知远本质就是消除这种不确定,让机器能够精确无误地理解人类的创始语言。刘知远前半生正是与这种不确定性缠斗的二十年。
特别是过去两年,搭上ChatGPT的便车,自然语言处理坐上了时光机,“从2023年到2024年所经历的这些新事情,比过去20年经历的总和还要多得多”。
回望中国大模型史,年届四十的刘知远是个绕不过去的人物。他参与缔造中国第一个大模型,又躬身参与了这一轮大模型创业。2022年8月,在ChatGPT发布的三个月前,刘知远发起成立了一家大模型公司——面壁智能。
这家公司最为出圈的一件事是,2023年6月3日,斯坦福大学一个学生团队发布的一个模型被发现是抄袭了面壁智能的模型。
面壁智能的办公室位于北京中关村东路1号院6号楼3 层,办公室的白墙上随处可见那句《三体》的经典台词,“这是面壁计划的一部分”。
GPT前传
1984年,刘知远出生在山东泰安新泰市一个普通工薪家庭,小学偶尔逃课去游戏厅玩,家里也没期待过他能上清华。他父亲在邮电局上班,还建议放弃初中直接读中专,方便以后接他的班。
没想到十几年后,刘知远以山东省前三十名的成绩,如愿进入清华大学。
当时正是互联网泡沫破灭之时,最热门的方向是建筑和生物医学,计算机专业并不是高分专业。刘知远报了建筑、生物工程和电子系,招生组反馈这些专业的名额已经被分数更高的同学占了,无奈选了计算机专业,“算是一个机缘巧合吧”。
读博时也是如此,报考生物信息学方向也是招满了,他阴差阳错进入了自然语言实验室,“我觉得非常幸运,因为五年之后生物信息学的导师自己都放弃了这个方向。”自然语言处理正好开始了高歌猛进的二十年。
刘知远清楚记得,读博期间,实验室有个大师兄做文本分类,“给你一篇文章,看能不能把它分到相关的类别里面,比如这篇新闻是社会新闻,还是国际新闻、军事新闻,或是别的新闻?”他的博士论文就是关键词提取,“通过统计的方法识别出文档到底哪个词,能代表文章主题的关键词。”
2012年成为一个分水岭,深度学习在大洋彼岸叩响了发令枪。当年10月,Geoffrey Hinton和他的两名学生——Alex Krizhevskyr,以及ChatGPT 的灵魂人物 Ilya Sutskeve,获得ImageNet图像识别比赛的冠军,并且发表论文介绍了第一个深度卷积神经网络模型AlexNet。ImageNet是斯坦福大学教授李飞飞创办的人工智能领域一个重要赛事,通过对机器算法识别图像,从而促进最先进算法的开发。
在处理图像识别、语音识别方面,深度学习的能力得到了广泛认可。在老师孙茂松的带领下,刘知远花了两个月寻找答案。可自然语言处理方向的大多数人的意见是,深度学习不能帮助自然语言处理。
最终刘知远得出一个结论:基于统计学习用符号去表示语言知识的这种传统路线,已经没有太多突破的可能,深度学习是个非常值得探索的新技术路线。正是基于这样的判断,“我们实验室应该是国内最早拥抱深度学习的团队”。
2017