1、背景

在国内外大多数AI厂商还在卷大语言模型之际,OpenAI悄无声息地发布了文生视频(text-to-video,简称t2v)模型Sora ,仅仅几个视频demo,就让整个AI圈子从惊讶到恐惧,惊讶于Sora生成的视频已经到达工业应用级别,恐惧于现有的t2v模型与Sora的差距竟然如此之大。

今天主要是用通俗易懂的语言分享下一些自己了解到和学习的关于AI方面的知识。

2、概念

2.1 机器学习

机器学习的核心思想是让计算机根据已有数据自主建立模型,以解决新问题,比如根据已有数据计算出某几个特征的组合是属于哪个分类。

2.2 深度学习

深度学习的基础是使用神经网络,神经网络是将模仿被称为神经元的脑神经的单位进行链接,形成的网络状的图。

可以简单理解为使用很多组方程去模拟情况,通过调整每个函数的系数,去模拟数据的分布。

2.3 大模型

大模型又可以称为Foundation Model(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。其实感觉就是自监督学习,利用大量无标签很便宜的数据去做预训练。

大模型就是在深度学习的基础上将模型的参数变大,可以说是大体量的深度学习模型,“大” 体现在模型参数和训练语料。

2.4 agent

Agent理解成能自主理解、规划、执行复杂任务的系统。相当于人类的“数字助理”,它不仅告诉你“如何做”,更会“帮你做”。给他一个目标,他可以在没有人控制的情况下自主独立运行。

可以理解为大模型是大脑,agent 是你本地的代理,比如当你想打开本地的文件夹,大模型是没有这个能力的,但是可以想办法把这个功能赋值给大模型进行调用,这样的一个本地应用就是agent。

这里的agent有点类似钢铁侠的贾维斯,实现的手段就是function call(不理解没关系)

2.5 多模态

在昨天之前我还不是很理解多模态这个概念,在之前的工作中也接触过这个概念,一直没理解。

在学习和查资料之后发现很简单,在之前的训练模型是只能使用单一的语料,比如只是文字。

多模态大模型就是这个模型有输入和输出多种语料的能力,比如既能输入文字,又能输入图片,也可以输入视频,只要是非单一的大模型就叫多模态。

3、关于openAI,GPT 和 Sora

3.1 是什么

OpenAI 是开发GPT的公司。公司CEO叫奥特曼。

GPT 是 文字生成类的大模型

Sora 是文字生成视频的大模型

3.2 怎么使用

https://chat.openai.com/

最早需要虚拟号码和外网IP能访问,国内访问不了,需要科学上网。

现在据说已经可以轻松注册了,但是依然需要科学上网。

国内可以使用 文心一言 地址:https://yiyan.baidu.com/

4、国内大模型介绍

5、对游戏有哪些影响

5.1 文生图

文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。如果要在实际工作场景中应用,我更推荐 Stable Diffusion。

5.2 AI游戏

现在貌似对AI的使用基本上在AI画图上,真正使用AI的游戏还没有看到,现在是一片空白,不排除一些厂商正在研发。

借助function call 可以做出一些真正的AI游戏,怎么控制流程是一个需要深度思考的话题。

6、一些乱七八糟的事

李一舟卖课卖了5000w,号称中国AI第一人,不能说是江湖骗子,只能说是割韭菜第一人。

openAI CEO 奥特曼 是 同性恋。