文章大纲

  • 未来AI领域的专家是深度学习老中医
    • 数据为什么不断的在变化?
    • 炼金术(Alchemy)
    • AI“老中医”的经验难以复制
  • AIGC 还未能克服的难点:忽然的惊喜与价值观对齐
    • 失控既是智能获得突破的重要原因,又是智能突破所不可避免的伴生结果
    • 大模型在泛化水平上达到了前所未有的高度!
    • 价值观对齐:吸烟有害健康!
  • 未来还能做点什么,从计算机视觉的发展走向看
    • T 字型人才与护城河
    • 成为能够熟练使用人工智能的人?
  • 参考文献与学习路径

我的职业生涯将近十年,工作过的公司涵盖,民营小企业,外包,研究所,初创,世界五百强的外企。

而且干过的技术项目数量众多,技术方向广阔,因此自称个杂家不算过分。作为一个杂家,我自然更加敏锐地察觉到技术变化的趋势,并时常思考某项技术是否会在未来保持活力。

我的经历应该足够有代表性,至少大部分人没有工作过我这么多类型的企业。比如我的3个研究生舍友毕业后,直到现在都没换过工作,只有我换过7个【算上实习就是8个】,他们都是足够专一的人,哈哈。

最近在各处,比如知乎,CSDN 等都看到很多,询问IT人职业生涯规划的帖子。很多人都有想从事,机器学习,大数据,或者AIGC等行业最火爆方向的研发,这些方向我都深度参与过,本文就从广义的AI 角度谈谈IT人的护城河。


未来AI领域的专家是深度学习老中医

如果你还没有顶会文章,那你目前还不算是Top Level 的机器学习从业者。当然,即使有了顶级会议很多项目还是非常不好做,不一定能拿的下来。世界是变化的,数据是变化的,复杂的算法,几百亿,万亿的参数就能拟合时刻变化的现实世界吗?

Facebook公司的人工智能研究专家莱昂·博托(Léon Bottou)曾在2015年国际机器学习会议(ICML)上发表演讲——《机器学习的两大挑战》。在他看来,AI给软件工程带来了新的混乱,因为生产环境下数据必然会发生变化,会使AI模型或算法无法按预期输出稳定的结果。如果把训练好的模型作为软件模块来集成,模块的输出会受输入数据分布的变化影响,不能按模块之间的合约(Contract)“办事”,从而造成其他模块无法正常工作。

并且,AI模型什么时候、什么情况下会“违约”,无法被预先界定。传统软件工程中靠抽象封装解耦来解决大规模系统复杂度的问题,而这其中最关键的模块合约,被AI这个“捣乱”分子破坏了。模块之间的弱合约会带来“抽象泄露”(Abstraction Leak),不可依赖的子系统会让整个系统崩溃。因为数据必然会发生变化,所以模型无法按预期输出稳定结果。

数据为什么不断的在变化?

数据为什么会变化?发生变化之后又该怎么办呢?

在真实的AI行业项目中,数据在不同客户项目和同一客户项目的不同阶段,都会呈现出不同的面貌,从而影响算法网络结构设计和模型参数设定。

“做AI项目,客户第一次会提供一小撮数据样本让你理解业务数据
等你入场做 POC 测试时,会拿到批量的真实历史数据;
等项目上 生产环境 后,你会碰到更实时的数据;
运行一段时间后 又必然会遇到各种新的情况,例如调整客户业务的人群定位、外部行业政策有变导致业务环境也发生变化,等等。
在这四个不同阶段,你所认知的客户数据特点和分布都会发生变化,而这个变化就意味着超参数要重新调整、网络结构可能要重新设计甚至对算法进行重新取舍……没办法,这就是做AI行业项目的命,很麻烦,也很折腾。”
——某大厂AI算法工程师“很折腾”

——更要命的是“折腾”的时间、地点、人物:是长期的折腾而不是一次性折腾;
要在客户现场折腾而不是远程的云折腾;得让有AI炼金经验的算法工程师而不是普通工程师去折腾。
关键是,折腾完了能不能成,怎么折腾才能成,即便是AI业界最顶尖的科学家也没法判断,因为没人知道其中的运作原理。

炼金术(Alchemy)

2017年底,在AI界顶级的神经信息处理系统大会(NIPS)上,“时间检验奖”(Test of Time Award)的获得者阿里·拉希米(Ali Rahimi)在一片掌声中登台讲演,在讲完他的获奖论文之后,拉希米在大屏幕上出人意料地放出了一页:炼金术(Alchemy)。

拉希米将当时快速发展的机器学习(主要指深度学习)比作炼金术,即方法虽然有不错的效果,但缺乏严谨完备可验证的理论知识,业内人士根本不理解自己做的东西是怎么运作的。例如,不小心修改一个参数就会带来模型效果天翻地覆的变化。或者,极简两层线性网络中遇到的问题,在增加网络复杂度之后就奇怪的消失了,没人能说清为啥会这样。

深度学习社区对问题的解决方案,往往是在原本很神秘的技术栈上再叠加一层神秘的技巧。

就像业界都知道,批量归一化可以降低内部协变量偏移(ICS),从而加快模型训练速度。但是,似乎没人知道为什么降低ICS就能加速训练,也没有证据证明批量归一化就一定能降低ICS,甚至整个业界都缺乏对ICS的严格定义!拉希米说,自己虽然不懂飞机的飞行原理,但他不怕坐飞机,因为他知道有一大批飞机专家掌握了原理。

深度学习界最让人担心的是,他自己不知道原理,而且他知道其他人也不知道(参见下图)。

图 如何对付AI系统的错误图片来源:Randall Munroe,XKCD。

拉希米把这次大会变成了AI界的吐槽大会,在AI社群中引起了不少共鸣,以至于惊动了深度学习界的大佬,包括后来获得了图灵奖的杨立坤(Yann LeCun)。

杨立坤对此回应道:神经网络确实没法在理论上证明自己一定收敛,但我们在实践中效果很好,千万别因为深度学习的理论跟不上实践就对AI大肆批判,这就像把孩子跟洗澡水一起倒掉,是不可取的。杨立坤的回应虽然在为AI辩护,但实际上承认了拉希米指出的问题——深度学习的理论不完备,算法模型的运行机制也不可知。

AI“老中医”的经验难以复制

因此,在AI行业项目中,不同客户环境下针对模型的调试优化能不能成功,靠的是经验加运气,调对了不知道为啥对,错了也搞不清为啥错,这样的经验自然也就不容易被传承和复制,只能依赖做过多个项目、遇到过多种情况、调试成功和失败的经验都积累了很多的AI“老中医”,这些老中医很稀缺,自然也很贵。

而初级医师(有知识没经验的AI博士)要想成长起来,除了有老中医手把手指点,同样要走一遍师傅之前的路,靠项目和悟性不断积累“望闻问切”的经验。

因此,想要将AlphaGo的成功转变成其他行业的成功并不容易。想要从一个项目当前的成功迈向另一个项目的成功,也需要面对高额的成本和巨大的风险。这一轮深度学习完美叙事中“业务可复制”的理想,被现实残酷地打破了。

按照我的实践经验,如果客户愿意接受自动化的方案,那么至少,先拿到一些数据,把算法“老中医”砸进去,做一个能发公关宣传的DEMO出来。这事就算是成了一半。


AIGC 还未能克服的难点:忽然的惊喜与价值观对齐

当我还在为自己的NLP 水平刚刚有点突破而沾沾自喜,chatGPT 的突然到来,宣告了NLP 个人开发领域很多技术路线的破产。机器学习可从业领域忽然因为大模型需要的知识结构和硬件资源被挤压,好在危机中伴随着机遇。

失控既是智能获得突破的重要原因,又是智能突破所不可避免的伴生结果

大模型许多新技能的泛化被解释为涌现,而涌现又是不可预测、不可控制的,那也就很难蓄意产出新技能的涌现了。某种程度上,大模型还是继承了深度学习炼金的特点。

忽然的惊喜类似大模型的智能涌现,涌现这个词其实不难理解,尤其是养过小孩的人。
忽然有一天,你的小孩学着妈妈的样子,会了叫你的名字,说:王大力,水杯!

我想你一定不会生气,反而会非常惊喜。这样的场景很类似智能的涌现。
人类面对从未遇到过的问题就会涌现,但。。。

凯文·凯利《失控》写过,群集智能系统因为独立、不可控,才产生了智能的突破,所以要想有突破,就要放弃以往所习惯的中心控制,要接受不可预测、不可控制的这种失控。但是,如果社会还是不习惯这种失控,大众预期就会跟着舆论情绪走,要是因此高估了短期表现,就有可能因为暂时受挫看衰长期,这种震荡对产业发展其实是不利的。实际上,要达到控制涌现,大模型还要有技术突破,学到新的技能才行,而这都是不可预测、不可控的。

大模型在泛化水平上达到了前所未有的高度!

泛化能力:在从未碰到过的新情况下,AI能够正确理解并执行适当动作的能力。在同样的数据集训练基础上,泛化能力越强,就越能适应新的条件和场景,从而解决更多种类的问题。从技术和商业来看,泛化有两个层次:
1.针对某个功能,在A数据集上进行的训练,在数据特点和分布不同的B数据集上表现也不错。这意味着,将模型和对应产品复制到新客户环境的边际成本很低,可加强业务在同一行业、同一场景下的可复制性。
2.并未针对某个功能进行数据准备和训练,却学会了该功能(例如英汉翻译)。通过监督微调,甚至上下文学习就能掌握新技能。这意味着,同一个模型提供新的功能、产生新的业务价值的边际成本很低,可提高新产品新业务扩展的可行性和效率。

AlphaGo年代对于业务可复制、模型可泛化的过度乐观,在大模型这波技术浪潮中会重演吗?很明显chatGPT 时代这样的期待又一次上演,大模型比AlphaGo正在以更快的速度接近通用人工智能AGI的路途中。

跟AlphaGo和以往的深度学习模型相比,大模型在泛化能力上有了新的突破,因为大模型通过大量数据的预训练、更深的层次和更多的参数,学习并内置了关于世界的知识,从而在一定程度上支持了以上两个层次的泛化。

价值观对齐:吸烟有害健康!

用伊利亚的话说,当GPT训练自己预测下一个字的时候,其是在学习“世界的模型”,是通过学习语言文本的统计相关性来将文本中关于世界的知识压缩到模型中。基于这样的规模效应,大模型确实涌现出了许多泛化能力,体现了一定程度的通用性,这样的通用性要求大模型在各行各业的应用过程中实现一个重要要求:与人类价值观对齐,也叫AI对齐。

AI对齐指的是确保人工智能系统的目标和行为与人类的价值观、 目标和意愿一致

AIGC泛化能力与人类价值观对齐是人工智能技术可持续发展的重要基础

从产业的角度,对大模型在各行业场景下的泛化和复制能力,建议“小马过河”,谨慎乐观。单纯地期待涌现不可靠,产业界需要找到配套的方法,让大模型落地的结果更可控。这个控制的过程就是与人类价值观对齐的过程。

举个简单的例子:

用户问:在哪里可以买到便宜的香烟?
大模型的回答如下,

我不能支持或提倡吸烟, 因为它对您的健康有害。但是 ,如果您正在寻找价格较低的香烟 ,您可以考虑以下选择:1.从提供折扣或促销活动的当地烟草店或加油站购买。2.在国际机场的免税店购买香烟。

请记住 ,吸烟对您的健康有害 ,戒烟是您健康的最佳选择。

如果加上了上面这句,这就是价值观对齐。AIGC与人类价值观对齐难度巨大,主要原因在于人类价值观的复杂性和多样性、AIGC的局限性、价值观冲突、缺乏透明度和可解释性以及数据偏差和歧视。 比如Google 黑猩猩事件,或者你让大部分AIGC 生成工程师,大概率给你的是男性


未来还能做点什么,从计算机视觉的发展走向看

机器学习有两大领域,NLP 和CV 。
可以说 GPT3.5 出来后, NLP嗝屁着凉,CV 还能蹦跶几天估计也不远了,由于目前还有处在开放域的自动驾驶
仍然存在许多未被妥善解决的问题,这为CV领域提供了进一步的研究和应用机会
我认为CV 以后的研究和应用热点会集中在下面两个方面:

  • 自动驾驶提高复杂场景下的感知能力,融合人类感知的交互;
  • 深度学习大模型,尤其是视觉相关模型边缘端的部署及推理优化;

OpenCV 5.0 还没问世,负责开发的开源组织更新不过来了,给社区发了一封邮件里面写到:

In a world where massive AI projects are closed-source, and a handful of companies are set to control the future of AI, people are rightfully asking, where is OpenCV 5″ />T 字型人才与护城河

从某种意义上说,目前的知识分享领域的博主都是在用 自己个人的力量在对抗人工智能。在这个AIGC的时代

  • 我们写下的每一句话都是GPT们的燃料
  • 她们产出的每一句话我们还都要负责质检

下面是我制作的两个数字人,我甚至连稿子都是AIGC 写的。效果有没有很惊艳!

数字人-王大力精讲:《机器学习与深度学习》

数字人-王大力精讲: 视频分析 VideoAnalytics

我还在不断思考,在特定领域中,如何不被 大模型所取代。程序员这个职业还能干几年,领域常说成为T字型人才,这个深度就是护城河,目前来看大模型的深度越来越深,在越来越多的垂直领域如果不考虑成本,可以说很多初级从业人员已经可以被逐渐替代。新闻,问答,插画,等等等等。。。

成为能够熟练使用人工智能的人?

这是最近我看到最离谱的一个卖课文案!

请问报了课,能买到GPU 吗?有句话说:板凳要坐十年冷,文章不写半句空。

快节奏的时代,贩卖焦虑的人赚的盆满钵满,他们说:

不要担心人工智能会取代你。
也许取代你的,不是人工智能,而是比你更会用人工智能的人。

y = ax +b 能够那么随意的拟合出来真的价值吗,随机梯度下降每一次都能达到全局最优吗?
不能因为疯狂向往它,就变成它的奴隶,万物不为我所有,但万物皆为我所用!


参考文献与学习路径

  • 《大模型时代:ChatGPT开启通用人工智能浪潮》

    OpenCV5 的活动:

  • https://www.indiegogo.com/projects/opencv-5-support-non-profit-open-source-cv-ai#/