说说这段时间我了解的 AIGC
0x00 初印象
从 2022 年底 ChatGPT 的发布,当时未感觉到有什么特别的,直到大概二三月份,在网络上看到铺天盖地的都在发与 ChatGPT 的对话截图,有一些是感叹它的强大,有一些是对它进行调戏,试图找出它的不足。
这时我才开始关注它,于是在推上时间线刷到的注册流程指引帮助下,短信验证码外加程序员必备的科学上网技能,挺容易就注册成功了。不过我相 信一般普通人可能大部分在这一步就卡住放弃了。之后也看到说在某宝上购买的账号,在之后阶段被封号,总之在上半年期间,OpenAI 花了不少功夫与大家斗智斗勇,就不展开了。
0x01 体验
总之之后就开始了简单的体验之旅,截止目前 2023 年 8 月 9 日,真的会有种 “AI 一天,人间一年” 的感觉,国外大厂(OpenAI, Google, Meta, MicroSoft)基本上每天都在 “开天辟地” ,可能你只是睡了一觉,醒来就发现又出现了颠覆性的新技术。
说回 ChatGPT ,我在刚开始(23 年 3 月份左右)体验的过程中,因为当时也不是很懂 ChatGPT 的原理,因此和它对话也无从下手,可能开始就是输入一句 “你好”,然后看它如何回复,然后一句一句的问问题,看它如何回答,这样的体验过程,我想大部分人都是这样的。但是我发现我想让他理解一段更长的代码,似乎他就开始胡乱回答了,这让我对它的兴趣减少了一些。
不过还是会在网络上看到其他人是如何和它对话的,并分享使用的技巧,我也有样学样。嗯,看起来回答就真的好了一些。这让我不禁好奇,它是如何工作的,为什么需要这样的提问才可以更大概率得到更准确的答案呢。
0x02 了解
好奇 ChatGPT 的工作原理,那么就去找了一些资料粗浅的看了看,它是使用了一种叫做 Transformer 的深度学习技术 (参考维基百科:Transformer_(machine_learning_model) 以及论文 (Attention Is All You Need)。
Transformer 是一种依赖于并行多头注意力机制的深度学习架构。 [1] 现代 Transformer 是由 Google Brain 团队的 Ashish Vaswani 等人在 2017 年题为 “Attention Is All You Need” 的论文中提出的。值得注意的是,与以前的循环神经架构(例如长短期记忆(LSTM), [2] )相比,它需要更少的训练时间,并且其后来的变体已普遍用于在大型(语言)上训练大型语言模型。 )数据集,例如维基百科语料库和 Common Crawl,凭借输入序列的并行处理。 [3] 输入文本被分割成 n-gram,编码为 token,每个 token 通过从单词嵌入表查找而转换为向量。在每一层,每个令牌都通过并行多头注意力机制在上下文窗口的范围内与其他(未屏蔽的)令牌进行上下文关联。
那么,我粗略的理解为,它实际上是根据输入的内容(Prompt 又叫提示词)去从训练出的模型中预测接下来最大概率输出的内容,也就是你输入的提示内容,有越多的和答案相关的提示内容,就越有可能把答案给预测出来。而模型本身训练的数据量是非常庞大的,那么在我们自己的知识有限的情况下,这样实际上是可以通过一些关键词来获取或者学习我们还不太熟悉的知识,比如我尝试了使用它来辅助我学习使用 Swift 开发 iOS APP,不过也是有局限性的,由于它能返回的结果长度是有限的,所以无法去生成较长的代码,只能是一些简单的代码,但是对于我来说,这已经足够了。