如果您对BTP感兴趣,BTP个人精选内容目录 | SAP Blogs 可能有更多你需要的内容
你有没有好奇过,当你问ChatGPT一个问题时,它的”大脑”里到底发生了什么?
今天我们就来拆解这个黑盒子,用最简单的方式理解AI是如何工作的。
LLM的基本组成:AI的”大脑”构造
LLM主要由两个核心部分组成:
神经网络(Neural Network):
神经网络本体由数以千亿个相互连接的”神经元”组成
每个神经元都存储着微小的”知识片段”
神经元之间互相连接,可以传递和组合信息
神经元的数量就是我们常说的LLM模型的参数数量,一般情况来说,神经元越多,模型越聪明(这个规律也被称为Scaling Law)
翻译器(Tokenizer):语言的”耳朵”和”嘴巴”
翻译器就像是大脑的感官系统,负责在人类语言和机器语言之间进行转换:
“耳朵”功能:将听到的内容(例如文本)转换成大脑能理解的”神经信号”(数字向量)
“嘴巴”功能:将大脑的”思考结果”重新翻译成我们能理解的自然语言
就像我们听到声音后大脑要先处理成神经信号才能理解一样,LLM也需要这个翻译器来”听懂”和”说出”人话。
LLM常见应用场景详解
训练(Training):LLM的”求学过程”
就像一个婴儿学习说话的过程
刚被创建的神经网络内神经元的内容是随机的,需要经过训练,修改神经元内容,才会让LLM变聪明
而训练过程就像玩猜字游戏,训练员给到一段文字,让大脑猜测这段文字的下一个字是什么,如果猜错了,训练员就会根据猜测结果与正确答案的偏差程度来修改神经元内容
这样,3个字的输入数据ABC就可以产生2次训练结果,分别是根据A来猜测B,和根据AB来猜测C
这个过程中,神经元内存放的信息会持续改变,LLM也就在这个过程中变得更聪明
但纯文本训练而来的LLM的对话风格,价值观等是由训练数据决定的,错误价值观很容易造成严重后果
而我们很难人为判断数据是否合适,进而“规训”LLM的价值观
所以有一种特殊训练方式:
RLHF(人类反馈强化学习)- AI的”价值观教育”
就是让LLM对一个问题生成多个回答,由人类标注哪个回答更好,来训练LLM,以让LLM的回答更符合人类倾向
如果你在使用AI时遇到它问你两类答案哪个你更喜欢,不用怀疑,你正在训练LLM
常见名词解释:
推理(Inference):LLM的”即时思考”
就是LLM接收信息,返回结果的过程
这个过程中,神经元内存放的信息是不变的
微调(Fine-tuning):LLM的”继续教育”
就是以较低成本训练,优化LLM。成本降序排列如下:
可以按照正常训练模式,继续修改全量神经元的信息,但这样需要大量数据和算力也可以将部分神经元冻结,后续训练只会选择性的更新未冻结神经元的信息还可以添加一组辅助神经网络,新训练只修改辅助神经网络,不同任务对应不同的辅助神经网络
还有一些不修改参数,不进行训练的优化方式:
1.角色扮演提示:通过告诉LLM要扮演什么角色来快速的规范LLM的回答
例如:
普通问法:翻译这句话:How are you
优化问法:你是一名15年经验的专业英文翻译,请翻译这句话
2.零样本提示:通过明确任务描述与要求的方式来优化表现
普通问法:”翻译这句话:How are you”
优化问法:”请将以下中文翻译成地道的英文,注意保持原意和语气:How are you”
3.少样本提示:在零样本的基础上给出几组范例
例如:
“请按照以下格式回答:
例子1:问题:苹果是什么颜色?回答:苹果通常是红色或绿色的。
例子2:问题:猫会飞吗?回答:猫不会飞,它们是陆地动物。
现在请回答:狗喜欢什么?”
4.思维链提示:以思维链的方式解决问题,并作为范例发送
例如:
“问题:咖啡店有23个顾客,又来了15个,然后走了9个,现在有多少顾客?
思考过程:最开始有23个顾客,来了15个后是23+15=38个,走了9个后是38-9=29个。
答案:29个顾客。
现在请用同样的方式解决这个问题:
学校有87个学生,转走了12个,又转来了8个,现在有多少学生?“
总结
LLM就像一个拥有千亿神经元的”大脑”,配备翻译器来理解和输出人类语言。
它通过训练不断学习知识,通过推理回答问题,还可以用微调和提示优化等方式提升表现。
简单来说,LLM就是在通过数学的方式模拟人类的学习、思考和交流过程。
如果您对BTP感兴趣,BTP个人精选内容目录 | SAP Blogs 可能有更多你需要的内容 你有没有好奇过,当你问ChatGPT一个问题时,它的”大脑”里到底发生了什么?今天我们就来拆解这个黑盒子,用最简单的方式理解AI是如何工作的。 LLM的基本组成:AI的”大脑”构造LLM主要由两个核心部分组成:神经网络(Neural Network):神经网络本体由数以千亿个相互连接的”神经元”组成每个神经元都存储着微小的”知识片段”神经元之间互相连接,可以传递和组合信息神经元的数量就是我们常说的LLM模型的参数数量,一般情况来说,神经元越多,模型越聪明(这个规律也被称为Scaling Law) 翻译器(Tokenizer):语言的”耳朵”和”嘴巴”翻译器就像是大脑的感官系统,负责在人类语言和机器语言之间进行转换:”耳朵”功能:将听到的内容(例如文本)转换成大脑能理解的”神经信号”(数字向量)”嘴巴”功能:将大脑的”思考结果”重新翻译成我们能理解的自然语言就像我们听到声音后大脑要先处理成神经信号才能理解一样,LLM也需要这个翻译器来”听懂”和”说出”人话。 LLM常见应用场景详解训练(Training):LLM的”求学过程”就像一个婴儿学习说话的过程刚被创建的神经网络内神经元的内容是随机的,需要经过训练,修改神经元内容,才会让LLM变聪明而训练过程就像玩猜字游戏,训练员给到一段文字,让大脑猜测这段文字的下一个字是什么,如果猜错了,训练员就会根据猜测结果与正确答案的偏差程度来修改神经元内容这样,3个字的输入数据ABC就可以产生2次训练结果,分别是根据A来猜测B,和根据AB来猜测C这个过程中,神经元内存放的信息会持续改变,LLM也就在这个过程中变得更聪明 但纯文本训练而来的LLM的对话风格,价值观等是由训练数据决定的,错误价值观很容易造成严重后果而我们很难人为判断数据是否合适,进而“规训”LLM的价值观所以有一种特殊训练方式:RLHF(人类反馈强化学习)- AI的”价值观教育”就是让LLM对一个问题生成多个回答,由人类标注哪个回答更好,来训练LLM,以让LLM的回答更符合人类倾向如果你在使用AI时遇到它问你两类答案哪个你更喜欢,不用怀疑,你正在训练LLM 常见名词解释:推理(Inference):LLM的”即时思考”就是LLM接收信息,返回结果的过程这个过程中,神经元内存放的信息是不变的 微调(Fine-tuning):LLM的”继续教育”就是以较低成本训练,优化LLM。成本降序排列如下:可以按照正常训练模式,继续修改全量神经元的信息,但这样需要大量数据和算力也可以将部分神经元冻结,后续训练只会选择性的更新未冻结神经元的信息还可以添加一组辅助神经网络,新训练只修改辅助神经网络,不同任务对应不同的辅助神经网络 还有一些不修改参数,不进行训练的优化方式:1.角色扮演提示:通过告诉LLM要扮演什么角色来快速的规范LLM的回答例如:普通问法:翻译这句话:How are you优化问法:你是一名15年经验的专业英文翻译,请翻译这句话 2.零样本提示:通过明确任务描述与要求的方式来优化表现普通问法:”翻译这句话:How are you”优化问法:”请将以下中文翻译成地道的英文,注意保持原意和语气:How are you” 3.少样本提示:在零样本的基础上给出几组范例例如:”请按照以下格式回答:例子1:问题:苹果是什么颜色?回答:苹果通常是红色或绿色的。例子2:问题:猫会飞吗?回答:猫不会飞,它们是陆地动物。现在请回答:狗喜欢什么?” 4.思维链提示:以思维链的方式解决问题,并作为范例发送例如:”问题:咖啡店有23个顾客,又来了15个,然后走了9个,现在有多少顾客?思考过程:最开始有23个顾客,来了15个后是23+15=38个,走了9个后是38-9=29个。答案:29个顾客。现在请用同样的方式解决这个问题:学校有87个学生,转走了12个,又转来了8个,现在有多少学生?” 总结LLM就像一个拥有千亿神经元的”大脑”,配备翻译器来理解和输出人类语言。它通过训练不断学习知识,通过推理回答问题,还可以用微调和提示优化等方式提升表现。简单来说,LLM就是在通过数学的方式模拟人类的学习、思考和交流过程。 Read More Technology Blog Posts by SAP articles
#SAP
#SAPTechnologyblog