从大模型看算法工作

当前这个时间点, 我们似乎正在经历异常技术平权的革命, 因为大模型的出现, 让原来很多需要花费很多精力的工作变得毫无意义(这里就不便举例子), 也让我由此感慨一下,接下来主要看看我们在算法这个方向是如何看待算法工作与大模型的关系。

大模型预训练--DeepSeekV3核心优化详解(二)

MOE结构MOE结构是DeepSeek比较大的创新, 不管是从模型性能上,还是计算性能上, 都是非常好的设计。这一个部分其实替换掉传统的Transformer中的FFN的结构。我们来分开看当前的网络结构专家网络MOE结构中有多个专家网络,设计的预期是希望能够让多个专家能够各自负责不同领域的知识内容,完成任务的结构。门控网路门控专家是整个网路的一个路由,这个路由是要识别不同问题需要找那些专家。这个部

大模型应用--agent技术

今天我们来介绍大语言模型使用,Agent的构建和开发。基础知识Agent定义和核心机制Agent是一种通过感知环境(传感器)并主动与环境交互(执行器)的智能实体。LLM Agent通过结合大语言模型(LLM)与外部工具、内存和规划能力,突破传统LLM的对话局限,实现复杂任务拆解与执行。其核心是通过工具调用(如API、代码)弥补LLM在数学计算、事实检索等方面的短板,形成“指令-目标-决定-执行”的

大模型应用--向量数据库FAISS

向量数据库Faiss是Facebook AI研究院开发的一种高效的相似性搜索和聚类的库。它能够快速处理大规模数据,并且支持在高维空间中进行相似性搜索。Faiss的工作,就是把我们自己的候选向量集封装成一个index数据库,它可以加速我们检索相似向量Top K的过程,一些最有用的算法是在 GPU 上实现的。安装pip install faiss-cpupip install faiss-gpu通过上

大模型基础--Stable Diffusion 模型(多模态)

Stable Diffusion 的发布可以说 AI 图像生成发展过程中的一个重要里程碑,它不仅可以生成高质量的图像,根据提示词生成图像、修改图像,而且运行速度快,所用资源较少。Stable Diffusion 模型的直观理解

大模型推理--推理优化

大模型的推理也是大模型领域需要研究的一个重要部分,涉及到推理的优化方法。● 减小模型尺寸:常见的方法包括模型量化、知识蒸馏、权重共享等。这些方法可以减少存储空间的占用、提高模型的加载速度和推理速度等。● 减少计算操作:常见的方法包括模型剪枝和稀疏激活等。这些方法的核心思想是用更高效、计算量更少的操作来代替模型中原有的操作知识蒸馏知识蒸馏不是一个新的概念, 相信大家应在其他的机器学习的背景知识上了解
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×