人工智能从“人”说起

今天突然想写一些比较虚的东西。想结合人类的决策因素来讲讲我对人工智能的理解。人来“决策”每个人在生活中要面临各种各样的决策/判定,那么一个问题是我比较好奇的, 我们平时决策的时候究竟有哪些因素影响我们,能让我们在漫漫人生长河中能做出来相对正确的决策到底是因为什么呢? 如果能搞清楚,是不是就能推导出模型学习的过程到底在做什么呢?这个就是今天咱们要聊的核心话题。如果让你来给出一个事情的观点,你觉得需要

系统分类--模型选型

终于有时间思考更加宏观的东西啦, 你说面对的系统或者问题有几类? 你是否都是指望把所有的数据train到一个模型里,然后收工回家? 接下来尝试总结一些系统的类型,纯手工制作。观察型系统这类任务是非常普遍的,最简单的进销存类的预测任务。 通过观察销量的变化,从而准备充足的货量,既不让产品过剩也不让产品脱销。这里一定要强调一下,这是一个观察型的任务, 本身我备货多与少不影响需求的变化,预测需求仅仅是为

从大模型看算法工作

当前这个时间点, 我们似乎正在经历异常技术平权的革命, 因为大模型的出现, 让原来很多需要花费很多精力的工作变得毫无意义(这里就不便举例子), 也让我由此感慨一下,接下来主要看看我们在算法这个方向是如何看待算法工作与大模型的关系。

大模型预训练--DeepSeekV3核心优化详解(二)

MOE结构MOE结构是DeepSeek比较大的创新, 不管是从模型性能上,还是计算性能上, 都是非常好的设计。这一个部分其实替换掉传统的Transformer中的FFN的结构。我们来分开看当前的网络结构专家网络MOE结构中有多个专家网络,设计的预期是希望能够让多个专家能够各自负责不同领域的知识内容,完成任务的结构。门控网路门控专家是整个网路的一个路由,这个路由是要识别不同问题需要找那些专家。这个部

大模型应用--agent技术

今天我们来介绍大语言模型使用,Agent的构建和开发。基础知识Agent定义和核心机制Agent是一种通过感知环境(传感器)并主动与环境交互(执行器)的智能实体。LLM Agent通过结合大语言模型(LLM)与外部工具、内存和规划能力,突破传统LLM的对话局限,实现复杂任务拆解与执行。其核心是通过工具调用(如API、代码)弥补LLM在数学计算、事实检索等方面的短板,形成“指令-目标-决定-执行”的

大模型应用--向量数据库FAISS

向量数据库Faiss是Facebook AI研究院开发的一种高效的相似性搜索和聚类的库。它能够快速处理大规模数据,并且支持在高维空间中进行相似性搜索。Faiss的工作,就是把我们自己的候选向量集封装成一个index数据库,它可以加速我们检索相似向量Top K的过程,一些最有用的算法是在 GPU 上实现的。安装pip install faiss-cpupip install faiss-gpu通过上

大模型基础--Stable Diffusion 模型(多模态)

Stable Diffusion 的发布可以说 AI 图像生成发展过程中的一个重要里程碑,它不仅可以生成高质量的图像,根据提示词生成图像、修改图像,而且运行速度快,所用资源较少。Stable Diffusion 模型的直观理解

机器学习之好模型

今天来讲一个有趣的话题, 如何训练一个好的模型呢?如果让你训练一个模型, 效果不好, 你会从哪些方面入手呢? 下面我们就一个一个说, 从上到下应该越来天花板越低。特征丰富程度这一节就是我们经常提到的特征工程。特征利用率数据增强程度模型拟合能力模型拟合成本

大模型推理--推理优化

大模型的推理也是大模型领域需要研究的一个重要部分,涉及到推理的优化方法。● 减小模型尺寸:常见的方法包括模型量化、知识蒸馏、权重共享等。这些方法可以减少存储空间的占用、提高模型的加载速度和推理速度等。● 减少计算操作:常见的方法包括模型剪枝和稀疏激活等。这些方法的核心思想是用更高效、计算量更少的操作来代替模型中原有的操作知识蒸馏知识蒸馏不是一个新的概念, 相信大家应在其他的机器学习的背景知识上了解
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×