大模型推理--推理优化

大模型的推理也是大模型领域需要研究的一个重要部分,涉及到推理的优化方法。● 减小模型尺寸:常见的方法包括模型量化、知识蒸馏、权重共享等。这些方法可以减少存储空间的占用、提高模型的加载速度和推理速度等。● 减少计算操作:常见的方法包括模型剪枝和稀疏激活等。这些方法的核心思想是用更高效、计算量更少的操作来代替模型中原有的操作知识蒸馏知识蒸馏不是一个新的概念, 相信大家应在其他的机器学习的背景知识上了解

管理哲学--目标

今天我们来开启一个话题是如何制定目标, 工作生活中经常被指定了这样那样的目标, 那么如果让你来制定目标, 你将如何思考这个问题呢?第一个步骤永远都是使命和愿景,这部分看起来很虚,但是其实随着企业的壮大, 是能够在关键决策上起到作用的, 例如滴滴的使命是让出行更加美好, 而不是GMV最大化, 其实在是否要介入自动驾驶, 是否要做司机服务等问题上都是起到了关键的作用。假如我们有了愿景。下面就是要理解什

管理哲学--战略

发现人其实原地徘徊其实是一个十分耗费精神力的阶段,产生这种状态的原因大致就是短期内失去了目标和方向, 怪不得很久以前一旦出现产能过剩(迷茫), 就会产生世界大战的结果, 始终都是要找到一个目标,哪怕那个目标可能有点没用。这一期的主题就来聊聊战略, 听起来有点高大上, 不过人的成长,期望成为什么样的人, 处处都是战略, 只是在企业里我们叫起来更加应景一点儿。

思考问题框架

​今天突然有个想法想要总结一下思考问题的框架,起源来自于一个问题, 当别人说我既想要A有想要B,还不想多花钱的时候,这类问题应该如何思考呢?​第一层思考是优化流程, 就是现有流程中是否有可以优化的点, 例如现在有一些环节存在资源的浪费,能够通过形式上的改变,节省一部分成本,这部分往往技术门槛不高, 通过白嫖的方式避免资源的浪费。​第二层是置换优化, 例如资源已经锁定了, 那么通过现有资源的置换,是

机器学习之评估函数探究

今天遇到有一个比较有趣的问题, 我想做一个分类问题,预测用户下单的概率,但是我出了对这个下单的概率感兴趣以外,还对下单的总人数感兴趣,中间可能考虑一些补贴的事宜,这个时候就有一个比较有意思的问题, 对于分类问题我们一般关注AUC即可,那么对于这个场景我是否能只关注AUC呢?因为考虑到下单人数的计数,我也想关注MAE,然后就产生了一个很好的问题, AUC和RMSE是否是完全同向的, 以及我们分类使用

控制论(八)--预算控制

本节简介预算控制

xgboost(八) -- 置信度

今天想和大家讲解

控制论(零)--控制论基础

今天咱们再开始一个新的领域的内容,经典的三大范畴,推理论、决策论和控制论是其中一个比较容易被忽视的科学,但是在实际的业务中又有着经典的使用场景,当我们进行成本控制的时候,经常需要控制论中的一些经典知识,现在也抽时间开启这部分内容的学习。一张图反馈与动态反馈是控制的基础, 动态是反馈控制的基础,下图是一个开环回路的示意图。设定值经常是定常的,计算控制量并让执行器进行执行的过程类似一个因果的过程,控制

多任务学习(三)--多任务模型

本章节继续结合一些常见的业务问题介绍一些多任务模型。

因果推断--uplift模型(二)

接下来这一章,咱们就来介绍一些基于深度学习的方法,当然这类方法理想情况下还是基于实验数据(RCT)进行训练。反事实回归网络(CFR)CFR其实是开启了使用深度学习的方式进行因果推断类任务的一个先河,我们知道,不同于观察模型, 因果类的模型更关注与干预的影响,而非预测值的准确性,想要从理论上得到这个干预的效果,就一定要拉齐环境,或者随机数据进行对比,所以这个网络的设计上就需要满足两方面的要求。具有拉

xgboost(七) -- 分阶段学习

今天来讨论一个问题,就是xgboost是否能支持类似多任务学习的事情呢?之前听到这个问题还是挺惊奇的,这竟然也可以,今天查阅了部分相关的资料,发现竟然真的可以,我们知道深度学习中的多任务学习是通过一个共享层,建立各个任务之间的关系,通过构建多个任务的帕累托最优解,从而解决多任务的问题,而xgb选择了使用树一条路走到黑,接下来咱们来看看xgb是如何实现多任务学习的。

自然语言处理之预训练模型(二)

之前咱们介绍的都是单一模型的预训练方法,这里介绍一个特殊一点的思路,且不说应用程度怎么样,先看看这个模型的设计思路。ELECTRAELECTRA是使用对抗网路的思路进行预训练的方式。其中生成器,一个小的MLM,就是在[MASK]的位置预测原来的词。判别器判断的是输入句子中的每个词是否被替换,需要注意的是这里没有下一句的预测任务。接下来我们来看每个模块。生成器对于生成器来说,其目的是将带有掩码的输入
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×