白海科技

究诸经典，探寻大模型演变之踪迹

编者按：在仅仅五年的时间里，大语言模型、transformers几乎完全改变了自然语言处理领域。为了便于快速、扎实、深入地学习大语言模型，本文整理一个简单的经典学术资料列表，供正在入门中的机器学习研究人员和开发者参考。以下是译…

大模型的幻觉 (Hallucination) 因何而来？如何解决幻觉问题？

编者按：目前大模型仍然存在一个非常致命的缺陷——大模型的“幻觉”（Hallucination）问题。为什么 LLM 会出现幻觉？如何缓解这种情况？使用的数据集对此现象的影响几何？今天为大家带来的这篇文章将一一解答。…

语言模型文本处理基石：Tokenizer简明概述

编者按：近年来，人工智能技术飞速发展，尤其是大型语言模型的问世，让 AI 写作、聊天等能力有了质的飞跃。如何更好地理解和利用这些生成式 AI，成为许多开发者和用户关心的问题。今天，我们推出的这篇文章有助…

MoE模型性能还能更上一层楼？一次QLoRA微调实践

Fine-Tuning Mixtral 8x7B with QLoRA：Enhancing Model Performance 🚀 编者按：最近，混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力，如何在此基础上进一步提升 MoE 模型的性能成为业界…

想要更好地理解大模型架构？从计算参数量快速入手

编者按：要理解一种新的机器学习架构（以及其他任何新技术），最有效的方法就是从头开始实现它。然而，还有一种更简单的方法——计算参数数量。通过计算参数数量，读者可以更好地理解模型架构，并检查…

LoRA：语言模型微调的计算资源优化策略

编者按：随着数据量和计算能力的增加，大模型的参数量也在不断增加，同时进行大模型微调的成本也变得越来越高。全参数微调需要大量的计算资源和时间，且在进行切换下游任务时代价高昂。本文作者介绍了一种新方法 LoRA，可…

Embedding技术与应用(4): Embedding应用工程探析

编者按：随着互联网内容数量的急剧增长，个性化推荐已成为各大科技公司的核心竞争力之一。那么，如何构建一个可靠、高效的基于嵌入技术的推荐系统，使其能够在实际生产环境中正常运行呢？这是所有从业者都关心的问题。本文…

LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

编者按： 随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个…

Advanced RAG 02：揭开 PDF 文档解析的神秘面纱

编者按： 自 2023 年以来，RAG 已成为基于 LLM 的人工智能系统中应用最为广泛的架构之一。由于诸多产品的关键功能（如：领域智能问答、知识库构建等）严重依赖RAG，优化其性能、提高检索效率和准确性迫在眉睫&am…

LLM 推理优化探微 (1) ：Transformer 解码器的推理过程详解

编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维…

如何评估大型语言模型（LLM）？

编者按：近期几乎每隔一段时间，就有新的大语言模型发布，但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量，我们急需一个可靠的、综合的LLM评估框架。本文说明了为什么我们需要一个全面的大模型评估框架，并…

LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解

编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维…

LLM 模型融合实践指南：低成本构建高性能语言模型

编者按：随着大语言模型技术的快速发展，模型融合成为一种低成本但高性能的模型构建新途径。本文作者 Maxime Labonne 利用 mergekit 库探索了四种模型融合方法：SLERP、TIES、DARE和passthrough。通过配置示例和案例分析，作者详细阐…

GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

编者按：近年来，深度学习应用日益广泛，其需求也在快速增长。那么，我们该如何选择合适的 GPU 来获得最优的训练和推理性能呢？ 今天，我们为大家带来的这篇文章，作者的核心观点是：Tensor…

Embedding技术与应用(3)：Embeddings技术的实践应用

编者按： IDP开启Embedding系列专栏，力图详细介绍Embedding的发展史、主要技术和应用。本文是《Embedding技术与应用系列》的第三篇，重点介绍嵌入技术在生产环境中的应用效果到底如何。文章作者认为，嵌入技术可以有效地表示用户…

Prompt Engineering 可能会是 2024 年最热门的“编程语言”？

编者按：“Prompt Engineering”是否已经过时？模型本身的能力是否已经足够，不再需要特意设计 prompt？ 我们今天为大家带来的文章，作者认为 Prompt Engineering 不会过时，相反随着模型能力的增强，…

用好语言模型：temperature、top-p等核心参数解析

编者按：我们如何才能更好地控制大模型的输出? 本文将介绍几个关键参数，帮助读者更好地理解和运用 temperature、top-p、top-k、frequency penalty 和 presence penalty 等常见参数，以优化语言模型的生成效果。文章详细解释了这些参数的作用…

当红语言模型利器：深度解析向量数据库技术及其应用

编者按：随着大语言模型的广泛应用，如何存储和高效检索这些模型产生的大量向量表示成为一个较为关键的问题。本文深入探讨了向量数据库在提升语言模型应用性能方面的作用，并介绍了不同类型向量数据库的特点。本文以简明扼要的方式全面概述了向…