Skip to main content

· 7 min read
加菲猫

alt text

封面图:Go 1.23 刚刚发布了第一个补丁,包括多个安全问题,涉及 go/parser, encoding/gob...

🌟 AI 相关

小而强大,零一万物编程小能手Yi-Coder系列模型开源!

Open LLM集中爆发的一周,卷疯了!

重复采样魔法:用更多样本击败单次尝试的最强模型

关于如何做科研的一些个人经验 -- 清华AP、Mooncake作者

黑神话悟空火了,为何没人用H100打游戏?(盘点H100和4090的十点区别)

亚马逊最新发布的PR3框架,用元知识大幅提升LLM对知识库的回答质量

小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!

【LLM模型幻觉】LLMs-模型幻觉-腾讯LLM幻觉综述-20230924v3.0

小模型杀疯了!仅4B参数性能超GPT-3.5!无限长文本性能超Kimi

4B小模型掀翻大模型牌桌!性能超GPT-3.5,无限长文本性能超Kimi...

重磅惊雷,用结构化RAG约束JSON响应格式化,复合AI系统输出成功率高达82.55%

有了这个大模型,构建大模型Agent没门槛了!

大白话说什么是“MLLM”多模态大语言模型

微软等EfficientRAG:迭代分解Query提升多跳问答效果!

MemLong: 长文本的新记忆大师,可将上下文长度从4k提升到80k!

一键服务化:从魔搭开源模型到OpenAI API服务

【LLM模型微调】LLMs-微调综述-CCG微调终极指南v8.0

斯坦福和UC伯克利TAG之前发布的LOTUS,用LLMs改写AI时代的数据查询引擎

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗

如何估算LLM推理和训练所需的GPU内存

RAG 升级版-MemLong: 基于记忆增强检索的长文本建模方法

Tool-SQL:基于Agent智能体的Text2SQL解决方案,显著提升Text2SQL效果

UC伯克利和斯坦福最新TAG,结构化数据增强生成,别让Text2SQL和RAG缚住手脚

大模型RAG的下一形态,MAG

用大模型重新定义翻译:从直译到意译的演化之路

SGLang Runtime + Qwen2-7B!解锁开源模型高性能服务

小模型量化更新小事

AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践

🌟 ACL2024 | LLM+RAG可能要毁了信息检索,一份深入研究

🌟 千问团队tech lead解读Qwen2-VL:让我们先把视觉理解干上去!(一)

RAG文本切分的第四个层次,基于向量模型的语义切分

🌟 大模型领域,你心目中 idea 最惊艳的论文是哪篇

⭐️ Go & 云原生 & Rust 相关

使用 niljson 处理 Go 语言中 JSON 的空值类型

Rust 1.81.0 版本正式发布,全新排序算法!

我最喜欢的 Rust 特点之一:if 是一个表达式

Go 1.23 刚刚发布了第一个补丁,包括多个安全问题,涉及 go/parser, encoding/gob...

重拾精髓:go doc -http让离线包文档浏览更便捷

Go必知必会:Go并发编程详解,锁、WaitGroup、Channel

如何实现限制用户 1 分钟内最多请求 1000 次

如何实现一个容量为 1000 亿的 Vector

Golang 实现 IP 地址扫描

一个能让你少写循环和判断的Go开源包,支持泛型

拿来主义?地表最强编程语言排行榜诞生!Go排在第几

K8s v1.31:全新的 CPUManager 静态策略:跨核分发 CPU

🌟 go、toolchain directive、gotoolchain和gotoolchain环境变量,就问你晕不晕

Go 入门指南:6.7. 将函数作为参数

矛盾的很,Go1.24 将需要更新的 Linux 内核!

Golang - 使用 GoFakeIt 生成 Mock 数据

Go必知必会:深入解析 Go 语言 GMP 模型和并发编程的核心机制

Go 入门指南:6.6. 递归函数

🌟 Go 1.23引入的新Bug?其实只是文档没看仔细

📒 后端相关

贝壳面试:什么是回表?什么是 索引下推

高基数 GroupBy 在 SLS SQL 中的查询加速

腾讯写码6年,我总结的技术人核心竞争力

万字+20张图探秘Nacos注册中心核心实现原理

ByteHouse案例实践:某销售数据平台如何基于OLAP大幅提升复杂查询效率

工作5年,没听过MySQL半同步复制,是我的问题吗

📒 前端相关

高效组件的设计与封装之道

· 6 min read
加菲猫

alt text

封面图:Safe by construction - Roberto Clapis

🌟 AI 相关

一个开源、清晰、强大且可定制的RAG UI

🌟 LRP4RAG、RAGLAB、PermitQA、LegalBench-RAG:本周10余篇论文讨论RAG,有兴趣的可以看看

AgentMove、DrugAgent、AppAgent:本周智能体应用相关论文

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Meta-Knowledge RAG:显著提升传统RAG的6大性能指标

校招生做大模型,选预训练还是SFT

Concise Thoughts:仅通过长度限制,获取更简明的CoT能大幅度提升效果

从RAG到TAG:探索AI与数据库的完美结合

【LLM模型微调】LLMs-微调经验-LLaMA微调指南v7.0

大模型摘要的姿势,prompt chain还是stepwise

🌟 Qwen2-VL发布,支持复杂推理与决策的可视化Agent!

🌟 一本详解15种高级RAG技术的使用手册

Qwen2-VL开源,让我感觉新的时代要来了!

🌟 大模型SFT的局限性

🌟 Qwen2-VL 全链路模型体验、下载、推理、微调实战!

贾扬清点赞,马斯克XAI发贺电:SGLang v0.2推理Llama 3.1 405B秒杀vLLM、TensorRT-LLM

OpenRLHF:大规模分布式RLHF训练系统介绍

斯坦福、伯克利大学新思路:TAG,结合了Text2SQL和RAG的新设计范式,效果更好、速度更快

🌟 Agents时代的Workflow,用AgWf重塑流程挖掘,CrewAI实现

PUA 大模型之后,效果起飞了!

🌟 【小白必备】Meta祭出三篇最详尽的LLaMA微调指南

大模型微调终极指南

多模态大模型--任意模态大一统处理

GraphRAG重走西游路,看悟空那些年历经的劫难!

Windows、Mac只是装了个夸克,整个电脑都AI了!

Flux第四弹-秒级生图,字节开源Hyper-sd支持Flux,支持多LoRA叠加!

RAG效果优化:高质量文档解析详解

浅谈cuda graph在llm推理中的应用

8岁女孩玩转AI编程,45分钟打造聊天机器人,Karpathy都看呆了

从Think-on-Graph(ToG)到ToG 2.0:用知识图谱Prompt让LLM实现深度推理,ICLR2024

RecLLM-Gen:将LLM应用于推荐系统

LLM 剪枝+蒸馏:NVIDIA 的最佳实践

RAGLAB:又来一个RAG框架,还是模块化的

又见惊雷,结构化Prompt格式小小变化竟能让LLM性能波动高达76%,ICLR2024

ggml 简介

这段时间搞大模型的血和泪

⭐️ Go & 云原生 & Rust 相关

New unique package

用 Go 语言构建轻量级 ChatGPT 网页版

微服务该如何应对过量请求

Go 1.23 新特性:slices 和 sync 等核心库的微调,大幅提升开发体验

用 Rust 和 Tide 框架快速构建 CRUD API

Go 1.23 新特性解读:unique 包及其应用

一文读懂10种最经典的设计模式

使用 go trace 优化 Golang 中的 GC

Rust 错误处理:thiserror vs. anyhow

128核CPU就有罪了?channel并发变慢的锅CPU可背不起

Go必知必会:Go RPC揭秘构建高效远程服务的指南

Go 语言函数的幕后:从符号表到栈帧

Go 入门指南:5.6. 标签与 goto

Go必知必会:协程(下):协程和通道的使用时机

Go 总负责人 rsc 即将卸任,回顾他的光与暗!

写给go开发者的gRPC教程-拦截器

IEEE Spectrum 2024排行榜:Rust和TypeScript崛起,Go语言表现如何

Go 入门指南:5.5. Break 与 continue

📒 后端相关

看了Redis高手心法,我现在强的可怕!

如何从实验中获得更多?——AB实验的异质性分析实践

SRE 必备知识 - Kafka 探秘之零拷贝技术

万字详解缓存一致性协议与内存屏障(漫画风)

RocketMQ为什么这么快?我从源码中扒出了10大原因!

通过实验深入了解 TCP 连接的建立和关闭

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

📒 前端相关

GitHub + VitePress,或许是你做笔记的新路子

写给懒人的Vue3快速查阅宝典

· 9 min read
加菲猫

alt text

封面图:Safe by construction - Roberto Clapis

🌟 AI 相关

TC-RAG: Turing-Complete RAG--图灵完备的检索增强

🌟 Weavel Ape超过DSPy,或将成为最好用的提示(prompt)优化工具

小波降噪加持,xLSTM-TS 模型解码股市“天机”

Karpathy狂赞AI代码神器Cursor,直言回不到3年前无辅助编码了,却被指「带货」

如何解读 Yann LeCun推文建议学生不要在大模型方向工作

RAGLAB、TC-RAG、CommunityKG-RAG、W-RAG:这周怎么这么多RAG

李沐重返母校,上交大秒变追星现场,大模型趋势无保留分享

我们给大模型去掉了“AI味”-大模型微调全链路实战

以DeepSeek-VL为例,详解视觉语言模型原理及代码

用于复杂RAG任务的先进可控Agent

【LLM模型微调】LLMs-PEFT[微调]-LoRA总结笔记v5.0

如何用Prompt技巧激发无限创意

FLUX第三弹:直面天命,FLUX.1-LoRA/IP-adapter「黑神话:悟空」生图实战

微软「小而美」系列三连发!视觉小钢炮 PK GPT-4o,MoE 新秀力压 Llama 3.1|AGI 掘金资讯

豆包“听力”水平现场开箱!看Seed-ASR如何突破语音识别瓶颈

英伟达仅用380B tokens训练刷新8B模型新SoTA,剪枝和蒸馏应该这么用

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

大模型厂商纷纷入局的Prompt Cache技术解析

披上Agent盔甲的RAG,从此不再只是召回生成!

Plan-based Retrieval,告别AI的胡言乱语

速度与精度的结合:Faster R-CNN模型的性能剖析

Ilya Sutskever 预测:GPT-5 之后,AGI 将降临

一文看懂GraphRAG:蚂蚁集团联合各所名校出品GraphRAG综述

不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token

多图理解,更懂中文,支持function call的Phi-3.5来了!

大模型训练实战经验总结

谢谢微软,又又又Open了!一口气发布3款Phi-3.5新模型,领先Llama3.1和谷歌同级模型

1000个样本胜过百万数据?Meta AI最新研究引发行业震动

极限套娃,Agent自动设计Agentic系统!

🌟 RAG 检索大升级:BM25 与 RRF 助力 LLMs 精准破局

使用 Dify 和 AI 大模型理解视频内容:Qwen 2 VL 72B

一文讲明白大模型显存占用(只考虑单卡)

使用FP8进行大模型量化原理及实践

大模型到底需要消耗多少GPU显存?公式和工具全都有

Multi-Meta-RAG:langchain点名,评论爆吹的新研究

RAG真的是LLM的未来吗

OpenAI 绝密项目「草莓」技术详解

AgentWrite:为什么你的模型生成的内容长度总是不超过2K

Meta-Rewarding :LLM对齐新技术

🌟 RAG 进阶:一个 ctrl-c 就能拿走的图文检索框架

RAG 如何选择 chunksize 和 splitter

工业界Agentic RAG方案-Golden-Retriever

WeKnow-RAG:结合网络搜索和知识图谱的自适应检索增强生成方法

阿里开源通用多模态大模型mPLUG-Owl3:迈向多图长序列理解

⭐️ Go & 云原生 & Rust 相关

技术资讯
  • QUIC协议的一些基操解释
  • Rust实现的一个狭义相对论模拟
  • Rust中的Mutex, Atomics 和 UnsafeCell。这篇文章主要讨论了Rust中的Mutex、Atomics和UnsafeCell的实现原理和相关概念:
    • 文章通过自定义实现AtomicUsize来探讨原子操作的原理。作者发现简单使用UnsafeCell并不能实现真正的原子性,因为编译器会对其进行优化。
    • 真正的原子操作需要使用编译器内部函数(intrinsics)来实现,这些函数不仅生成原子指令,还会告诉编译器不要对其进行优化。
    • Mutex的实现基于UnsafeCell和一个原子整数。获取锁时使用原子的compare_exchange操作,释放锁时使用原子操作配合内存顺序(memory ordering)来保证可见性。
    • 内存顺序(如Acquire和Release)不仅影响生成的机器指令,还会限制编译器的优化,从而保证跨线程的内存访问顺序。
    • VolatileCell用于嵌入式系统中访问内存映射I/O。它使用volatile读写操作,但仍存在一些安全性问题。
    • volatile操作与原子操作不同,不能建立happens-before关系。对于DMA等操作,需要额外使用内存屏障(fence)来保证顺序。
    • 文章深入探讨了UnsafeCell、原子操作、内存顺序等概念如何在底层影响Rust的并发安全性,对理解Rust的并发模型很有帮助。

Range Over Function Types

Go 1.23 is released

Go 1.18之后的语法新特性Quiz,你能做对几个

Rust的Pin类型是用来做什么的,以及为什么它很难使用

Rust 中 @ 符号的高级应用和最佳实践

[译] Range Over Function Types

探索 Go 标准库中的优雅设计模式:函数与接口的结合

Go 入门指南:5.2. 测试多返回值函数的错误

Go 项目结构的简洁实现 | GitHub 3.5k

Go GOPATH 模式未来会怎么样,会消失吗

Go1.23 新特性:再开后门,可以记录未捕获的 panic 和 throw 日志了!

🌟 Kitex Thrift Streaming 在字节跳动 Prompt 平台的实践

一款支持自动流水线和客户端缓存的 Go 语言 Redis 客户端

Go必知必会:协程(上):进程、线程、协程的区别和联系

Golang面试题:strings 和 strconv 包

基于 Gin 框架的 Go 后端架构最佳实践

继Ollama之后,Go在AI领域再下一城

了解 Golang 中的内存管理:Stack vs Heap

Go必知必会:构建复杂数据模型的基石

Go 1.23中值得关注的几个变化

写给go开发者的gRPC教程-通信模式

Golang面试题:基本类型和运算符

📒 后端相关

互联网根服务器只有13台,是真的吗

一线实战:运维人少,我们是如何从 0 到 1 实践 DevOps 和云原生

千万级数据的全表update的正确姿势!

系统设计:在搜索系统实现缓存的策略与思考

ByteHouse高性能向量检索实践——“以图搜图”

AI 网关零代码解决 AI 幻觉问题

📒 前端相关

2024最新VSCode实用插件推荐,开发效率遥遥领先!超全面,快收藏~

把黑神话悟空视频设置为vscode背景,真的太炫酷了

· 6 min read
加菲猫

alt text

封面图:Russ Cox 领导 Go 团队发布的最后一个版本 Go 1.23.0 终于发布啦!来的比以往晚了几天!

🌟 AI 相关

本周9篇论文带你看最新RAG应用方向

HybridRAG: 融合知识图谱和向量检索的新型信息提取方法

大模型 VS 小模型

【LLM模型微调】LLMs-数据构造-LIMA-230518论文总结v3.0

三万字详解!GPT-5:你需要知道的一切

LLM的幻觉怎么分类,有哪些缓解幻觉的技术,这里是你应该知道的前沿调查

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

IntactKV:保持关键词元无损的大语言模型量化方法

腾讯优图开源多模态大模型VITA : GPT-4o的简易平替!

检索增强生成(RAG)技术方法流程最佳实践实验探索

RAGAS:实现检索增强生成的自动化评估

最新文生图神器 FLUX.1,火山引擎云上部署实战!

【LLM模型微调】LLMs-垂域微调-微调经验总结v2.0

香港理工:你精心设计的prompt,很容易被用户套出来!

刚刚!ACL2024最佳论文开奖!GloVe获时间检验奖

李沐:创业一年,人间三年

一直爆料OpenAI「草莓」的账号,竟然是个智能体?斯坦福系创企「炒作」AgentQ

大模型分布式高效训练技术综述

更高效的RAG文本检索和排序: 多语言GTE系列模型开源

一文揭秘|预训练一个72b模型需要多久

大模型经典PTQ量化方法总结

【LLM模型微调】LLMs-PEFT[微调]-微调经验总结v1.0

TensorRT-LLM初探(三)最佳部署实践

OpenAI「草莓」提前曝光?ChatGPT 版搜索引擎惊现神秘模型|AGI 掘金资讯

Multi-Head RAG:复杂问题的RAG召回方案

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

一文梳理有效提升RAG效果的方法

RAG Foundry:开源RAG框架,数据、推理、测评一条龙

【LLM数据工程】LLMs-数据构造-Self-Instruct总结v3.0

AI美女全军覆没!赛博照妖镜下集体变“鬼”,AI代码拆台AI生图

TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务

一文搞懂 TorchDynamo 原理

⭐️ Go & 云原生 & Rust 相关

Go 语言持续基准测试:精准追踪性能,优化代码效率

Golang面试题:生成代码文档

Go 1.23 快速指南

Golang面试题:格式化代码

一键生成生产级 Go 应用

Go 微服务实战:从单体应用到分布式架构

Go1.23 新特性:新库 structs.HostLayout,终于可以指定内存布局了!

Go必知必会:"反射"运行时类型检查与操作的深度指南

Kubernetes v1.31 正式发布:欢庆十周年,迎接新纪元

Go 1.23 正式发布:性能提升、Telemetry 加入和标准库改进

Golang面试题:Docker 容器有几种状态

Rust中文资料:一年的学习资料都在这里了

Go 1.23.0 重磅发布,不少改进

西瓜视频基于 Hertz 的微服务落地实践

string和bytes四种转换方式的性能比较

Node.js 竟然比 Go 快

Russ Cox 领导 Go 团队发布的最后一个版本 Go 1.23.0 终于发布啦!来的比以往晚了几天!

Kubernetes 中必备的 10 个告警处置方法

基于 Golang 和 Redis 解决分布式系统下的并发问题

Rust 开发者必须知道的十个核心库

夜天之书 #102 从参与 Rust 标准库开发看开源贡献的源动力

🌟 一个全新的 Go pprof 视角 - 对象引用分析

基于 Rust 和 WebSocket 打造实时聊天应用

通过Go示例理解函数式编程思维

图解 Go语言 time.Sleep 的实现原理

Golang面试题:微服务架构的优缺点

Go1.23 新特性:试图禁用 //go:linkname,建立新的握手机制!

📒 后端相关

一亿行数据,从71s优化到1.7s

面试官:你使用过哪些 Java 并发工具类

Apache RocketMQ 批处理模型演进之路

Java并发基础:原子变量在多线程同步中的专业应用!

浅谈Elasticsearch的入门与实践

📒 前端相关

推荐 5 个让 VS Code 更好用的设置

· 15 min read
加菲猫

alt text

封面图:Safe by construction - Roberto Clapis

🌟 AI 相关

技术资讯

最新研究:大语言模型使用Json格式输出会降低模型性能吗

太卷了,本周新鲜出炉的RAG论文都在这了

🌟 95% 向量资源节省,火山引擎云搜索 RAG 技术体系演进

LLaMA3.1为什么选择405B作为最大参数量

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

XetHub 加入 Hugging Face!

Qwen2-Math开源!初步探索数学合成数据生成!

没有等来Qwen2.5,但等来了Qwen2-Math

看完MindSearch源码,这就是我想要的Agent Plan!

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

GLM大模型的机器翻译能力测试

从头预训练一只迷你 LLaMA 3

最高优化529倍!豆包大模型团队&港大提出ByteCheckpoint提效LLM训练

GPT-4o新版本突然上线:丝滑解决9.11和9.9谁大,更强也更便宜了

泄露!Apple Intelligence提示词原来是这样,还告诉大模型:别幻觉

大模型推理优化实践:KV cache复用与投机采样

特定领域的模型微调是否有意义?BioRAG,一个大型 RAG 实际应用案例告诉您

Agentic RAG Golden-Retriever:显著提升企业知识库问答准确性、检索效率!

AIGC大模型实践总结

多图、视频首上端!面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!魔搭推理、微调、部署实战教程来啦!

图解大模型计算加速系列:vLLM源码解析1,整体架构

SFT Packing数据拆分和4D mask详解

🌟 错误率从10%降至0.01%,领英全面分享LLM应用落地经验

LLM101n 硬核代码解读:Micrograd,一个轻量级的自动微分引擎

如何把 PyTorch 的 GPU 利用率提升到 100%

大模型微调到底有没有技术含量

量化方法怎么选?如何评估量化后的大模型LLM

如何用FP8训练大模型

Mem0唱罢,Memary登场!

🌟 CUDA性能简易优化(一)背景知识

一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明

MindSearch技术详解,本地搭建媲美Perplexity的AI思·索应用!

【LLM数据工程】LLMs-开源数据-微调数据集总结v2.0

Meta与伯克利最新:元奖励Prompt,让LLM作为元法官能自我改进(包含Prompt模板)

⭐️ Go & 云原生 & Rust 相关

技术资讯

从源代码中窥探 Go 的 WaitGroup 实现和应用

Golang 中对时间控制的方法和技巧

Golang面试题: Go 性能说明

利用go trace优化垃圾回收

Kubernetes 中的 Sidecar 模式:Go 语言实战指南

没有什么不可能:修改 Go 结构体的私有字段

Golang面试题:常量 const

Rust 迭代器并非速度致胜

go-sqlbuilder:灵活强大的Go语言SQL语句构建库,兼具零配置ORM功能

Go 1.22.6 和 Go 1.21.13 刚刚发布,未包含 security fix

Go1.23 新特性:slices、panic、cookie 等函数改进,效率提高了!

Go的GMP模型真的“简单”

Golang面试题:GC 触发时机

🌟 Golang 并发的 fork/join 模式

go-chi:用于构建 Go HTTP 服务的轻量级且可组合的路由器

学习 Kubernetes 源码的过程中,我沉淀的笔记方法

Golang面试题:Redis 的回收策略(淘汰策略)

深入探究 K8S Pod 安全策略与准入控制器:构建坚不可摧的容器安全防线

K8S 配置魔法:ConfigMap & Secret 的神秘世界

深入解析 Kubernetes RBAC:保障集群安全与权限管理的利器

在 K8S 中部署高可用 Redis 集群

深入解析 K8S 原理及各组件的神秘面纱

使用TLA+形式化验证Go并发程序

通过写 Kubernetes 专栏,我不断在进化

Golang面试题:写屏障

📒 后端相关

微服务架构拆分的 7 大黄金法则

想要支持百万长连接,需要调优哪些参数

手把手教你用程序 Debug TCP连接的断开流程

什么是数据库的逻辑删除?数据库的物理删除和逻辑删除有什么区别

从0到1大实战:穿透 SpringCloud 工业级 底座工程,15大圣经,实力瞬间爆表

一套万能的异步处理方案!

📒 前端相关

小红书的pc端瀑布流的效果是怎么实现的

· 10 min read
加菲猫

alt text

封面图:Safe by construction - Roberto Clapis

🌟 AI 相关

模块化RAG:RAG新范式,像乐高一样搭建 万字长文

SmolLM: 一个超快速、超高性能的小模型集合

Gemini 1.5 Pro发布,赢了榜单第一,却被网友泼冷水

用近期火爆的Best-of-N策略加成变分推理Prompt,生成2024巴黎奥运会创意亮点介绍文章

【LLM开源模型】LLMs-Qwen2-240606通关攻略笔记v2.0

TRT-LLM中的Quantization GEMM(Ampere Mixed GEMM)CUTLASS 2.x 课程学习笔记

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

语义与效率、算法与算力双飞轮——小红书广告召回实践

豆包大模型视觉、语音能力升级!文生图更懂“国风”,TTS“拿捏”情绪

谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo,苹果15Pro运行飞快

吴恩达弟子打造arXiv弹幕版,每篇论文都能自由讨论了!

Modelscope Agent实操(六):添加涂鸦作画能力到Modelscope-Agent中

大模型预训练开源数据集-整理

Llama3.1 中的Pipeline Parallelism技术Interleaved PP与WPipe的比较与扩展

以知识图谱结构为Prompt框架,帮LLM快速找出因果关系生成更精准内容

理解图结构和图推理,彻底掌握GraphRAG底层逻辑,悄悄超越99%的人 | ICLR2024

Meta「分割一切」进化2.0!一键跟踪运动物体,代码权重数据集全开源,网友:真正的OpenAI

ChatGPT版「Her」突然开放,第一波实测来了!用户已疯狂

失联大神李沐B站复更:领读Llama 3.1论文,还多讲了一点AI八卦;大模型竞技场Llama 3.1排名第三

🌟 SGLang技术分析

一文详解模型权重存储新格式 Safetensors

大道至简,GraphRAG生成的Prompt和数据集,用60行Python基础代码就能优化

亚马逊 RAG 新突破:REAPER 技术开启大型智能对话助手新境界

🌟 大模型时代的操作系统:融合Rust和大模型,vivo打造AI操作系统

别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了

重磅惊喜!OpenAI突然上线GPT-4o超长输出模型!「Her」高级语音模式已开放测试!

德黑兰、卡梅隆、哈佛等大学最新的C2P因果推理链Prompt,让LLM跨越因果推理鸿沟

Mistral系列模型核心技术详解

解锁开源模型高性能服务:SGLang Runtime 应用场景与实践

SGLang:LLM推理引擎发展新方向

用这条Q-Star的prompt让LLM拥有MDP,深思熟虑规划你的复杂推理

RAG 2.0谷歌RICHES:边检索、边思考、边生成

卡内基梅隆大学重磅,用这条Prompt让LLM递归内省,多轮交互中自我改进

GraphRAG+Ollama,构建本地精准全局问答系统!

TaD+RAG-缓解大模型“幻觉”的组合新疗法

大模型在推荐系统中的精准推荐策略与实践

探索大语言模型:理解Self Attention

⭐️ Go & 云原生 & Rust 相关

技术资讯
  • Sea-orm, diesel, sqlx 比较
  • 如何学习Rust的类型系统设计,自己写一个新语言
  • Rust开发经验总结
  • Jiff: 一个高层次的Rust时间库
  • query.rs - 搜索Rust的一切
    • 文档,crate,错误代码等等。 就是Rust生态的google
  • 使用Rust 10年后,我想吐槽几句。这篇文章分享了作者在使用Rust编程语言中的经验,特别是一些主要的痛点和问题。以下是总结:
    • 错误处理(Result<T, E>):
      • Rust的错误处理机制虽然强制开发者处理错误,但在实际使用中,尤其是库开发中,创建和转换错误类型非常麻烦。
      • 在应用代码中,通常只需要传播错误并向用户显示结果,但Rust缺乏Java那样的完善的错误日志和调用栈信息。
      • 作者建议Rust标准化一个类似于Box的类型,自动附加上下文信息,以便在函数间传播错误。
    • 模块系统:
      • Rust的模块系统过于灵活,容易导致意外暴露类型或模块。
      • 管理跨crate的代码组织困难,特别是在大型项目(如Bevy)的单一仓库中。
      • 作者认为Rust应更加显式,类似于Java的模块路径与文件系统文件夹对应的方式。
    • 编译时间和IDE工具:
      • 编译时间和IDE中的错误检查速度太慢,特别是对于大型项目(如Bevy)。
      • Rust的编译单元设计(1 crate = 1编译单元)导致每次修改都需要重新编译整个crate及其依赖项。
      • Rust分析器在大型项目中表现不佳,经常重新索引整个项目。
  • mistral.rs 比 llama.cpp 在大部的CUDA GPU上都快了。最新实现了 PagedAttention。
  • 写一个toy compiler。里面讲到了borrow checker的设计
  • 使用Rust构建搜索引擎。这篇访谈文章讲述了Meilisearch的联合创始人兼CTO Clément "Kero" Renault的经历。他从青少年时期开始编程,进入巴黎42学校,后在Veepee公司工作,参与改进搜索引擎。由于对性能的关注,他选择Rust语言自行开发搜索引擎,并在朋友的建议下创办了Meilisearch。

用Go语言构建优雅的事件驱动架构

Go 语言新征程:Russ Cox 告别,Austin Clements 开启新篇章

🌟 Go1.23 新特性:time.Reset 终于解决了过期时间值的坑!

Golang面试题:sysmon 有什么作用

Golang面试题:GMP 中 work stealing 机制

Traefik vs. NGINX

面向OpenTelemetry的Golang应用无侵入插桩技术

Go 团队负责人 Russ Cox 即将于 9 月 1 日卸任 TechLead,转战 AI 迭代 Oscar

从 v1 到 v2:分享我 WorkQueue 项目重构的完整思路

Go项目我不领导了,我去做AI了

Golang面试题:什么是 CAS

🌟 rust的web框架单机百万并发的性能与开销

Golang面试题:WaitGroup 实现原理

🌟 Go1.23 新特性:花了近 10 年,time.After 终于不泄漏了!

Go nil 的特殊行为:深入理解类型对比

🌟 字节开源 Go 内存引用分析工具,内存泄露一目了然!

🌟 Rust逆向入门:从反编译视角学习内存模型

一个全新的 Go pprof 视角 - 对象引用分析

🌟 Kubernetes 架构学习笔记(下)

Kubernetes 架构学习笔记(上)

Go 语言 Base64 编码解码实战指南

在 Go 中如何使用反射实现简易版 encoding/json

深入解析 Go 语言 GMP 模型:并发编程的核心机制

Go micro/cli 很不专业,居然直接删库了!

📒 后端相关

RocketMQ 为什么性能不如 Kafka

遇到面试官问微服务架构设计到底该如何回答

不服不行,这才是后端API接口应该有的样子!

1000W长连接,如何建立和维护?千万用户IM ,如何架构设计

ConcurrentHashMap 的 get 方法是否需要加锁

面试速记|图解MySQL执行一条SQL的过程

📒 前端相关

如何实现一个分词器

开发小程序又一新选择 vue-mini,据说性能是 Taro 的 10 倍,遥遥领先

技术周刊 | Bundler 近况、React 2023 状态报告出炉、小模型群雄并起、OpenAI 发布 SearchGPT

· 13 min read
加菲猫

alt text

封面图:Safe by construction - Roberto Clapis

🌟 AI 相关

技术资讯

从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务

RAG优化: 非结构化文档解析方案汇总

OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略

ChatQA2:RAG好还是长上下文模型好

小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...

SearchGPT第一波评测来了!响应速度超快还没广告,“OpenAI杀手锏”

斯坦福重磅,用这条Prompt让LLM说话之前先思考

为什么说大模型训练很难?聊聊预训练的一些经验

LLM101n 硬核代码解读:手把手教你用PyTorch实现多层感知机MLP

一大堆Llama3.1-Chinese正在袭来

为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下

解密企业级 AI 平台架构:从零到一构建实战指南

大模型训练方法论及Yi-Large的实践

图解Attention优化: 从Online-Softmax到FlashAttention V1/V2/V3

Meta亲自下场教学Llama3.1 Agent/RAG!

微软最新,让Prompt进化自动化,用Auto EvolInstruct来拯救你的结构化提示词

🌟 不止llama 3.1!Meta还同步开源了安全审核和提示词注入、越狱校验的2个新模型

🌟 Meta开源的Llama官方Agent:Llama-Agentic-System深度解析

大模型结构的进化:LLaMA 3.1结构及影响解析

Large Enough!Mistral Large 2开源!魔搭推理、微调最佳实战教程来啦!

打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制,一口气解答8大问题

ICML最佳论文曾被ICLR拒稿,Pika联创参与,一作已入职OpenAI

RLHF不够用了,OpenAI设计出了新的奖励机制

重磅!Mistral Large 2深夜发布!Llama3.1仅一天被超越,最强开源再易主

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

🌟 LLama3 405B 技术解读

llama 3.1终于开源!速览技术报告中最有意思的17个新要点

Meet Llama3.1,405B赶超最强闭源模型!上魔搭社区一站体验、下载、推理、微调、部署

击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B,Meta都写在这篇论文里了

LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅

CUDA性能简易优化(一)背景知识

看完Mem0的源码,它很火,我很懵

🌟 2024年推荐系统技术全面综述:历史、现状、分类、应用、展望

一篇RAG全栈技术最新综述

Llama3.1系列模型正式开源,最大405B,闭源模型的统治时代将迎来结束

使用InternVL、LMDeploy和GTE搭建多模态RAG系统

QOQA:利用TopK文档进行查询改写,平均提升RAG 1.6% 准确率

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

最强开源大模型?Qwen2 技术报告解读

盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变

电脑平板组AI集群,在家就能跑400B大模型,GitHub狂揽2.5K星

苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果

关于RAG优化的几个小技巧

YC孵化项目Mem0开源:为AI插上个性化记忆的翅膀

⭐️ Go & 云原生 & Rust 相关

技术资讯

Zed:未来代码编辑器的曙光,Rust实现!

threadsafe:使用Golang实现线程安全的数据结构

Quartz - 一个 Golang 的确定性时间测试库

[小布去面试]Tricky 的 Golang 面试题 - interface = nil

LazyCell 和 LazyLock: Rust 1.80.0 新同步原语

同步和异步 Rust 中的 RESTful API

高效日志管理:深入解析Go Gin框架中的日志处理

Go必知必会:异常处理的关键panic

深入 Golang 中的接口检查机制及工作原理

UUID 和 UUID v7

Go 1.23 中 errors.Is 的一点小改动

超级加速,高效、安全的Go语言代理服务器!-GoProxy

程序员刚开始带项目,要注意学习哪些要领

Go1.23 新特性:新标准库 unique,性能更好,开销更小!

Go必知必会:深入剖析Go语言中的结构体

通过 Go 开始使用 Genkit(Alpha 版)

Golang - range 迭代器揭秘

揭秘 Golang 的异常处理利器: Panic 与 Recover 的深度探索

🌟 Go-Zero 数据库实战:配置、建模与业务逻辑一体化(八)

Go 异步编程小技巧

Genkit - Google 推出 Genkit for Go, 用于以 Go 语言构建 AI 应用

Go 发布 AI 机器人 Oscar,解决开源项目的维护痛点!

Go语言中的SIMD加速:以矩阵加法为例

Rudis:用 Rust 打造的高性能内存数据库

📒 后端相关

🌟 基本功 | 一文讲清多线程和多线程同步

🌟 搜索广告召回技术在美团的实践

Spark向量化计算在美团生产环境的实践

领域驱动设计DDD在B端营销系统的实践

DDD在大众点评交易系统演进中的应用

万字解析 mysql innodb 事务实现原理

金字塔原理:掌握高效沟通的艺术

📒 前端相关

老树开新花:大模型时代的代码执行沙箱

前端打包工具Mako架构解析|得物技术

得物AB实验平台数据驱动决策实践

「最后一次,彻底搞懂kotlin协程」(一) | 先回到线程

我写了一个ESLint插件,解决了团队棘手问题

· 15 min read
加菲猫

alt text

封面图:Go 1.23 Release Candidate 2 is released!

🌟 AI 相关

技术资讯

大模型二次开发基本思路

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对

从零预训练LLAMA3的完整指南:一个文件,探索Scaling Law

脆弱的不确定性:大模型的可信度如何被操控

KDD 2024|港大黄超团队深度解析大模型在图机器学习领域的「未知边界」

大模型处理29个NLP任务的39种prompt策略总结:兼看2024上半年大模型发展回顾

仅微调0.02%参数,性能接近全量微调!上交大推出高效微调统一新范式

超长上下文LLM的崛起:对RAG技术的挑战与机遇

DSARE:当传统NLP遇到LLM后的关系提取新思路

提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

咦?我从GPT-4o mini身上看到了两家中国大模型厂商的影子

关于垂直领域大模型的探索和尝试

可图IP-adapter-plus开源,魔搭送你一本中文咒语书

Hugging Face推出可在手机端运行的小模型;OpenAI用小模型解决“黑盒”难题!

VILA:教你如何训练多模态理解模型

通向概率分布之路:盘点Softmax及其替代品

搞不定结构化prompt优化,用微软的Uniprompt结构化语义分解框架搞定它

LLM Continue Pretrain(2024版)

YOLO-World:基于视觉语言模型的实时开放词汇物体检测

Mamba写代码真的超越Transformer!原始论文入选顶流新会议

🌟 阿里云服务领域Agent智能体:从概念到落地的思考、设计与实践

魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理

[LLM性能优化]聊聊长文本推理性能优化方向

Reddit传疯的Claude 3.5 Artifacts 的核心系统提示词!Code效果猛增

大模型Infra这些年,从黑铁时代到黄金时代再到白银时代

为视觉语言多模态模型进行偏好优化

平安科技发表大模型智能客服框架PCA,助力企业级对话系统建设

万字长文,从结构化知识到自然语言理解:探索KG-LLM协同的无限可能

清华出品!3万字详解大模型高效推理

Mixture-of-Agents系统,竟然如此简单!

深入CrewAI,手把手教你快速构建多智能体系统

LLM推理加速3:推理优化总结Mooncake/AttentionStore/vllm0.5/cache优化 etc

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

微调 Florence-2 - 微软的尖端视觉语言模型

从关键词匹配到知识理解:微软 GraphRAG 掀起革命,Neo4j CTO 详解其如何引领智能检索新时代

大模型预训练认知分享:如何从零开始训练大模型

⭐️ Go & 云原生 & Rust 相关

Rust中的panic!:在安全与效率间寻求平衡

Go 运行时调度器:深入解析并发执行的奥秘

深入理解 Go 语言并发编程中的 Mutex

Golang 使用 upx 减少可执行文件的大小

Rust 语言中的数组和切片

🌟 Go 锁的实现与应用

🌟 项目重构为Go实现后,对 DDD 实践的思考

Golang 垃圾回收:一次 GC 周期的详细过程

利用 Redis Bitmap 实现高效的用户签到统计功能

深入理解Go标准库-http server的启动

深入理解Go标准库-ServeMux的使用与模式匹配

SQL实用技巧-行列转换

🌟 用Go开发项目怎么做好并发抑制

7 张图,彻底讲透 Prometheus 架构原理,收藏备用

深入剖析 Kubernetes 原生 Sidecar 容器

Rust 语言跨平台编译从入门到精通

🌟 Bilibili 开源 Go 微服务框架 Kratos

🌟 Go-Zero实战:抽奖算法的设计与实现(七)

Linux 中停止 Docker 服务报 warning 导致无法彻底停止问题如何解决

给Rust初学者的学习建议

Go 1.23 Release Candidate 2 is released!

Go 夜读第 157 期从 0 到 1 用 Claude.ai 开发个人作品集网站

发现了一个 Go 最小化日志系统的好轮子

DockerHub 拉取镜像,终极解决方案!

你不知道的 Dockerfile 增强新语法

在 Go 项目中使用 Redis 的几个实用建议

Enhancing Kubernetes API - 挂载K8S资源为本地云盘

通过实例理解Go访问和操作数据库的几种方式

Rust必知必会库001: thiserror 和 anyhow

📒 后端相关

🌟 如何理解:业务架构、应用架构、数据架构、技术架构与系统和复杂度

40 个定时任务,带你理解 RocketMQ 设计精髓!

Redis只能做缓存?太out了!

不引入ES,如何利用 MySQL 实现模糊匹配

21 条MySQL 开发规范,太详细了,建议收藏!

为什么 MySQL 事务默认隔离级别是可重复读

Redis 主从同步原理是什么

为什么 mysql 插入不存在的数据会产生死锁

云消息队列 RabbitMQ 版入门训练营,解锁对比开源优势与零基础实战

AI 时代,网关更能打了

图解Kafka的内部架构和其发展历程

📒 前端相关

🌟 ES+Milvus实战落地全文检索业务

豆包Marscode体验官:用云编译器半小时完成轮播组件紧急开发!被公司奖励500!

有点东西,template可以直接使用setup语法糖中的变量原来是因为这个

基于wujie的解决方案来简单聊聊微前端

· 19 min read
加菲猫

alt text

封面图:Safe by construction - Roberto Clapis

🌟 AI 相关

技术资讯

Meta | 提出System 2蒸馏方法,Llama 2对话模型任务准确率接近100%!

🌟 LLM之RAG实战(二十五)| 使用LlamaIndex和BM25重排序实践

🌟 Hybrid Search: 利用BM25算法和语义搜索提升RAG系统性能

Lookback Lens:用注意力图检测和减轻llm的幻觉

LLM代理应用实战:构建Plotly数据可视化代理

Stability AI修改协议Stable Diffusion 3 Medium可以免费商业化应用

RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服

OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级

ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率

五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

又来一个RAG:RankRAG,英伟达RAG新思路

Modelscope-Agent 增强RAG能力:(二)多源召回,自定义图片解析

AI慢思考蒸馏进快思考,Llama2跃升至GPT-4水平,不写过程也能做对题

万字长文,代码详解Memory3:革命性RAG模型如何重新定义大规模语言模型

综述!清华 && 剑桥 | 深入探讨大模型(LLMs)知识冲突的研究进展及挑战

绘梦有形,快手开源「可图 Kolors」,等你来玩

社区供稿 | 源大模型的快速部署与高效推理——GGUF格式模型介绍与使用教程

谷歌 | 提出新型层设计:PEER,可对百万专家进行稀疏检索,超越密集前馈、稀疏MoE

人人可做提示工程师!Claude上新:一键生成、测试和评估prompt

平安科技新成果:PCA,基于外部决策工具的智能客服框架

深入探讨提示工程的攻击与防范:从理论到实践【附大语言模型提示注入攻击安全风险分析报告】

BM42横空出世!BM25统御搜索引擎40年,终于要落幕了

🌟 源码解读 - 微软GraphRAG框架

🌟 LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解

🌟 斯坦福最新警示 | 别被RAG模型骗了:看LLM如何通过Prompt权衡先验知识与RAG检索

RAG还得靠大佬!NVIDIA新模型让GPT-4都吃灰

苹果大模型Siri将至;InternLM2.5-7B可免费商用;TTT超越Transformer和Mamba|青稞日报07.08

不是H100租不起,而GPU混布更有性价比!

多模态模型(VLM)部署方法抛砖引玉

微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型

IAAR && 北大 | 为大模型配备显式记忆,降低成本,提升大模型推理速度!

彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

理解时间戳的视频理解大模型CogVLM2开源!视频生成、视频摘要等任务有力工具!

激活函数的进化之旅:从Sigmoid到SwiGLU,深度学习的神经触发器

Mobile-Agent-V1/V2:基于多模态Agent架构的手机智能体

开源VLM新标杆 InternVL 2.0 怎么用?部署、微调尽在魔搭社区!

微软 MInference:百万 Token 序列,10x 加速

压缩下一个token通向超过人类的智能

⭐️ Go & 云原生 & Rust 相关

盘点 Rust 中的那些天才构思

构建并运行 eBPF 应用 - Part 1

想知道海外技术面试都考些什么吗

🌟 [] Rust标准库有些特殊,让我们改变它

Go语言标准库中math/rand包的改进和math/rand/v2包的引入

代码提交即部署:Argo Workflows 与 EventBridge 构建自动化 CI

链路追踪详解(六):Zipkin 和 Jaeger 的安装方法

Kubernets的NVIDIA设备插件安装方案实践

Go 1.23 的 os.CopyFS:告别第三方库,轻松复制目录

在Go项目中使用Redis的几个实用建议

使用SIMD优化二叉搜索树

🌟 5 Better ways to code in Rust

全面掌握 Go 语言 errors 标准库:使用指南与源码深度解析

Go 语言 API 限流实战:保障系统稳定性的护盾

Go 性能度量利器,完全替代 io.Reader 和 io.Writer!

rsc 给 Go 社区写了个 AI 机器人,他很满意!

Rust多线程编程和异步编程

震惊! Go 1.23中Timer无buffer的实现方式竟是这样!

Golang Channel 模式:Retry timeout

对过去一年多的 AI 轮子们碎碎念

cgo 内存优化后续 - 修了个 bug

📒 后端相关

🌟 万字聊一聊DDD领域驱动设计理论

快停下,Redis 都要被你玩坏了

国内用户如何使用 DuckDB 访问 Hugging Face 上超15万 数据集

紧急生产问题:线上kafka百万消息积压如何处理

微服务循环依赖引发惨案,有坑!

写出漂亮代码的45个小技巧,你知道几个?还不收藏

3个企业级最佳实践,教你ByteHouse云数仓这么用

阿里面试:canal+MQ,会有乱序的问题吗

在线人数统计功能怎么实现

12 个电商核心业务系统,如此复杂的中台业务一篇文章就能讲明白

Rust 中跨平台获取 MAC 地址

秒杀圣经(2): 16大绝招,完成10Wqps秒杀架构(3万字架构长文)

干货 | 携程门票「秒杀系统」的设计与实践

在过去三年中,DuckDB 的速度提升了 3-25 倍

📒 前端相关

如何开发一款 JSSDK

数据智能|交互新探索:大模型时代可视化应用的交互新可能

性能飙升50%,react-virtualized-list如何优化大数据集滚动渲染

Next.js 项目写 Tailwind CSS 基本都会遇到的两个问题

构建更快的 Web 体验 - 使用 postTask 调度器

前端工程化系列二:编码提效