
出海企业最想要的AI能力,是一个”懂你业务”的智能助手
很多出海企业都在问同一个问题:ChatGPT很强,但它不了解我们公司的产品、合规要求和销售话术,怎么用在真实业务上?
答案是 RAG(检索增强生成)。
RAG的核心逻辑很简单:让AI在回答之前,先从你的专有知识库里检索相关内容,再结合大模型生成准确的回答。这样既保留了大模型的语言能力,又解决了”知识幻觉”和”信息时效”问题。
AWS Bedrock Knowledge Bases 是目前搭建企业RAG系统最成熟的托管方案之一,不需要自己管理向量数据库和嵌入模型,几个小时内即可上线。
本文完整拆解用 AWS Bedrock 搭建 RAG 知识库的全流程。
一、什么是RAG,为什么出海企业需要它?
RAG vs 纯大模型 vs 微调模型
| 方案 | 成本 | 知识时效性 | 准确性 | 适合场景 |
|---|---|---|---|---|
| 纯大模型(直接调用API) | 低 | 受训练截止日期限制 | 容易幻觉 | 通用对话 |
| 模型微调(Fine-tuning) | 高(需要大量标注数据) | 需重新训练 | 高但静态 | 垂直领域固定任务 |
| RAG | 中 | 实时(更新知识库即可) | 高且可控 | 企业知识问答、客服、文档检索 |
对于出海企业来说,RAG 适合这些场景:
- AI客服:产品FAQ、退换货政策、海外合规问题自动解答
- 销售助手:快速检索产品手册、竞品对比资料
- 内部知识问答:HR政策、财务报销流程、技术文档查询
- 合规审查:自动检索目标市场法规,辅助合规判断
二、AWS Bedrock RAG 架构总览
用户提问 ↓ Amazon Bedrock Knowledge Bases ├── 问题向量化(Embedding Model,如 Amazon Titan Embeddings) ├── 向量检索(Amazon OpenSearch Serverless / Pinecone) └── 召回相关文档块 ↓ Foundation Model(如 Claude 3 Sonnet / Llama 3) └── 结合检索内容生成回答 ↓ 返回给用户(含来源引用)
核心组件:
| 组件 | AWS服务 | 说明 |
|---|---|---|
| 知识库文档存储 | Amazon S3 | 存放PDF、Word、HTML等文档 |
| 嵌入模型 | Amazon Titan Embeddings V2 | 将文本转为向量 |
| 向量数据库 | Amazon OpenSearch Serverless | 存储和检索向量 |
| 大语言模型 | Bedrock上的Claude/Llama等 | 生成最终答案 |
| 编排层 | Bedrock Knowledge Bases | 自动管理整个RAG流程 |
三、完整搭建流程(Step by Step)
Step 1:准备文档数据
支持的文档格式:PDF、TXT、HTML、Markdown、Word(.docx)、CSV
数据准备建议:
- 每个文档控制在 50页以内(超大文档建议拆分)
- 文档命名规范,方便后续追溯来源
- 中文文档完全支持(Titan Embeddings支持多语言)
将所有文档上传到S3桶:
aws s3 cp ./knowledge-docs/ s3://your-company-knowledge-base/ --recursive
Step 2:创建 Bedrock Knowledge Base
进入 AWS Console → Amazon Bedrock → Knowledge bases → Create
关键配置项:
1. 数据源配置
- Data source type:选 Amazon S3
- S3 URI:填写你的文档桶路径
2. 嵌入模型选择 推荐:Amazon Titan Embeddings V2
- 支持中英文双语
- 输入维度:1536
- 成本低(每百万token约$0.02)
3. 向量数据库选择
- 新手推荐:Amazon OpenSearch Serverless(全托管,零运维)
- 已有方案:支持接入 Pinecone、MongoDB Atlas、Redis Enterprise
4. 分块策略(Chunking)
- 默认分块:每块300 token,20% overlap
- 如果是结构化文档(FAQ、合规条款):建议按语义分块(Semantic Chunking)
Step 3:数据摄取(Sync)
创建完成后,点击 Sync 触发数据摄取流程:
S3文档 → 文本提取 → 分块 → Titan Embeddings向量化 → 写入OpenSearch
摄取时间参考:
- 100页PDF:约3-5分钟
- 1000个文档:约30-60分钟(视文档大小)
更新知识库:S3新增文档后重新Sync即可,不需要重建整个知识库。
Step 4:集成到业务系统
常见集成方式:
- 网站AI客服:通过API接入前端聊天组件(如 Amazon Lex 或自定义React组件)
- 企业微信/飞书机器人:用Webhook + Lambda函数接收消息 → 查询KB → 返回回答
- 内部工具集成:接入Notion、Confluence等知识管理工具
四、成本估算(以中小企业规模为例)
假设:1000个文档(约5000页),每天100次查询
| 成本项 | 月均费用 |
|---|---|
| S3存储(10GB文档) | ~$0.23 |
| Titan Embeddings(初次摄取) | ~$2.50(一次性) |
| OpenSearch Serverless | ~$175/月(最小配置) |
| Claude 3 Sonnet 推理(100次/天,3000输入+500输出token/次) | ~$35/月 |
| 合计 | ~$210/月 |
注意:OpenSearch Serverless 有最低计费(0.5 OCU),如果查询量少可考虑用 Pinecone 免费层 替代向量数据库,可将月成本降到 $50 以内。
五、常见踩坑与解决方案
坑1:检索结果不相关
原因:分块粒度太大或太小,导致语义不聚焦。
解决:
- 对话类场景:分块200-400 token
- 长篇技术文档:开启语义分块(Semantic Chunking)
坑2:中文回答质量差
原因:嵌入模型选了英文优化版本。
解决:确认使用 Titan Embeddings V2(多语言版),对中文支持更好。
坑3:知识库更新后回答还是旧的
原因:更新S3文件后忘记触发Sync。
解决:设置S3事件通知 → 自动触发Lambda → 调用 start_ingestion_job API。
坑4:回答包含幻觉内容
原因:大模型在知识库没有命中内容时仍会”编造”答案。
解决:在Prompt中明确指示:
如果提供的参考文档中没有相关信息,请回答"根据现有知识库暂无相关记录",不要猜测。
六、进阶扩展:加入权限控制和对话记忆
权限控制(多租户场景)
如果不同部门有不同文档权限,可以:
- 每个部门创建独立的Knowledge Base
- 或通过 metadata filter 在查询时按部门标签过滤
对话记忆
retrieve_and_generate 支持 sessionId 参数,系统会自动维护多轮对话上下文:
response = bedrock_agent_runtime.retrieve_and_generate(
input={'text': question},
sessionId='user-session-123', # 同一sessionId保持对话连续性
...
)
总结
AWS Bedrock Knowledge Bases 让企业级 RAG 从”需要AI团队才能做”变成了”中小企业也能快速落地”。
核心优势:
- ✅ 全托管,无需运维向量数据库
- ✅ 支持中文文档
- ✅ 与AWS生态无缝集成(S3、Lambda、IAM权限控制)
- ✅ 按量计费,小规模成本可控
对于出海企业,AI客服 + 内部知识问答 是最快实现ROI的RAG应用场景,建议从这两个方向切入。

