参考 · 每节课都遵循这些定义
术语表
SEO、AEO 及其上自动化的共享词汇。标签:SEO 经典搜索 · AEO AI 答案引擎 · BOTH 两者
领域
- SEO — 搜索引擎优化 SEO
- 让网站在经典搜索结果页(那“十条蓝色链接”)里排得更高。优化的是 crawl → index → rank → serve 这条管线。
- AEO — 答案引擎优化 AEO
- 让你的内容成为 AI 答案引擎(ChatGPT、Claude、Perplexity、Google AI Overviews)生成回复时所引用(cite)的来源。有时也叫 GEO。
- GEO — 生成式引擎优化 AEO
- AEO 的学术叫法,出自 GEO 研究论文。目标相同:在生成的答案里获得可见度,而不只是排名链接。
经典管线
- Crawling(抓取) SEO
- bot(如 Googlebot)通过跟随链接、读取你的
sitemap.xml来抓取页面。受robots.txt把关。 - Indexing(索引) SEO
- 引擎解析抓取到的页面、渲染它,并存入一个巨大的可搜索数据库。没被 index 的页面永远无法排名。
- Rendering 渲染(两波 / 延迟) BOTH
- Google 分阶段处理 JS 页面:先抓取原始 HTML,然后——在一个独立、延迟的队列里,等资源允许时——用 headless Chrome 跑 JavaScript,并对产物重新 index。只在 JS 执行后才存在的内容,会被晚很久才 index,或被不渲染的 bot 永远漏掉。
- CSR 对比 SSR / SSG BOTH
- 客户端渲染(CSR):服务器只发一个空壳(
<div id="root">),由 JS 在浏览器里搭出页面——对不跑 JS 的 bot 不可见。服务端渲染(SSR) / 静态站点生成(SSG):内容就在第一个 HTML 响应里,每个 bot 立刻看得到。做 SEO/AEO,请把事实放进服务器发出的 HTML 里。 - Ranking(排名) SEO
- 对某个 query,引擎按数百个信号(相关性、链接、质量、新鲜度)给已 index 的页面排序。决定位置。
- Serving / SERP(结果页) SEO
- 真正展示给用户的搜索结果页(SERP)——链接,加上 snippet、知识面板、AI Overviews 等功能。
答案引擎管线
- Retrieval(检索) AEO
- 答案引擎拉取候选段落——通常来自同一个被 crawl/index 的网络(常通过一次实时搜索)——来为答案提供依据。这就是为什么 index 对 AEO 仍然重要。
- Synthesis / Generation(合成 / 生成) AEO
- LLM 综合检索到的段落加上它的训练知识,写出一个统一的答案。
- Citation(引用) AEO
- 引擎在答案旁(或背后)展示的链接/出处。成为被引用的来源就是 AEO 的赢点——相当于经典搜索里的第 1 名。
- Passage / chunk(段落 / 块) AEO
- retrieval 的基本单位。引擎把页面切成更小的段落,做 embedding,再拉出最相关的几个——所以被引用的是一个自足的 chunk,而不是整页。把每一节都写成能独立成立。
- Answer-first 答案先行(倒金字塔) AEO
- 用 1–2 句先给出直接答案,再展开细节。这让开头成为一个可引用、自足的 chunk,引擎能原样摘走。借自新闻业的倒金字塔写法。
质量与信任
- E-E-A-T BOTH
- Experience(经验)、Expertise(专业)、Authoritativeness(权威)、Trust(信任)——Google 用来判断“这内容可信吗?”的框架,供质量评估员使用。Trust 是中心,其余三者为它供能。它不是直接的排名因子,也不是一个分数——Google 用“一组混合因子”来近似它。对开发者:审查机器可检测的 proxy(author +
sameAs、日期、publisher、对外引用、about/contact)。 - YMYL — 钱财或生命 SEO
- 可能显著影响健康、财务稳定、安全或社会福祉的主题。E-E-A-T 的门槛要高得多——这里信任信号最关键,伪造它们很危险。
- sameAs BOTH
- schema.org 的一个属性,把一个实体(
Person作者、Organization)链接到它在别处的权威资料页(LinkedIn、Wikipedia、ORCID)。这是机器可读地声明作者是谁的方式——一个 Authoritativeness 信号。
面向开发者的产物
- Structured data(结构化数据) BOTH
- 嵌入页面的机器可读标记(通常是
schema.org的 JSON-LD),明确告诉引擎某个实体是什么。它驱动 rich result,并帮机器提取事实。 - JSON-LD BOTH
- Google 推荐的结构化数据格式:一个
<script type="application/ld+json">的 JSON 块,与可见 HTML 分离。每种类型都有 required(必填)属性(缺一个 → 没有 rich result)和 recommended(推荐)属性。 - Rich result(富结果) SEO
- 一种增强的 SERP 条目——星级评分、价格、FAQ 折叠——靠有效的 structured data 赢得。它占更多空间,比普通蓝色链接吸引更多点击。
- robots.txt BOTH
- 位于站点根目录的文件,告诉 crawler 哪些路径可以、哪些不可以抓取。是 crawler 读的第一样东西。
- sitemap.xml BOTH
- 一份机器可读的 URL 清单(含元数据),帮 crawler 高效发现页面。它是被动的:引擎按自己的节奏来拉取。规范限制:每个文件 ≤50,000 个 URL 且 ≤50 MB;
<loc>必填,<lastmod>可选(W3C 日期);所有 URL 同一 host。超过 5 万个 URL,就用 sitemap index(sitemap 的 sitemap)。 - IndexNow BOTH
- 一个开放协议,用来把改动过的 URL 主动推送给引擎:
POST {host, key, keyLocation, urlList}(每次 ≤10,000 个 URL),且这次 ping 会在所有参与方之间共享。Bing、Yandex、Naver、Seznam 支持——Google 不支持,它坚持用 sitemap + 自己的抓取调度。key(8–128 字符)放在根目录的一个文件里,用来证明 host 所有权。 - noindex SEO
- 一个指令,告诉引擎把某页面从 index 里剔除。写在
<meta name="robots">或X-Robots-Tag响应头里。只有当页面可被 crawl 时才生效——被 robots 屏蔽的页面,它的 noindex 永远读不到。 - X-Robots-Tag SEO
- 一个携带索引指令(如
noindex)的 HTTP 响应头——robots meta 标签的响应头版本。对非 HTML 文件(PDF、图片)很有用。 - Canonical(规范链接) BOTH
- 通过
<link rel="canonical">:当多个 URL 展示几乎相同的内容时,声明哪个才是“真身”,让引擎把信号归并到一个上。 - Search Console(API) SEO
- Google 给你站点的第一方数据源:曝光、点击、平均排名,以及让你出现的那些 query——全部来自 Google 自己的日志。
searchanalytics.query端点让它可被轮询。Web这个搜索类型现在已包含 AI 功能带来的流量。 - Share of voice(声量占比) AEO
- 在一组 prompt 里,你占全部 citation 的比例:你的 citation ÷ 所有人的 citation。AEO 的头号指标——但它是个 proxy,因为 prompt 集是抽样的,不是引擎的真实流量。要和 coverage(有多少比例的 prompt 至少引用了你一次)一起看。