定义
BERT(Bidirectional Encoder Representations from Transformers)是Google于2019年10月发布的自然语言处理模型,是Google搜索史上最大的技术革新之一。BERT能够理解搜索查询和网页内容中单词之间的上下文关系,特别是介词(如”for”和”no”)对含义的重要影响。在此之前,Google的算法是单向理解语义,BERT的双向理解使搜索准确性提升了约10%。Google官方在2019年10月首先将BERT应用到英语搜索,随后在70多种语言中部署了该模型,使全球搜索用户体验得到显著提升。
背景
BERT的诞生源于Google对语义理解的长期追求。2017年Transformer架构论文发表后,Google开始探索在搜索中应用Transformer技术。传统NLP模型使用从左到右或从右到左的单向学习,这限制了模型理解上下文的能力,而真实语言中单词的含义往往取决于前后两个方向的语境。Google的搜索质量评估显示,约15%的搜索查询存在理解偏差,这些查询的特征是包含”不””对””为”等介词,仅改变了一个词但完全改变了查询意图。BERT正是为解决这一痛点而设计的。
原理
BERT的核心技术是双向Transformer编码器。
首先,与之前的模型不同,BERT同时考虑单词左侧和右侧的上下文,这使其能够理解”no”在”not good for you”和”no parking in this area”中的不同含义。
其次,BERT使用预训练+微调的策略:在大量通用文本上预训练模型,然后在特定任务(如搜索排序)上进行微调。
第三,BERT能理解搜索查询中每个词与整体意图的关系,这是理解复杂查询的关键。
技术细节上,BERT使用12-24层Transformer编码器,在TPU上运行,推理时间约30ms每次查询。
应用
BERT在搜索中的应用主要体现在三个方面。
第一,它改善了介词理解。这是BERT最直接的影响,如”Can you get money from a bank for a bank”这类有歧义的查询,BERT能通过双向理解准确把握用户实际想问的是什么。
第二,它改进了长尾查询理解。长尾查询往往语法复杂,BERT在处理这类查询时表现显著优于之前的模型。
第三,它支持更自然的对话搜索。BERT使Google能更好地理解用日常口语提问的用户。
案例
案例一:医疗查询优化。某医疗网站优化团队分析BERT上线后的搜索报告后发现,”doctors near me who specialize in back pain”这类复杂查询的排名下降了。原来网站页面是按”科室-疾病”组织,而非按用户问题组织。通过重新组织页面为问答形式,包含”看背痛应该找哪个专科医生”等问答页面,12个月后这些查询的排名显著恢复。
案例二:电商长尾词优化。某电商网站发现BERT上线后,某些产品长尾词的排名有波动。分析后发现,用户使用自然语言提问的方式与产品描述不完全匹配。网站通过在产品描述中添加FAQ部分,使用用户实际提问方式组织问题,有效恢复了这些关键词的排名。
误区
SEO从业者对BERT存在三大典型误区。
第一,认为BERT之后关键词不再重要,BERT仍然需要关键词来确定主题,只是更注重关键词在上下文中的含义。
第二,认为内容要按特殊方式写作,BERT的目标是理解自然语言,正常的人类语言写作风格就是BERT友好的风格。
第三,认为BERT只影响英语搜索,BERT已在70多种语言中部署,非英语搜索同样受影响。
互���在线CTO点评
BERT代表了Google搜索语义理解的重大进步。从SEO角度,这意味着我们需要:首先,更加自然地写作和使用语言,而不是堆砌关键词;其次,关注搜索查询的语义而非单纯的关键词匹配;最后,在内容中预判用户可能的多种表达方式,并在内容中覆盖这些表达。
