自然语言处理通用框架BERT原理解读
Multi-head的作用