BERT原理解读(重录清晰版)
6-Multi-head的作用