NLP概览 什么是NLP 自然语言处理,是探讨如何处理及运用自然语言 自然语言认知,是让电脑明白人类的语言 自然语言处理主要包括:文本分析,信息检索,词性标注,问答系统QA NLP技术 词法分析 - 分词技术 - 词性标注part-of-speech tagging - 命名实体识别NER(识别出3大类和7小类主要用于信息提取,QA,句法分析,机翻元数据标注) 实体边界识别 基于规则和词典进行识别(字典大小,新词?) 基于统计的方法 >隐马尔科夫模型HMM >较大熵ME >支持向量机SVM >条件随机场CRF 确定实体类别(英文,中文需要先分词) - …
word2vec !(http://www.cnblogs.com/neopenx/p/4571996.html)( 是个巨佬) !(https://blog.csdn.net/itplus/article/details/37969817 ) 概率语言模型 概率语言模型 预测字符串概率,考虑动机,考虑计算方式 Unigram models(一元文法统计模型) N-gram 语言模型(N元模型 N元模型 $P( w1,w2,…,w_m) = i…m() P(w_i|w1,…,w_(i-1)) = i…m() P(w_i|w_(i-n+1),…,w_(i-1))$ …
语料处理流程 语料收集 > 语料清洗 > 句子向量编码化 > 语料问答对构建 > 语料的模型保存 > 结束 语料收集 聊天记录 电影对话 台词片断 语料清洗 要清洗的内容 多余的空格 不正规的符号 多余的字符,英文 清洗的方法 正则化 切分 好坏语句判断 语料问答对的构建 问答对的处理和拆分 句子向量的编码化 原始文本不能直接训练 将句子转化为向量 将向量转换为句子 语料模型的保存 使用pickle来保存模型 生成pkl格式 利用pkl格式进行语料的训练 最后通过深度模型过后打包成restful 实操 收集语料: 收集了200M的电影台词作为语料 M 你/没/事/吧/?/ M 是/的/,/我/没/事/ …