NLP概览 什么是NLP 自然语言处理,是探讨如何处理及运用自然语言
自然语言认知,是让电脑明白人类的语言
自然语言处理主要包括:文本分析,信息检索,词性标注,问答系统QA
NLP技术 词法分析
- 分词技术 - 词性标注part-of-speech tagging - 命名实体识别NER(识别出3大类和7小类主要用于信息提取,QA,句法分析,机翻元数据标注) 实体边界识别 基于规则和词典进行识别(字典大小,新词?) 基于统计的方法 >隐马尔科夫模型HMM >较大熵ME >支持向量机SVM >条件随机场CRF 确定实体类别(英文,中文需要先分词) - …
word2vec !(http://www.cnblogs.com/neopenx/p/4571996.html)( 是个巨佬) !(https://blog.csdn.net/itplus/article/details/37969817 )
概率语言模型 概率语言模型 预测字符串概率,考虑动机,考虑计算方式
Unigram models(一元文法统计模型)
N-gram 语言模型(N元模型
N元模型 $P( w1,w2,…,w_m) = i…m() P(w_i|w1,…,w_(i-1)) = i…m() P(w_i|w_(i-n+1),…,w_(i-1))$
…
语料处理流程 语料收集 > 语料清洗 > 句子向量编码化 > 语料问答对构建 > 语料的模型保存 > 结束 语料收集 聊天记录
电影对话
台词片断
语料清洗 要清洗的内容
多余的空格
不正规的符号
多余的字符,英文
清洗的方法
正则化
切分
好坏语句判断
语料问答对的构建 问答对的处理和拆分 句子向量的编码化 原始文本不能直接训练
将句子转化为向量
将向量转换为句子
语料模型的保存 使用pickle来保存模型
生成pkl格式
利用pkl格式进行语料的训练
最后通过深度模型过后打包成restful
实操 收集语料: 收集了200M的电影台词作为语料
M 你/没/事/吧/?/ M 是/的/,/我/没/事/ …