面向机器学习的自然语言标注txt,chm,pdf,epub,mobi下载 作者:[美] 普斯特若夫斯基(James Pustejovsky),/[美] 斯塔布斯(Amber Stubbs) 出版社: 机械工业出版社 副标题: 创建你自己的面向机器学习的自然语言训练语料库 译者:邱立坤/金澎/王萌 出版年: 2017-2-1 页数: 293 定价: 79 装帧: 平装 ISBN: 9787111555155 内容简介 · · · · · ·自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对新研究进展的综述,同时还结合了作者(JamesPustejovsky,生成词库理论的创始人)多年的研究成果。本书内容全面、详略得当,结合实例讲解,使读者更易理解。 作者简介 · · · · · ·James Pustejovsky教授是美国布兰代斯(Brandeis University)大学计算机科学系和Volen国家综合系统中心教授。先后在美国麻省理工学院和马萨诸塞大学获得学士学位和博士学位。Pustejovsky教授主要从事自然语言的理论和计算研究。研究领域包括:计算语言学、词汇语义学、知识表征、话语语义学、时间推理和抽取等。已经出版多部专著。 目录 · · · · · ·前言1第1章基础知识7 1.1语言标注的重要性7 1.1.1语言学描述的层次8 1.1.2什么是自然语言处理9 1.2语料库语言学简史10 · · · · · ·() 前言1 第1章基础知识7 1.1语言标注的重要性7 1.1.1语言学描述的层次8 1.1.2什么是自然语言处理9 1.2语料库语言学简史10 1.2.1什么是语料库13 1.2.2语料库的早期应用15 1.2.3当今的语料库17 1.2.4标注类型18 1.3语言数据和机器学习24 1.3.1分类25 1.3.2聚类25 1.3.3结构化模式归纳26 1.4标注开发循环26 1.4.1现象建模27 1.4.2按照规格说明进行标注30 1.4.3在语料库上训练和测试算法31 1.4.4对结果进行评价32 1.4.5修改模型和算法33 总结34 第2章确定目标与选择数据36 2.1定义目标36 2.1.1目标陈述37 2.1.2提炼目标:信息量与正确性38 2.2背景研究43 2.2.1语言资源44 2.2.2机构与会议44 2.2.3自然语言处理竞赛45 2.3整合数据集46 2.3.1理想的语料库:代表性与平衡性47 2.3.2从因特网上收集数据47 2.3.3从人群中获取数据48 2.4语料库的规模49 2.4.1现有语料库50 2.4.2语料库内部的分布51 总结53 第3章语料库分析54 3.1语料库分析中的基本概率知识55 3.1.1联合概率分布56 3.1.2贝叶斯定理58 3.2计算出现次数58 3.2.1齐普夫定律(Zip'sLaw)61 3.2.2n元语法62 3.3语言模型63 总结65 第4章建立模型与规格说明66 4.1模型和规格说明示例66 4.1.1电影题材分类69 4.1.2添加命名实体70 4.1.3语义角色71 4.2采用(或不采用)现有模型73 4.2.1创建模型和规格说明:一般性与特殊性74 4.2.2使用现有模型和规格说明76 4.2.3使用没有规格说明的模型78 4.3各种标准78 4.3.1ISO标准78 4.3.2社区驱动型标准81 4.3.3影响标注的其他标准81 总结82 第5章选择并应用标注标准84 5.1元数据标注:文档分类85 5.1.1单标签标注:电影评论85 5.1.2多标签标注:电影题材87 5.2文本范围标注:命名实体90 5.2.1内嵌式标注90 5.2.2基于词例的分离式标注92 5.2.3基于字符位置的分离式标注95 5.3链接范围标注:语义角色96 5.4ISO标准和你97 总结97 第6章标注与审核99 6.1标注项目的基本结构99 6.2标注规格说明与标注指南101 6.3准备修改102 6.4准备用于标注的数据103 6.4.1元数据103 6.4.2数据预处理104 6.4.3为标注工作分割文件104 6.5撰写标注指南105 6.5.1例1:单标签标注——电影评论106 6.5.2例2:多标签标注——电影题材108 6.5.3例3:范围标注——命名实体111 6.5.4例4:链接范围标注——语义角色112 6.6标注人员114 6.7选择标注环境116 6.8评价标注结果117 6.8.1Cohen的Kappa(κ)算法118 6.8.2Fleiss的Kappa(κ)算法119 6.8.3解释Kappa系数122 6.8.4在其他上下文中计算κ值123 6.9创建黄金标准(审核)125 总结126 第7章训练:机器学习129 7.1何谓学习130 7.2定义学习任务132 7.3分类算法133 7.3.1决策树学习135 7.3.2朴素贝叶斯学习140 7.3.3最大熵分类器145 7.3.4其他需要了解的分类器147 7.4序列归纳算法148 7.5聚类和无监督学习150 7.6半监督学习150 7.7匹配标注与算法153 总结154 第8章测试与评价156 8.1测试算法157 8.2评价算法157 8.2.1混淆矩阵157 8.2.2计算评价得分159 8.2.3解释评价得分163 8.3可能影响算法评价的问题164 8.3.1数据集太小164 8.3.2算法过于适合开发数据166 8.3.3标注中的信息过多166 8.4最后测试得分167 总结167 …… 第9章修改与报告169 第10章标注:TimeML179 第11章自动标注:生成TimeML199 第12章后记:标注的未来发展趋势217 附录A可利用的语料库与标注规格说明列表227 附录B软件资源列表249 附录CMAE用户指南269 附录DMAI用户指南276 附录E参考文献282 · · · · · · () |
受益匪浅!
还没看
都值得一看。
后来理论的东西很多