多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《Java中文文本信息处理(从海量到精准)》_1
《Java中文文本信息处理(从海量到精准)》_2
《Java中文文本信息处理(从海量到精准)》_3
内容简介:
Java中文文本信息处理——从海量到精准
罗刚张子宪崔智杰编著
清华大学出版社
内容简介
本书以让零基础的读者通过自学完成一个中文分词系统为目标,从Java基础语法开始讲解,然后介绍
文本处理相关的数据结构和算法,最后介绍如何实现文本切分和词性标注
本书是介绍业界热门的以Java开发中文分词技术的唯一书籍。本书选取相关领域的经典内容,深入理
解和挖掘,也综合了实践性强的创新想法,适合对软件开发感兴趣的青少年或者大学生阅读和学习
版权所有,侵权必究。侵权举报电话:0106278298913701121933
图书在版编目(CP)数据
Java中文文本信息处理—从海量到精准/罗刚,张子宪,崔智杰编著.一北京:清华大学出版社,2017
SBN978-7-30246936-0
1.①J…Ⅱ.①罗…②张…③崔…Ⅲ.①JAVA语言一程序设计Ⅳ.①TP3128
中guo版本图书馆CIP数据核字(2017第073994号
责任编辑:杨作梅宋延清
装帧设计:杨玉兰
责任校对:张瑜
责任印制:Li红英
出版发行:清华大学出版社
网址:htp/www,tup.com.cn,htp/www.abook.com
地址:北京清华大学学研大厦A座
邮编:100084
社总机:01062770175
邦购:010-62786544
投稿与读者服务:01062776969,C-service@tup.tsinghua.edu.cn
质量反馈:010-62772015, zhiliang(a tup tsinghua. edu. cn
印装者:清华大学印刷
经销:全guo新华书店
开本:185mm×260mm
版次:2017年5月第1版
印次:2017年5月第1次印刷
定价:56.00
品编号:
07306801
前言
“前门到了,请在后门下车。”把“前门”标注成地名就容易理解这句话了。从种地
到买菜、买房、养生保健以及投资理财等,都可以用到中文分词等文本信息挖掘技术
各行业都在构建越来越复杂的软件系统,很多系统都会用到文本处理技术。但是即使
在计算机专业,也有很多人对文本信息处理相关技术不太了解。其实,学习相关技术的门
槛并不高。而本书就是为了普及相关开发而做的一次新的尝试,其中也结合了作者自己的
研究成果,希望为推动相关应用的发展做出贡献
本书借助计算机语言Java实现中文文本信息处理,试图通过恰当的数据结构和算法来
应对一些常见的文本处理任务。相关代码可以从清华大学出版社的网站下载
本书的第1章到第3章介绍了相关的Java开发基础。第4章介绍处理文本所用到的有
限状态机基本概念和具体实现。第5章介绍相关的基础数据结构。第6章到第9章介绍中
文分词原理与实现
书中的很多内容来源于作者的开发和教学实践。作者的实践经验还体现在相关的其他
书中,如《自己动手写搜索引擎》、《自然语言处理原理与技术实现》、《自己动手写网
络爬虫》、《使用C#开发搜索引擎》、《解密搜索引擎技术实战》等。相对于作者编写的
其他书籍,本书更加注意零基础入门
学习是个循序渐进的过程。可以在读者群中共同学习。群体往往比单个人有更多的智
慧产出。为了构建出更好的技术群体,请加读者.Q.Q.群.(453406621)交流。希望快速入门的
读者也可以参加相关培训。这本书最开始是为一位从苏州专门来北京现场学习的学员入门
中文分词而编写。感谢他为编写本书提供的帮助。
也希望通过本书能结识更多的同行。有您真诚的建议,我们会发展得更好。例如,通
过与同行的交流,让我们的数量、ri期等量化信息的提取工具更加成熟。当前,语义分析
等文本处理技术仍然需要更深入的发展,来更好地支持各行业的智能软件开发
本书由罗刚、张子宪、崔智杰编著,参与本书编写的还有石天盈、张继红、童晓军
在此一并表示感谢。感谢开源软件和我们的家人、关心我们的老师和朋友、创业伙伴,以
及选择猎兔自然语言处理软件的客户多年来的支持
目录
第1章Java软件开发
2计算平均值举例
2.53前趋节点数组
1.1.1好身体是一切成功的保证…3
2.54快速复制
1.12路线图
2.5.5循环不变式
2.6字符串
1. 1. 3 Java
12软件工具
2.6.1字符编码
619023
12.1搜索引擎
62格式化
12.2 Windows命令行
2.6.3增强 switch语句
12.3机器翻译
2.7数值类型
71类型转换
125源代码比较工具…
2.72整数运算
1.3Java基础
2.73数值运算
3.1准备开发环境
2.7.4位运算
489019
1.3.2 Eclipse
2.8安装 Java
2.8.1服.务.器端安装
2.8.2自动安装Java
第2章结构化程序设计
29提高代码质量,
2.1基本数据类型
9.1代码整洁
2.2变量
9,2单元测试
22.1表达式执行顺序
29.3调试
222简化的运算符
94重构
222334
223常量
2.3控制结构
23.1语句
23.2判断条件
345557
2.10本章小结
第3章面向对象编程…
3.1类和对象
23.3三元运算符
3.1.1类
34条件判断
3.1.2类方法
23.5循环
3.1.3类变量
24方法
实例变量
3.1.5构造方法
24.1main方法
24.2递归调用
6对象
31.7实例方法
243方法调用栈
7889924788
2.5数组
18调用方法
2.5.1数组求和
3.1.9内部类
3.1.10克隆
Java中文文本信息处理—从海量到精准
3.1.11结束
3.116关于对象不可改
3.2继承
3.12ri期
3.2.1重写
3.22继承构造方法
3.14给方法传参数
3.23接口
.14.1基本类型和对象
3.24匿名类
3.14.2重载
3.2.5类的兼容性
3.15文件操作
33封装
3.15.1文本文件
34重载
3.152二进制文件
353文件位置
3.5.1静态变量
3.154读写 Unicode编码的文件153
52静态类
3.155文件描述符
3.53修饰类的关键词
3.15.6对象序列化
6枚举类型
3.15.7使用 lOUtils
3.7集合类
3.16Java类库
3.7.1动态数组
05
3.16.1使用Java类库
3.7.2散列表
3.162构建JAR包
3.7.3泛型
3.163使用安t
74 GuGe Guava集合
3.164生成 JavaD
3.7.5类型擦除
3.16.5 Class loader…
3.16.6反射
3.17编程风格
3.78 lambda表达式
3.8比较
3.17.1命名规范
3.8.1 Comparable接口
3.172流畅接口…
3.8.2比较器
3.17.3ri志
3.9SOLD原则
3.18DEA.
3.10异常
3.9实例
3.10.1断言
3.20本章小结
b888
3.10.2Java中的异常
124第4章
文本
3.10.3从方法中抛出异常
3.104处理异常
4.1字符串操作
3.10.5正确使用异常
4.2有限状态机
3.11字符串对象
42.1从NFA到DF
3.11.1字符对象
3.112查找字符串
4.2.3DFA交集
3.113修改字符串
424DFA井集
3.14格式化
4.2.5有限状态转换
3.11.5常量池
4.3本章小结
#############################################
|
|