Welcome to OGeek Q&A Community for programmer and developer-Open, Learning and Share
Welcome To Ask or Share your Answers For Others

Categories

0 votes
378 views
in Technique[技术] by (71.8m points)

中文关键词如何与pdf文本进行模糊匹配?

我现在有一个excel表里面包含了需要匹配的关键词,如下
image
现在我拥有若干pdf文档,想实现寻找pdf中是否包含该关键词并计数,实现结果如下:
image
现在面临的问题是,因为这是精确匹配,导致很多关键词实际在pdf文档中出现但并不会被记录。比如关键词【债券负责人联系电话】,在pdf中可能会是【联系电话】作为【债券负责人】的子类,或者会出现【债券负责人和联系电话】。在类似情况中,匹配无法进行。想请问各位大神,在匹配过程中有办法进行一定程度的模糊匹配吗?十分感谢。


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
Welcome To Ask or Share your Answers For Others

1 Reply

0 votes
by (71.8m points)

只从文本操作这不太懂,如果可以的话建议使用搜索引擎,比如elasticsearch,将pdf内容录入到elasticsearch,然后检索关键词,这个方案应该可行,但有点学习成本。


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
OGeek|极客中国-欢迎来到极客的世界,一个免费开放的程序员编程交流平台!开放,进步,分享!让技术改变生活,让极客改变未来! Welcome to OGeek Q&A Community for programmer and developer-Open, Learning and Share
Click Here to Ask a Question

...