怎么做公司免费网站网站tdk优化文档

张小明 2026/1/10 8:35:18
怎么做公司免费网站,网站tdk优化文档,文化建设宣传标语,网页设计与制作哪家公司好起文件内容搜索工具#xff0c;那么不得不提到“AnyTxt”#xff0c;号称本地知识库检索的终极答案。唯一的不足可能就是索引更新机制#xff0c;不能实时监视文件更改从而更新索引#xff0c;最小定期更新间隔为半小时#xff0c;容易导致cpu占用率高#xff0c;毕竟是全…起文件内容搜索工具那么不得不提到“AnyTxt”号称本地知识库检索的终极答案。唯一的不足可能就是索引更新机制不能实时监视文件更改从而更新索引最小定期更新间隔为半小时容易导致cpu占用率高毕竟是全盘全文件类型索引。很多时候,其实我们对文件内容的搜索是一个简单文档管理需求我们期望能的是快速定位文件而不仅仅是信息。这时候对文件夹以及文件类型的限制就很重要了。还有就是有可能我们会对比如CAD图纸(.dwg、.dxf)的图签或者文件数据库(.db)的表名等特殊文件格式的自定义内容感兴趣。这时候就需要自己来实现扩展了。再加上很多时候磁盘的信息都是敏感数据一定要保证软件程序的安全。因此我们决定用C#开发一款开源的Windows平台全文搜索工具-TDSContent并将整个开发过程中的思路与遇到的“坑”记录下来。最终代码与实现已完全开源。https://github.com/LdotJdot/TDSContentTDSContent_Intro我们接下来将对标AnyTxt的核心功能来TDSContent的技术实现。二、从对标AnyTxt特性来设计TDSContent技术实现在网上搜集了AnyTxt的特性与技术优势后对应地对TDSContent在各个环节的实现进行了分析。具体如下image2.1 对标AnyTxt速度: 1 秒内出结果自建索引检索延迟 100 ms文件全文关键词检索的方式大致分两种直接检索先枚举出候选文件在文件中查询出结果返回对应文件信息。索引检索在索引中匹配关键词生成索引匹配结果返回索引匹配结果对应的文件信息。直接检索适合于纯文本类的高效搜索此时信息的读取成本低即从文件中读取文本与转化速度都快。比较有代表性的就是ripgrep这类工具直接开多个线程快速扫描所有索引检索适合信息量较大、信息的读取成本较高的场景例如文件读取速度较慢或读取后存在较耗时文本解析过程。此时就需要提取解析文件将文本索引存储好提高后续搜索速度。比较有代表性的就是ElasticSearch这类工具。为了更好支持更多类型文件内容搜索TDSContent选择的是索引检索这种模式采用了与ElasticSearch同样的Lucene的.net移植版本Lucene.net作为索引架构。该架构提供了完整的查询引擎和索引引擎内部通过倒排索引查询速度响应非常快。对于每个目标文件夹我们都将单独进行索引创建维护这样在近实时的更新写入与读取时都有非常好的性能。现使用是Lucene.Net.Analysis.SmartCn4.8.0-beta00017要勾选预览版本才能在Nuget中搜得到自带了支持中文分词的Analyzer。2.2 对标AnyTxt格式100 文档类型包括 Office/WPS/PDF/EPUB/MOBI/CHM/HTML/TXT/代码/思维导图等文件内容的检索主要对象就是文本。对文档格式的支持无非就是将文件转换为我们感兴趣的文本信息部分。对于纯文本文件可以直接读取即可如果是其他类型则需要进行解析转换。TDSContent默认内置的转换器用开源库实现了几种常用格式的解析PDF: 选择PDFiumCoreApache-2.0 license它是对PDFiumBSD-3-Clause license的封装可从Nuget直接拉取提供了.NET的接口可以直接提取出可读的string文本无需额外转换。其他试过的还有貌似效果更好的iTextSharp但他的协议AGPL v3怕有风险。docx,pptx: 用Open-XML-SDK(MIT)Nuget直接拉取简单易用。dwg: 用ACadSharp(MIT)。现在dwg的解析库已经相对成熟了遥想几年前dwg的解析还是个难题还得用Teigha转dxf后再处理。dxf: 用netDxf(MIT)可从Nuget直接拉取。ACadSharp也能解析dxf但实测下来部分dxf会报错而netDxf兼容性更好。docppt 20251018新增用mit开源库实现二进制文件的文本读取https://github.com/mayswind/SimpleOfficeReader纯文本: 直接用C#代码读取包括txt,md,json,log,ini等。大家可以通过实现项目中的IFileToStringConverter接口实现自己的格式解析器。public interface IFileToStringConverter : IDisposable{string Extension { get; }string Convert(string filepath);}2.3 对标AnyTxtOCR图片 扫描件可搜支持 JPG/PNG/扫描 PDF内嵌 CPU/GPU 双引擎TDSContent中对于图片OCR解析转换暂无相关计划有需要的话可以自己实现。可以考虑使用Tesseract实现本地图片的解析。2.4 对标AnyTxt搜索语法支持精准 / 模糊 / 正则AND/OR/NOT、通配符、二次结果内筛选由于基于的是Lucene索引框架因此TDSContent能支持Lucene的所有查询方式主要包括查询方式 意义TermQuery 精确查询TermRangeQuery 查询一个范围PrefixQuery 前缀匹配查询WildcardQuery 通配符查询BooleanQuery 多条件查询PhraseQuery 短语查询FuzzyQuery 模糊查询TDSContent默认的是采用”短语查询“其他查询方式未UI中还未开放但内部基本已实现。2.5 对标AnyTxt预览右侧浮窗高亮关键词无需打开源文件即可复制文本、翻译、跳转目录尽管我们在Lucene引擎中对每个文件的文本内容是通过索引的方式执行了全文存入的。但是我们没有做预览窗口。为了简洁仅在目标结果文件下方做了最多5行的高亮匹配文本展示。results其他如翻译功能也没实现。2.6 对标AnyTxt索引策略实时监控 SSD 优化自动增量更新AES-256 加密缓存支持网络共享盘TDSContent没有实时监控线程。因此文件的更新是通过索引项目的USN日志实现。基于USN的好处是哪怕用户在程序关闭状态下执行内容修改、重命名、文件夹修改、路径移动等操作当下一次程序启动时会依照记录自动实现对应索引结构更新。这样会非常经济且高效不会有严重的卡顿以及频繁扫盘等问题尤其不影响笔记本续航缺点就是必须依赖USN。2.7 对标AnyTxt扩展性本项目为开源免费软件可任意扩展。三、其他
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

中电科工程建设有限公司网站wordpress图片表单插件

EmotiVoice语音合成在公益广告中的情感动员效果研究 在一场关于留守儿童的公益短片中,画外音缓缓响起:“去年春节,小芳给妈妈打了十七个电话,一个都没接通。”声音低沉而温柔,带着一丝颤抖——不是演员刻意表演的结果&…

张小明 2025/12/28 3:01:38 网站建设

如何进网站深圳 网站建设培训班

5大核心方法深度解析:YOLO系列模型标注格式转换完全指南 【免费下载链接】ultralytics ultralytics - 提供 YOLOv8 模型,用于目标检测、图像分割、姿态估计和图像分类,适合机器学习和计算机视觉领域的开发者。 项目地址: https://gitcode.c…

张小明 2025/12/26 16:42:51 网站建设

深圳网页制作与网站建设地址开发平台教程

对创作者而言,寻找合适的剪辑素材往往是比剪辑本身更耗时的事。好的素材库应当是个透明的工具,不干扰创作,只在需要时提供恰到好处的支持。这四类风格迥异的平台,恰好覆盖了从灵感到成片的全过程。制片帮素材:面向商业…

张小明 2025/12/26 16:42:55 网站建设

网站设计心得体会wordpress 网站图标设置

FaceFusion能否处理黑白影像?彩色化换脸同步完成 在数字修复的前沿战场上,一张泛黄的老照片、一段模糊的黑白影像,不再只是尘封的记忆。如今,我们不仅能“唤醒”它们,还能让其中的人物以全新的身份重新“活”过来——比…

张小明 2025/12/26 0:45:13 网站建设

网站推广公司新锐仓库管理系统erp

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 编写一个性能测试脚本,比较json.load与手动实现的JSON解析函数在处理不同大小JSON文件时的效率差异。要求:1) 生成测试用的JSON文件(小/中/大) 2) 实现手动解…

张小明 2025/12/26 16:42:53 网站建设

潍坊建设局官方网站美观网站建设价格

一、Redis 概述1.1、什么是Redis?Redis(Remote Dictionary Server)是一个开源的内存键值存储数据库,支持多种数据结构,常被用作数据库、缓存和消息中间件。1.2、主要特性:内存存储:数据主要存储在内存中&a…

张小明 2025/12/30 16:18:02 网站建设