自写的OCR升级到1.1.0版本,大家还想加什么功能?

2026-05-25点滴生活31

本文转载于9090社区,帖子链接:https://qq9090.top/thread-604419-1-1.html

作者: hkgmy    时间: 2026-5-22 13:18
image.jpg (121.16 KB, 下载次数: 0)下载附件2026-5-22 13:16 上传

目前的改进是:

1、加入表格识别功能,包括本地引擎也可以识别表格
2、加入多种识别场景(需要选择),可以识别门头、票据、证件等
3、只能开启1个实例



大家还想加什么功能?
作者: fachman    时间: 2026-5-22 14:12
请问哪里下载?
作者: cdfhv    时间: 2026-5-22 14:31
识别率怎么样?现在AI识别表格错误还是比较多
作者: 大蓝京人    时间: 2026-5-22 15:14
表格这个很好,我来下1.0体验一下

作者: AaronNJ    时间: 2026-5-22 15:14
牛逼
作者: 大蓝京人    时间: 2026-5-22 15:16
弄个悬浮按钮,快捷键记不住
作者: arqi    时间: 2026-5-22 15:17
膜拜
作者: hkgmy    时间: 2026-5-22 15:18
大蓝京人 发表于 2026-5-22 15:16
弄个悬浮按钮,快捷键记不住
悬浮钮,记下了

image.jpg (3.74 KB, 下载次数: 0)下载附件2026-5-22 15:17 上传
任务栏右键,可以截图,是不是能替代?

另外,快捷键可以自定义
作者: bluepolar    时间: 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降

表格识别能解决的话,还有一个需求:按版式识别。这个太复杂,不知道能不能做出来,可以先从简单的版面开始
以前有程序可以自己定义要识别的区域
这样用户后续编辑的时候方便些

作者: bluelectron    时间: 2026-5-22 15:31
厉害,能识别表格很好


作者: hkgmy    时间: 2026-5-22 15:32
bluepolar 发表于 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降
按版式识别。能具体讲讲吗?效果是什么样的 ?
是非矩形区域?
作者: 大蓝京人    时间: 2026-5-22 15:39
bluepolar 发表于 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降
这样的?
image.jpg (66.03 KB, 下载次数: 0)下载附件2026-5-22 15:39 上传
作者: hkgmy    时间: 2026-5-22 15:43
大蓝京人 发表于 2026-5-22 15:39
这样的?
1、标点符号统一成一种,这个可以做到
2、如果是格式换行,这个现在已经有了
3、我还在想,要不要加入格式整理,只能分段落功能,这样书籍扫描的时候,不会出现一大堆的断行
作者: bluepolar    时间: 2026-5-22 15:44
hkgmy 发表于 2026-5-22 15:32
按版式识别。能具体讲讲吗?效果是什么样的 ?
是非矩形区域?
比如说PPT那种有多个区域内容的,很容易被当成按行识别,用户重新排版时的主要麻烦是要从识别结果的不同行把需要的内容复制出来
如果能识别出不同区域(比如:空间距离、字体字号颜色等等有变化),识别结果也用word等按版面排布,那就更省事了
区域可以是规则或不规则,用户可以用鼠标划出区域边界
作者: bluepolar    时间: 2026-5-22 15:46
本帖最后由 bluepolar 于 2026-5-22 15:48 编辑
大蓝京人 发表于 2026-5-22 15:39
这样的?

要实现估计还是有一定难度的,可以由用户来划分区域,一个区域一个区域的识别
现在用在线识别,经常是要把图片自己分成几个部分传上去识别
作者: java    时间: 2026-5-22 15:48
自动识别屏幕上考题 然后送给AI问答
作者: hkgmy    时间: 2026-5-22 15:53
bluepolar 发表于 2026-5-22 15:44
比如说PPT那种有多个区域内容的,很容易被当成按行识别,用户重新排版时的主要麻烦是要从识别结果的不同 ...
大概明白了
按块识别,不同的块不能识别到一行
类似的情况,还有竖排版、左向右排版

容我想想,怎么实现
作者: hkgmy    时间: 2026-5-22 15:57
java 发表于 2026-5-22 15:48
自动识别屏幕上考题 然后送给AI问答
什么情况才会用到这个需求这要实时扫描屏幕
作者: 大母鸡    时间: 2026-5-22 16:01
我以前用的是大漠插件
作者: njxurong    时间: 2026-5-22 16:42
windows用,还是手机app。我下载了,exe点击打不开呀

作者: hkgmy    时间: 2026-5-22 16:50
njxurong 发表于 2026-5-22 16:42
windows用,还是手机app。我下载了,exe点击打不开呀

windows的

无感启动,可能直接隐藏在任务栏里面了,蓝色图标,文字是OC
image.jpg (7.08 KB, 下载次数: 0)下载附件2026-5-22 16:50 上传
作者: lalpha2000    时间: 2026-5-22 16:52
没调用ai模型吧?
作者: laogeda    时间: 2026-5-22 16:52
大母鸡 发表于 2026-5-22 16:01
我以前用的是大漠插件
shareX

作者: pub    时间: 2026-5-22 17:12
设置识别范围,黑白名单,比如数字表格,只允许在数字,半角标点范围,避免 0o  .。 1l   2z

本文转载于9090社区,帖子链接:https://qq9090.top/thread-604419-1-1.html

“自写的OCR升级到1.1.0版本,大家还想加什么功能?” 的相关文章

今年真是大暖冬

作者: 千江雪    时间: 3 天前这几天晚上睡觉都没开空调昨晚竟然还出了点汗…作者: stiffen    时间: 3 天前昨天穿了条厚裤子,下班走在路上,背心出汗作者: Stamp    时间:...

小红书上外国难民潮来势汹汹

作者: 半支烟2003    时间: 前天 18:33不得了,快一半了Screenshot_20250115_183055_com.xingin.xhs.jpg(944.87 KB, 下载次数: 0)...

支付宝P0级事故“不会向用户追款”,支付宝大气

作者: Allen    时间: 前天 09:36支付宝.jpg (101.93 KB, 下载次数: 0)下载附件前天 09:36 上传作者: 1069    时间: 前天 10:35缺少马云的支付宝...

西来顺,东边的牛肉面还不错

作者: pub    时间: 前天 11:58口味不错,红烧牛肉面好吃。5元点个拼盘凉菜也不错。作者: 泡泡虾    时间: 前天 16:31还行...

有没老男人喜欢拎帆布手拎包

作者: Djtomas    时间: 3 天前好多什么活动会发个帆布袋给你装资料,我最近特别喜欢拎这个,把随身的杂物全扔进去,可以拎,可以挎在肩上,放个平板,再放钥匙扣,水杯,茶叶罐,香烟打火机,口罩...