首页 > 解决方案 > 读取文件、分离和 Tesseract.js 性能

问题描述

我正在尝试读取一个文件,其内容是一堆多项选择题,如下所示:

学校名称 考试名称 sto-vit 时间 ;2 小时 最高分数 50 LF 填空 分数 -15 1 =0 2 (D157 39k IL 真或假 分数 -5 1. 整数在减法下闭合 2. 两个负整数的差不能是正整数 IIL. 使用分布属性评估:- Marks - 10 1. -39x99 2. 8543+ 43x-15 3.53%9--109x53 4. 6817+ 683 IV. 解决问题:- Marks - 10 1 . 一辆汽车用 2.4 升汽油行驶 43.2 公里。用 1 升汽油可以行驶多远? V. 评估:- 标记 - 10 11005105 2. 10101 %001

我通过在 Tesseract.js 的帮助下阅读图像(试卷)得到了这个。

  1. 首先,省略了包括小数点在内的一些数学数字。我可以提高性能吗?
  2. 有没有办法单独识别问题及其选项,以便可以将其存储在数据库中供人们回答?

对象可以是这种格式:

{
  [
    q: 'Which website is this?',
    options: ['Github', 'Stackoverflow', 'Google']
  ], 
  [
   ...
  ]
}

标签: javascriptocrtesseractfs

解决方案


推荐阅读