Tóm tắt:
Trong bối cảnh của cuộc cách mạng số hóa toàn cầu, việc sử dụng phương pháp nhập liệu thủ công để số hóa bảng biểu trong báo cáo tài chính (BCTC) đã trở nên lỗi thời và không đáp ứng được nhu cầu về thời gian và chi phí trong thời đại hiện nay. Để khắc phục hạn chế này, nghiên cứu tập trung đề xuất một phương pháp tự động nhận diện bảng biểu trong các BCTC từ hình ảnh thông qua công cụ PaddleOCR. Nghiên cứu tận dụng những mô hình học sâu và công nghệ nhận diện ký tự quang học (OCR) của công cụ mã nguồn mở này để tiến hành các công đoạn phát hiện bảng, phát hiện và nhận diện văn bản, dự đoán cấu trúc bảng và tọa độ ô và cuối cùng là tái tạo lại bảng tương đồng dưới dạng file Excel, HTML. Nghiên cứu thực nghiệm và so sánh với các bảng thực tế, đạt được độ chính xác trung bình trong việc tái tạo cấu trúc bảng và nhận diện các cột nội dung quan trọng là 95% đối với dạng bảng có các đường viền đầy đủ và 83% đối với dạng bảng ít viền. Kết quả khả quan này khẳng định tính ứng dụng của công cụ cho giải pháp số hóa tài liệu chứa bảng biểu, giảm bớt thời lượng xử lí các công việc nhập liệu.
Tài liệu tham khảo:
- Anagnoste, S. (2017). Robotic Automation Process - The next major revolution in terms of back office operations improvement. Proceedings of the International Conference on Business Excellence, 11(1), 676-686. https://doi.org/10.1515/picbe-2017-0072.
- Chenxia Li, Weiwei Liu, Ruoyu Guo, Xiaoting Yin, Kaitao Jiang, Yongkun Du, Yuning Du, Lingfeng Zhu, Runjie Jin, Keying Liu, Yehua Yang, Ran Bi, Xiaoguang Hu, Dianhai Yu, & Yanjun Ma. (2022). Dive Into OCR.
- Chi, Z., Huang, H., Xu, H. D., Yu, H., Yin, W., & Mao, X. L. (2019). Complicated table structure recognition. arXiv preprint arXiv:1908.04729.
- Dieu, L. T., Nguyen, T. T., Vo, N. D., Nguyen, T. V., & Nguyen, K. (2021). Parsing Digitized Vietnamese Paper Documents (pp. 382-392). https://doi.org/10.1007/978-3-030-89128-2_37
- Du, Y., Li, C., Guo, R., Yin, X., Liu, W., Zhou, J., Bai, Y., Yu, Z., Yang, Y., Dang, Q., & Wang, H. (2020). PP-OCR: A Practical Ultra Lightweight OCR System.
- Kaya, C. T., Turkyilmaz, M., & Birol, B. (2019). Impact of RPA Technologies on Accounting Systems. Muhasebe ve Finansman Dergisi, 235-250. https://doi.org/10.25095/mufad.536083.
- Krishna Manipatruni, J., Gnana Sree, R., Padakanti, R., Naroju, S., Kumar Depuru, B., Associate, R., & Author, C. (2023). Leveraging Artificial Intelligence for Simplified Invoice Automation: Paddle OCR-based Text Extraction from Invoices. In International Journal of Innovative Science and Research Technology (Vol. 8, Issue 9). www.ijisrt.com
- Li, C., Guo, R., Zhou, J., An, M., Du, Y., Zhu, L., ... & Yu, D. (2022). Pp-structurev2: A stronger document analysis system. arXiv preprint arXiv:2210.05391.
- Liao, M., Wan, Z., Yao, C., Chen, K., & Bai, X. (2020). Real-time scene text detection with differentiable binarization. In Proceedings of the AAAI conference on artificial intelligence (Vol. 34, No. 07, pp. 11474-11481).
- Ling, X., Gao, M., & Wang, D. (2020). Intelligent document processing based on RPA and machine learning. 2020 Chinese Automation Congress (CAC), 1349-1353. https://doi.org/10.1109/CAC51589.2020.9326579.
- Ma, C., Lin, W., Sun, L., & Huo, Q. (2023). Robust Table Detection and Structure Recognition from Heterogeneous Document Images. Pattern Recognition, 133. https://doi.org/10.1016/j.patcog.2022.109006.
- Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, & Xiang Bai (2020). Real-time Scene Text Detection with Differentiable Binarization. AAAI Conference on Artificial Intelligence, 11474-11481.
- Packard, H. (n.d.). Github. Truy cập vào 6/3/2024 từ Github: https://github.com/tesseract-ocr/tesseract.
- Peyrard, C., Baccouche, M., Mamalet, F., & Garcia, C. (2015). ICDAR2015 competition on Text Image Super-Resolution. 2015 13th International Conference on Document Analysis and Recognition (ICDAR), 1201-1205. https://doi.org/10.1109/ICDAR.2015.7333951.
- Pham, B. Q. (n.d.). VietOCR. Truy cập vào 6/3/2024 từ Github: https://github.com/pbcquoc/vietocr.
- Schreiber, S., Agne, S., Wolf, I., Dengel, A., & Ahmed, S. (2017). DeepDeSRT: Deep Learning for Detection and Structure Recognition of Tables in Document Images. Proceedings of the International Conference on Document Analysis and Recognition, ICDAR, 1, 1162-1167. https://doi.org/10.1109/ICDAR.2017.192.
- Thủ tướng Chính phủ (2020). Quyết định số 749/QĐ-TTg của Thủ tướng Chính phủ: Phê duyệt "Chương trình Chuyển đổi số quốc gia đến năm 2025, định hướng đến năm 2030". Được truy lục từ chinhphu.vn: https://chinhphu.vn/default.aspx?pageid=27160&docid=200163 vào 3/2024.
- Viên Thanh Nhã, Tiếp Sỹ Minh Phụng, Nguyễn Hoàng Tú, Đỗ Thị Kim Dung, & Lê Đinh Phú Cường
- (2022). Xây dựng hệ thống trích xuất thông tin giấy tờ tuỳ thân từ hình ảnh cho hệ thống định danh khách hàng điện tử. Tạp chí Khoa học và công nghệ, 58(2), 54-57.
- Vo-Nguyen, T. A., Nguyen, P., & Le, H. S. (2021). An Efficient Method to Extract Data from Bank Statements Based on Image-Based Table Detection. Proceedings - 2021 15th International Conference on Advanced Computing and Applications, ACOMP 2021, 186-190. https://doi.org/10.1109/ACOMP53746.2021.00033.
- Vũ Trọng Sinh (2023). Ứng dụng công nghệ nhận dạng ký tự quang học cho số hóa tài liệu tại Học viện Ngân hàng. Tạp chí Khoa học và Đào tạo Ngân hàng, 252, 71-80. https://doi.org/10.59276/TCKHDT.2023.05.2533.
- Xu Zhong, E. S. (2020). Image-Based Table Recognition: Data, Model, and Evaluation. European Conference on Computer Vision.
- Yang, Z., Li, Z., Jiang, X., Gong, Y., Yuan, Z., Zhao, D., & Yuan, C. (2022). Focal and global knowledge distillation for detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4643-4652).
- Ye, J., Qi, X., He, Y., Chen, Y., Gu, D., Gao, P., & Xiao, R. (2021). PingAn-VCGroup's solution for ICDAR 2021 competition on scientific literature parsing task B: table recognition to HTML. arXiv preprint arXiv:2105.01848.
- Zhang, X., & Wen, Z. (2021). Thoughts on the development of artificial intelligence combined with RPA. Journal of Physics: Conference Series, 1883(1), 012151. https://doi.org/10.1088/1742-6596/1883/1/012151.
Abstract:
The digital revolution is fundamentally altering our interaction with data. Traditional methods like manual data entry for digitizing tables in financial statements are becoming obsolete, failing to meet the standards of cost efficiency and time effectiveness in reporting. To address this challenge, this paper proposes a method centered on leveraging PaddleOCR to automatically recognize tables within images extracted from financial reports. Our approach harnesses deep learning models and optical character recognition (OCR) technology embedded within this open-source tool. The process involves detecting tables, detecting and recognizing text, predicting table structures, and ultimately reconstructing them into HTML format and Excel files. Through experimentation and comparison with actual tables, our study achieves an average TEDS score of 95% for regular tables with full borders and 83% for borderless tables. These promising results underscore the tool's viability in digitizing documents containing tables, thereby streamlining data entry processes. Furthermore, this outcome marks a significant milestone toward the broader goal of complete digitization through robotic process automation (RPA).