An_ant โพสต์ 2-2-2012 17:40:39

OCR ซับหนังสำหรับขาโมหนัง

ต้นเรื่องจาก How to convert .IDX .SUB to .SRT
https://1080ip.com/thread/16/1/1

ณ.วันนี้

http://code.google.com/p/subtitleedit/downloads/list

http://www.nikse.dk/

http://subtitleedit.googlecode.com/files/SE323.zip


(optical character recognition) หรือมักเรียกอย่างย่อว่า โอซีอาร์ (OCR) คือกระบวนการทางกลไกหรือทางอิเล็กทรอนิกส์เพื่อแปลภาพของข้อความจากการเขียนหรือจากการพิมพ์ ไปเป็นข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์


หลังจากติดตั้ง แนะนำให้ใช้ตัวพอร์ทเทเบิ้ล (โหลดมา แตกไฟล์ออก เป็นโฟลเดอร์เช่น SE323)
เข้าไปดับเบิ้ลคลิกที่ SubtitleEdit.exe หรือตัว SE จะมีหน้าต่างใหม่เปิดขึ้นมา
เปิดไปหาซับที่เราได้เก็บไว้

0.เลือก Import/OCR VobSub (sub/idx) subtitle

เมื่อเปิดหน้าต่างใหม่ขึ้นมา

1.
- OCR method คลิกเลือกOCR via image compare
- Image database คลิกเลือกNew แล้วก็ตั้งชื่อให้เหมือนชื่อเรื่องหนังนั้น ๆ
- Image palelte ติกเพื่อเลือกตัวหนังสือที่เป็นรูปภาพ ลองคลิกดู จะเห็นความแตกต่าง

2.
OCR method
- OCR via image compare คลิกเลือกตรงลูกศรขวามือถึงเห็น
- New เปิดหน้าต่างใหม่ขึ้นมา ให้พิมพ์ในช่องว่าง เป็นชื่อหนัง ถ้าผิดก็คลิกแก้ไขตรงอิดิท
- Start OCR คลิกเริ่มให้โปรแกรมทำงาน

3. บางเรื่อง โปรแกรมจะเห็นสระในภาษาไทยเป็นอีกแถวหนึ่ง ถ้าเป็นแบบนี้ส่วนตัวแล้วจะคลิกตรง Skip เพื่อข้ามไป

4.ตัวอักษรที่เราจะต้องพิมพ์ (พิมพ์แค่นั้น) โปรแกรมจะจดจำไว้ในฐานข้อมูล ตัวเหมือนกันในคราวต่อไป เราจะได้ไม่ต้องพิมพ์

5. ตัวที่แก้ไขไปครั้งสุดท้าย พวกที่พิมพ์เร็ว ๆ จะพลาดตรงนี้
      ถ้าจะแก้ไข ในรุ่นก่อน ๆ ต้องคลิกเข้าไปแก้ไขกว่าจะเจอนานมาก

6. หลังจากพิมพ์เสร็จแล้ว อย่าพึ่งออกจากหน้านี้
ตัวที่ละเว้นไว้ จะเป็น * แทน ทำให้เราตรวจพบได้ง่าย แก้ไขได้ง่าย
วิธีแก้ไข ก็เข้าไปคลิกที่แถวนั้น ๆ จะให้ตัวภาพด้านบน ที่เป็นอักษร ทำให้เราพิมพ์ตามได้เลย
ถ้าออกจากตรงนี้แล้ว จะหาตัวเปรียบลำบาก ต้องเข้ามาใหม่


เสร็จแล้ว ก็กดปุ่ม OK

จัดเก็บเป็นชื่อหนังได้เลย
หลังจากนั้น เปิดไฟล์นี้ขึ้นมา คัดลอกลงเวิร์ด เพื่อตรวจสอบตัวสะกด เปลี่ยนตัวหนังสือที่เหมือน ๆ กัน
เช่นสระแอ (แ) โปรแกรมจะจำเป็นสระเอ (เ) เปิดเวิร์ดมาให้ให้แทน เ-เ เป็น แ
สระอำโปรแกรมจะไม่รู้จัก ให้ใช้ํ (เรียกว่าอะไรหว่า) ตรงไม้หันอากาศ หรือ ไม้ผัด หรือ หางกังหัน(-ั)แทน แล้วก็สระอา (า)อีกตัว

เป็นข้อมูล
คนเขียนโปรแกรมนี้อัธยาศัยดีมาก ๆ เคยเมลไปสอบถาม ได้รับการแนะนำมาทุกฉบับ

dylanja โพสต์ 2-2-2012 20:32:09

:D สุดยอดมากครับ :D

lordvoldermot โพสต์ 2-2-2012 21:26:46

ยอดเยี่ยมจริงๆ

cus_snowa4720 โพสต์ 3-2-2012 09:34:31

เข้าใจแจ่มแจ้งเลยท่าน

untilate โพสต์ 12-2-2012 14:13:44

ขอบคุณมากๆ ครับ

Maniac โพสต์ 13-2-2012 09:38:59

เป็นโปรแกรม ocr ที่ผมใช้ประจำ ซึ่งในรุ่นใหม่ 3.2.3 เจ๋งตรงรูปในข้อ 5 อย่างที่บอกละครับ
ไม่ต้องไปควานหารูปที่พิมพ์ผิดไปก่อนหน้านี้

แต่ผมยังไม่ได้โหลดมาลอง เพราะยังไม่ค่อยมีเวลา + ไม่แน่ใจเรื่องความฉลาดของระบบ ocr ของเวอร์ชันนี้
(ผมวัดเอาเองจากจำนวนครั้งในการที่เราต้องพิมพ์สอนมัน โดยเทียบจากซับเรื่องเดียวกัน)

An_ant โพสต์ 13-2-2012 09:55:20

ถ้าคนเขียนโปรแกรมมีความเข้าใจเรื่องวรรณยุกต์ภาษาไทย พวกเราคงสบายกว่านี้ :lol

imvsnong โพสต์ 21-2-2012 23:25:46

thank verymut
หน้า: [1]
ดูในรูปแบบกติ: OCR ซับหนังสำหรับขาโมหนัง