過去問道場の問題電子化について
広告
匿名希望さん
(No.1)
過去問道場の問題は恐らくIPAの公式サイトのPDFから持ってきていると思います。
その際どのようにして問題文、選択肢をどのようにして過去問道場に取り込んでいますか?
例として、
?IPAのpdfからプログラム等を通して問題文選択肢を抜き出す。
?純粋に手入力
もし上の例の場合今後過去問道場が使えない資格試験の際に自身でプログラムを組んで簡易的な過去問道場に近い学習方式を作って学びたいと思っておりますので、どうかご教授のほどよろしくお願いいたします。
その際どのようにして問題文、選択肢をどのようにして過去問道場に取り込んでいますか?
例として、
?IPAのpdfからプログラム等を通して問題文選択肢を抜き出す。
?純粋に手入力
もし上の例の場合今後過去問道場が使えない資格試験の際に自身でプログラムを組んで簡易的な過去問道場に近い学習方式を作って学びたいと思っておりますので、どうかご教授のほどよろしくお願いいたします。
2021.09.26 06:37
GinSanaさん
★AP プラチナマイスター
(No.2)
たしか管理人さんは手打ちだったから、新規問題は1-3ヶ月後くらいはコピーガードをHTMLに仕込んでた気がしますねえ。
PDFはIPA側がプリンタでスキャンしたやつをPDFにしているわけですが、平成22年みたいに斜めっていたりするとtesseract-OCRがまともに機能しないとかあってですね。dpiはたぶん300-450だと思いますけど、ちゃんと角度があってるやつとかじゃないとなかなかOCRも大変です(昔、国立印刷局が出してる官報OCRをtesseractとpopplerでテキスト化するときの経験から)。
ためしにOCR掛けてみて、どの程度まともに認識するかとかで決めてみたらいかがでしょうかね。
PDFはIPA側がプリンタでスキャンしたやつをPDFにしているわけですが、平成22年みたいに斜めっていたりするとtesseract-OCRがまともに機能しないとかあってですね。dpiはたぶん300-450だと思いますけど、ちゃんと角度があってるやつとかじゃないとなかなかOCRも大変です(昔、国立印刷局が出してる官報OCRをtesseractとpopplerでテキスト化するときの経験から)。
ためしにOCR掛けてみて、どの程度まともに認識するかとかで決めてみたらいかがでしょうかね。
2021.09.26 12:04
匿名希望さん
(No.3)
GinSanaさん
回答ありがとうございます。
手打ちなんですか!?
凄いですね…。
ありがとうございます。やはりOCRの精度が問題ですよね。一度そのあたりがどうか検証してみようと思います!
回答ありがとうございます。
手打ちなんですか!?
凄いですね…。
ありがとうございます。やはりOCRの精度が問題ですよね。一度そのあたりがどうか検証してみようと思います!
2021.09.29 08:36
返信投稿用フォーム
スパム防止のためにスレッド作成日から30日経過したスレッドへの書込みはできません。