sirius2wpで、soupの出力をperttify()からstr()に変えて、spanタグ問題は大丈夫になったけど、空行が増えたのはpタグの問題。
SIRIUSの改行設定をBRタグや、改行なしにしたら、余分な空行も無くなった感じ。
ただSIRIUSの改行設定ってページの各記事ごとにあるので、既存サイトを全部丸ごと設定変えるのは現実的じゃない。
どこかに一括で変更できるところはないか探したけど、見つからなかった。
ということで、仕方がないのでsirius2wp内で<p>文</p>のpタグを削除することにした。re.sub()って、後方参照ができるみたいので、それで一括変換。
カテゴリーページのところでも同じようなことをしているので、そこも確認して必要なら同様な修正をする。
もう2ヶ月くらい前に、出来たー!って喜んでたけど、細かいところの改善や直しをしていたら全然終わらない。まぁCGIとかは必要だと言えば必要だけど。
でも、結局需要が全然無かったら悲しいな。
けどそれなりに勉強にもなったのも間違いない。
最近はPyCharmを使わなくてもコードが書けるようになってきたし。
画像比較ツールは、ImageHashライブラリの比較で、perception hashingがいい感じに見えている。
で、比較結果を確認するのに、htmlで画像をターゲットと比較用で並べて表示させるようにしたので、いちいちフォルダを開いて小さい画像を確認する必要がなくなった。
便利なので、比較ツール本物にも導入する。
で、比較用画像のハッシュ値は、毎回画像を読み込んでハッシュ値求めるのは無駄なので、比較ファイル名とハッシュ値のセットをファイルに保存しておくことに。
これで、このファイルを読むだけで、比較ファイルのハッシュ値を保持できるので、処理が早くなるはず。
ただし、最初JSON形式にしてファイルに書こうと思ったけど、ハッシュ値がintじゃないらしく、読み込んだ際に型が合わせられない。
で、なにか手がないか調べたら、pickleというライブラリを使うと、オブジェクトをバイナリーのままファイルに読み書きできるらしい。
JSONの元は辞書なので、この辞書のまま保存して、読み込んだら即辞書として参照できる。すごい便利だ。
無理やりJSONとかにする必要がなくなった。
今まで比較した結果と突き合わせた感じだと、NearlyMatchは目視で見てみないと、一致しているかどうか判断できないかもしれないな…。
でも、実行時間が格段に早くなりそうな気がする。