前に経産省側で出していた
持続化給付金、家賃支援給付金、一時支援金、月次支援金における不正受給者の公表について
のサイトの公表がPDFからHTML形式に変わって、昔みたいにPDF変換で行列がしっちゃかめっちゃかになって補正に苦労していたのが嘘のように楽になったので、github側で別リポジトリを切ろうと思っている
以前のPDFデータ変換版はこちら
GitHub - GinSanaduki/Liste_des_certificats_de_beneficiaires_frauduleux_des_avantages_durables: 「持続化給付金の不正受給者の認定及び公表について」の情報収集・検索システム
「持続化給付金の不正受給者の認定及び公表について」の情報収集・検索システム. Contribute to GinSanaduki/Liste_des_certificats_de_beneficiaires_frauduleux_des_avant...
GitHub
以下は収集スクリプト一式
・・・・・・・・・・・・・・・・・
#!/bin/sh
# 20230420_Script.sh
# sh 20230420_Script.sh
DateTime=`date "+%Y%m%d_%H%M%S"`
wget https://www.meti.go.jp/covid-19/fusei_nintei.html -O "fusei_nintei_"$DateTime".html"
cat "fusei_nintei_"$DateTime".html" |
gawk -f 20230420_Script_01.awk |
gawk -f 20230420_Script_02.awk |
grep -F -f -e 'td' -e 'h2' |
cat > "fusei_nintei_"$DateTime"_Edited.html"
# 持続化給付金
cat "fusei_nintei_"$DateTime"_Edited.html" |
gawk -f 20230420_Script_03.awk |
sed -e '$d' |
tail -n +2 |
awk '{gsub(">", ">
"); gsub("<", "
<"); print;}' |
grep -F -v 'td' |
gawk -f 20230420_Script_04.awk |
gawk -f 20230420_Script_05.awk |
cat > "持続化給付金_"$DateTime".tsv";
# 家賃支援給付金
cat "fusei_nintei_"$DateTime"_Edited.html" |
gawk -f 20230420_Script_06.awk |
sed -e '$d' |
tail -n +2 |
awk '{gsub(">", ">
"); gsub("<", "
<"); print;}' |
grep -F -v 'td' |
gawk -f 20230420_Script_04.awk |
gawk -f 20230420_Script_05.awk |
cat > "家賃支援給付金_"$DateTime".tsv";
# 一時支援金
cat "fusei_nintei_"$DateTime"_Edited.html" |
gawk -f 20230420_Script_07.awk |
awk '{gsub(">", ">
"); gsub("<", "
<"); print;}' |
grep -F -v 'td' |
gawk -f 20230420_Script_04.awk |
gawk -f 20230420_Script_05.awk |
cat > "一時支援金_"$DateTime".tsv";
exit 0
・・・・・・・・・・・・・・・・・
#!/usr/bin/gawk -f
# 20230420_Script_01.awk
# gawk -f 20230420_Script_01.awk
{
sub(/^s*/, "");
print;
}
#!/usr/bin/gawk -f
# 20230420_Script_02.awk
# gawk -f 20230420_Script_02.awk
/持続化給付金/, /最終更新日/{
print;
}
#!/usr/bin/gawk -f
# 20230420_Script_03.awk
# gawk -f 20230420_Script_03.awk
/持続化給付金/, /家賃支援給付金/{
print;
}
#!/usr/bin/gawk -f
# 20230420_Script_04.awk
# gawk -f 20230420_Script_04.awk
{
Text = $0;
gsub(" ", "", Text);
if(Text != ""){
print;
}
}
#!/usr/bin/gawk -f
# 20230420_Script_05.awk
# gawk -f 20230420_Script_05.awk
{
if(NR%6){
ORS=" ";
} else {
ORS="
";
}
print;
}
#!/usr/bin/gawk -f
# 20230420_Script_06.awk
# gawk -f 20230420_Script_06.awk
/家賃支援給付金/, /一時支援金/{
print;
}
#!/usr/bin/gawk -f
# 20230420_Script_07.awk
# gawk -f 20230420_Script_07.awk
BEGIN{
bit = 0;
}
{
mat = match($0, /一時支援金/);
if(mat > 0){
bit++;
next;
}
}
(bit == 1){
print;
}
20230420_GrepTarget.txt