Finished implementation of string sanitization functions

This commit is contained in:
G2-Games 2023-09-26 03:03:48 -05:00
parent 9aa09343c5
commit 628c1afd79
4 changed files with 366 additions and 23 deletions

View file

@ -12,10 +12,12 @@ readme = "README.md"
# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html # See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html
[dependencies] [dependencies]
diacritics = "0.2.0"
encoding_rs = "0.8.33" encoding_rs = "0.8.33"
nofmt = "1.0.0" nofmt = "1.0.0"
once_cell = "1.18.0" once_cell = "1.18.0"
regex = "1.9.5"
rusb = "0.9.3" rusb = "0.9.3"
translit = "0.5.0"
unicode-jp = "0.4.0" unicode-jp = "0.4.0"
unicode-normalization = "0.1.22"

View file

@ -1,7 +1,8 @@
use crate::netmd::base; use crate::netmd::base;
use crate::netmd::query_utils::{format_query, scan_query, QueryValue}; use crate::netmd::query_utils::{format_query, scan_query, QueryValue};
use crate::netmd::utils::{ use crate::netmd::utils::{
half_width_to_full_width_range, length_after_encoding_to_jis, sanitize_full_width_title, half_width_to_full_width_range, length_after_encoding_to_jis,
sanitize_full_width_title, sanitize_half_width_title
}; };
use encoding_rs::*; use encoding_rs::*;
use rusb; use rusb;
@ -929,10 +930,10 @@ impl NetMDInterface {
.into()) .into())
} }
pub fn set_disc_title(&self, title: String, wchar: bool) -> Result<String, Box<dyn Error>> { pub fn set_disc_title(&self, title: String, wchar: bool) -> Result<(), Box<dyn Error>> {
let current_title = self._disc_title(wchar)?; let current_title = self._disc_title(wchar)?;
if current_title == title { if current_title == title {
return Ok(current_title); return Ok(());
} }
let new_title: Vec<u8>; let new_title: Vec<u8>;
@ -944,7 +945,7 @@ impl NetMDInterface {
1 1
}, },
false => { false => {
new_title = Vec::new(); new_title = sanitize_half_width_title(title);
0 0
}, },
}; };
@ -968,7 +969,7 @@ impl NetMDInterface {
], ],
)?; )?;
let reply = self.send_query(&mut query, false, false); let _ = self.send_query(&mut query, false, false);
if self.net_md_device.vendor_id() == &0x04dd { if self.net_md_device.vendor_id() == &0x04dd {
self.change_descriptor_state(&Descriptor::AudioUTOC1TD, &DescriptorAction::Close) self.change_descriptor_state(&Descriptor::AudioUTOC1TD, &DescriptorAction::Close)
@ -978,6 +979,6 @@ impl NetMDInterface {
self.change_descriptor_state(&Descriptor::DiscTitleTD, &DescriptorAction::Close); self.change_descriptor_state(&Descriptor::DiscTitleTD, &DescriptorAction::Close);
} }
Ok(String::from_utf8(sanitize_full_width_title(&title, true)).unwrap()) Ok(())
} }
} }

View file

@ -1,7 +1,7 @@
use once_cell::sync::Lazy; use once_cell::sync::Lazy;
use std::collections::HashMap; use std::collections::HashMap;
pub const MAPPINGS_JP: Lazy<HashMap<String, String>> = Lazy::new(|| {vec![ pub const MAPPINGS_JP: Lazy<HashMap<String, String>> = Lazy::new(|| {[
("!".to_string(), "".to_string()), ("!".to_string(), "".to_string()),
("\"".to_string(), "".to_string()), ("\"".to_string(), "".to_string()),
("#".to_string(), "".to_string()), ("#".to_string(), "".to_string()),
@ -193,7 +193,7 @@ pub const MAPPINGS_JP: Lazy<HashMap<String, String>> = Lazy::new(|| {vec![
("".to_string(), "".to_string()) ("".to_string(), "".to_string())
].into_iter().collect()}); ].into_iter().collect()});
pub const MAPPINGS_RU: Lazy<HashMap<String, String>> = Lazy::new(|| {vec![ pub const MAPPINGS_RU: Lazy<HashMap<String, String>> = Lazy::new(|| {[
("а".to_string(), "a".to_string()), ("а".to_string(), "a".to_string()),
("б".to_string(), "b".to_string()), ("б".to_string(), "b".to_string()),
("в".to_string(), "v".to_string()), ("в".to_string(), "v".to_string()),
@ -262,7 +262,7 @@ pub const MAPPINGS_RU: Lazy<HashMap<String, String>> = Lazy::new(|| {vec![
("Я".to_string(), "Ia".to_string()) ("Я".to_string(), "Ia".to_string())
].into_iter().collect()}); ].into_iter().collect()});
pub const MAPPINGS_DE: Lazy<HashMap<String, String>> = Lazy::new(|| {vec![ pub const MAPPINGS_DE: Lazy<HashMap<String, String>> = Lazy::new(|| {[
("Ä".to_string(), "Ae".to_string()), ("Ä".to_string(), "Ae".to_string()),
("ä".to_string(), "ae".to_string()), ("ä".to_string(), "ae".to_string()),
("Ö".to_string(), "Oe".to_string()), ("Ö".to_string(), "Oe".to_string()),
@ -271,3 +271,286 @@ pub const MAPPINGS_DE: Lazy<HashMap<String, String>> = Lazy::new(|| {vec![
("ü".to_string(), "ue".to_string()), ("ü".to_string(), "ue".to_string()),
("ß".to_string(), "ss".to_string()) ("ß".to_string(), "ss".to_string())
].into_iter().collect()}); ].into_iter().collect()});
pub const MAPPINGS_HW: Lazy<HashMap<String, String>> = Lazy::new(|| {[
("".to_string(),"-".to_string()),
("".to_string(),"-".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ガ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ギ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"グ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ゲ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ゴ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ザ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ジ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ズ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ゼ".to_string()),
("".to_string(),"ソ".to_string()),
("".to_string(),"ゾ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ダ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ヂ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ヅ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"デ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ド".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"バ".to_string()),
("".to_string(),"パ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ビ".to_string()),
("".to_string(),"ピ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ブ".to_string()),
("".to_string(),"プ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ベ".to_string()),
("".to_string(),"ペ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ボ".to_string()),
("".to_string(),"ポ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"-".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ヴ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"!".to_string()),
("".to_string(),"\"".to_string()),
("".to_string(),"#".to_string()),
("".to_string(),"$".to_string()),
("".to_string(),"%".to_string()),
("".to_string(),"&".to_string()),
("".to_string(),"'".to_string()),
("".to_string(),"(".to_string()),
("".to_string(),")".to_string()),
("".to_string(),"*".to_string()),
("".to_string(),"+".to_string()),
("".to_string(),",".to_string()),
("".to_string(),".".to_string()),
("".to_string(),"/".to_string()),
("".to_string(),":".to_string()),
("".to_string(),";".to_string()),
("".to_string(),"<".to_string()),
("".to_string(),"=".to_string()),
("".to_string(),">".to_string()),
("".to_string(),"?".to_string()),
("".to_string(),"@".to_string()),
("".to_string(),"A".to_string()),
("".to_string(),"B".to_string()),
("".to_string(),"C".to_string()),
("".to_string(),"D".to_string()),
("".to_string(),"E".to_string()),
("".to_string(),"F".to_string()),
("".to_string(),"G".to_string()),
("".to_string(),"H".to_string()),
("".to_string(),"I".to_string()),
("".to_string(),"J".to_string()),
("".to_string(),"K".to_string()),
("".to_string(),"L".to_string()),
("".to_string(),"M".to_string()),
("".to_string(),"N".to_string()),
("".to_string(),"O".to_string()),
("".to_string(),"P".to_string()),
("".to_string(),"Q".to_string()),
("".to_string(),"R".to_string()),
("".to_string(),"S".to_string()),
("".to_string(),"T".to_string()),
("".to_string(),"U".to_string()),
("".to_string(),"V".to_string()),
("".to_string(),"W".to_string()),
("".to_string(),"X".to_string()),
("".to_string(),"Y".to_string()),
("".to_string(),"Z".to_string()),
("".to_string(),"[".to_string()),
("".to_string(),"\\".to_string()),
("".to_string(),"]".to_string()),
("".to_string(),"^".to_string()),
("_".to_string(),"_".to_string()),
("".to_string(),"`".to_string()),
("".to_string(),"a".to_string()),
("".to_string(),"b".to_string()),
("".to_string(),"c".to_string()),
("".to_string(),"d".to_string()),
("".to_string(),"e".to_string()),
("".to_string(),"f".to_string()),
("".to_string(),"g".to_string()),
("".to_string(),"h".to_string()),
("".to_string(),"i".to_string()),
("".to_string(),"j".to_string()),
("".to_string(),"k".to_string()),
("".to_string(),"l".to_string()),
("".to_string(),"m".to_string()),
("".to_string(),"n".to_string()),
("".to_string(),"o".to_string()),
("".to_string(),"p".to_string()),
("".to_string(),"q".to_string()),
("".to_string(),"r".to_string()),
("".to_string(),"s".to_string()),
("".to_string(),"t".to_string()),
("".to_string(),"u".to_string()),
("".to_string(),"v".to_string()),
("".to_string(),"w".to_string()),
("".to_string(),"x".to_string()),
("".to_string(),"y".to_string()),
("".to_string(),"z".to_string()),
("".to_string(),"{".to_string()),
("".to_string(),"|".to_string()),
("".to_string(),"}".to_string()),
("".to_string(),"~".to_string()),
(" ".to_string()," ".to_string()),
("".to_string(),"0".to_string()),
("".to_string(),"1".to_string()),
("".to_string(),"2".to_string()),
("".to_string(),"3".to_string()),
("".to_string(),"4".to_string()),
("".to_string(),"5".to_string()),
("".to_string(),"6".to_string()),
("".to_string(),"7".to_string()),
("".to_string(),"8".to_string()),
("".to_string(),"9".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ガ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ギ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"グ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ゲ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ゴ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ザ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ジ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ズ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ゼ".to_string()),
("".to_string(),"ソ".to_string()),
("".to_string(),"ゾ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ダ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ヂ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ヅ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"デ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ド".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"バ".to_string()),
("".to_string(),"パ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ビ".to_string()),
("".to_string(),"ピ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ブ".to_string()),
("".to_string(),"プ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ベ".to_string()),
("".to_string(),"ペ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ボ".to_string()),
("".to_string(),"ポ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"ヴ".to_string()),
("".to_string(),"".to_string()),
("".to_string(),"".to_string()),
].into_iter().collect()});
pub const ALLOWED_HW_KANA: Lazy<Vec<String>> = Lazy::new(|| {MAPPINGS_HW.values().cloned().collect()});

View file

@ -1,8 +1,12 @@
use crate::netmd::mappings::{ALLOWED_HW_KANA, MAPPINGS_DE, MAPPINGS_HW, MAPPINGS_JP, MAPPINGS_RU};
use diacritics;
use encoding_rs::SHIFT_JIS; use encoding_rs::SHIFT_JIS;
use kana::{ascii2wide, combine, half2kana}; use regex::Regex;
use std::collections::hash_map::HashMap; use std::collections::hash_map::HashMap;
use std::error::Error; use unicode_normalization::UnicodeNormalization;
use crate::netmd::mappings::{MAPPINGS_JP, MAPPINGS_RU, MAPPINGS_DE};
extern crate kana;
use kana::*;
pub fn bcd_to_int(mut bcd: i32) -> i32 { pub fn bcd_to_int(mut bcd: i32) -> i32 {
let mut value = 0; let mut value = 0;
@ -76,16 +80,51 @@ pub fn length_after_encoding_to_jis(string: &String) -> usize {
new_string.0.len() new_string.0.len()
} }
pub fn validate_shift_jis(sjis_string: &Vec<u8>) -> Result<(), Box<dyn Error>> { pub fn validate_shift_jis(sjis_string: Vec<u8>) -> bool {
let (_, _, had_errors) = SHIFT_JIS.decode(sjis_string); let (_, _, had_errors) = SHIFT_JIS.decode(&sjis_string);
if had_errors { if had_errors {
Err("Not valid SHIFT-JIS".into()) true
} else { } else {
Ok(()) false
} }
} }
fn check(string: String) -> Option<String> {
if MAPPINGS_HW.contains_key(&string) {
return Some(MAPPINGS_HW.get(&string).unwrap().to_string());
}
let mut ch = string.chars();
if (ch.next().unwrap() as u32) < 0x7f || ALLOWED_HW_KANA.contains(&string) {
return Some(string);
}
None
}
pub fn sanitize_half_width_title(mut title: String) -> Vec<u8> {
title = wide2ascii(&title);
title = nowidespace(&title);
title = hira2kata(&title);
title = combine(&title);
let new_title: String = title
.chars()
.map(|c| {
check(c.to_string()).unwrap_or(
check(diacritics::remove_diacritics(&c.to_string())).unwrap_or(" ".to_string()),
)
})
.collect();
let sjis_string = SHIFT_JIS.encode(&new_title).0;
if validate_shift_jis(sjis_string.clone().into()) {
return agressive_sanitize_title(&title).into();
}
return sjis_string.into();
}
// TODO: This function is bad, probably should do the string sanitization in the frontend // TODO: This function is bad, probably should do the string sanitization in the frontend
pub fn sanitize_full_width_title(title: &String, just_remap: bool) -> Vec<u8> { pub fn sanitize_full_width_title(title: &String, just_remap: bool) -> Vec<u8> {
let new_title: String = title let new_title: String = title
@ -93,20 +132,23 @@ pub fn sanitize_full_width_title(title: &String, just_remap: bool) -> Vec<u8> {
.map(|character| { .map(|character| {
match MAPPINGS_JP.get(&character.to_string()) { match MAPPINGS_JP.get(&character.to_string()) {
Some(string) => string.clone(), Some(string) => string.clone(),
None => character.to_string().clone() None => character.to_string().clone(),
}.to_string() }
.to_string()
}) })
.map(|character| { .map(|character| {
match MAPPINGS_RU.get(&character.to_string()) { match MAPPINGS_RU.get(&character.to_string()) {
Some(string) => string.clone(), Some(string) => string.clone(),
None => character.to_string().clone() None => character.to_string().clone(),
}.to_string() }
.to_string()
}) })
.map(|character| { .map(|character| {
match MAPPINGS_DE.get(&character.to_string()) { match MAPPINGS_DE.get(&character.to_string()) {
Some(string) => string.clone(), Some(string) => string.clone(),
None => character.to_string().clone() None => character.to_string().clone(),
}.to_string() }
.to_string()
}) })
.collect::<String>(); .collect::<String>();
@ -116,5 +158,20 @@ pub fn sanitize_full_width_title(title: &String, just_remap: bool) -> Vec<u8> {
let sjis_string = SHIFT_JIS.encode(&new_title).0; let sjis_string = SHIFT_JIS.encode(&new_title).0;
if validate_shift_jis(sjis_string.clone().into()) {
return agressive_sanitize_title(&title).into();
}
return sjis_string.into(); return sjis_string.into();
} }
pub fn agressive_sanitize_title(title: &String) -> String {
let re = Regex::new(r"[^\x00-\x7F]").unwrap();
re.replace_all(
&diacritics::remove_diacritics(title)
.nfd()
.collect::<String>(),
"",
)
.into()
}