DTD-SG委員会 2008-08-26, 10:00-12:00 小町 出席者: 山田, 小町, 安達 配布文書: 館蔵資料DBサンプル.xls (山田さんからのメール: 2008年8月22日 9:44に添付) 館蔵資料DBの部分データの利用許可願い(安達) 議論: document -- 個々の分類のサブトリー (リーフの一つ上だけを分類とみなす。分類には構造はもたせない。) 単語 -- 資料名称 7 collectionを与えられた。  この名称の種類数 6468  分類のサブトリー数 72 これが大きなスパース頻度マトリクスを形成する。 GETAに入力。行と列の対応をとる。値は頻度。multi.txt  共通語彙: 文字列として一致している。 距離計算に反映させることはできる。 WT smartという式: 類似度の計算式。GETAのデフォルト計算式をそのまま利用。 f = q 入力: 資料名称とする。--> 関連する分類(名称が含まれていた分類)が出る。 --> 名称が出る。 適合性feedbackを確かめられる。 問題: 出力として欲しいのは,資料名称か,分類名称か。 今回の例では資料名称。 形態素解析すると,どうありがたいか。 1 charaを1語として扱う。--> 出力が文字になる。 形態素解析ができたとき,その次の課題は: 1. 構造の扱い --> 距離の計算 2. 類似度尺度に何を使うか (今回はdefault) 今後の予定: - 10/07 - 10/20