セミナーSeminar
セミナー 講師への質問と回答
【第24回JANSセミナー】
「変数選択の考え方を知ろう!因果推論のすすめ」
質問1
RCTは未測定因子の調整ができるとのことですが、RCTで可能なのでしょうか?ランダム化や、例えば、測定したい因子の情報を前向きに入手することで調整が可能と考えるのでしょうか?
プロペンシティスコアのご解説は、とても分かりやすく勉強になりました。
回答:ご質問ありがとうございます。
「調整」という表現には「統計的に交絡因子の影響を調整する」という含意があります。「RCTは未測定因子の調整ができる」を正確に表現すれば、「ランダム化により未知・未測定の交絡因子も各群にバランスよく割り付けられると想定できるため、その影響を考慮しなくて良い」となります。
具体的には、RCTの場合、対象者背景の表に示す調査項目は2群で同じような分布となります(確率的にたまたま偏ることはあります)。また、表に示されない(調査項目にない)未知・未測定の要因についても、同様に2群で同じような分布となっていることが想定されます。したがってRCTでは「統計的な調整」は必要ありません。
質問2
傾向スコアを共変量として投入する方法もあるとされているが、今回は方法としてあげられていなかったのが気になりました。その方法はあまり適切ではないということなのでしょうか。
回答:ご質問ありがとうございます。
ご指摘の通り、傾向スコアを共変量として投入する研究もあります。
マッチングするとマッチング対象のないデータは分析から除外され例数が減りますが、調整変数として使用する場合は例数は減りません。2つの方法で効果を比較する対象(マッチングで削除された対象が含まれるか含まれないか)が異なりますので、結果も異なることがあります。両方の結果を併記する論文もありますが、共変量として調整する研究は最近はないように感じます。傾向スコアマッチングや逆確率重み付け法は、どのような効果を見ているのか(ある程度)明確になりますが、共変量として調整するとわかりづらくなるのが原因だと考えます。
質問3
とてもわかりやすかったのですが、変数選択について完璧に理解したわけではないです。合流点バイアスなどはピンと来ていないです。そのため、実際に解析するときには、諸外国の様に佐藤俊太郎先生のような統計専門家のコンサルテーションを受けたいです。JANSでそのようなシステムを創っていただけるとありがたいです。
回答:頂いたご要望については、研究学術推進委員会の委員にも共有させて頂きます
第20回JANSセミナー
オープンサイエンスの進展と看護学の未来:オープンデータを看護学研究へ
質問1
過去のデータをアーカイブし、利用できるようにすることには倫理的課題があるように思います。研究参加者はその研究の意義を理解してデータを提供してくださっています。その時にこのデータは2次分析にも使用されることを説明をしていなければ、そのデータを2次分析に利用することには倫理的問題があるように思います。
回答:この点に関しましては,アーカイブすること(長期保存),データを二次利用することを,まずは分けて考えるべきです。公共の資金を用いておこなった調査データを廃棄することは,現代のアーカイブ,オープンサイエンスの規準からはまったく推奨されるものではありません。
二次利用については,仰るように課題が残ります。理想的には,調査への回答とともに,公開および二次利用まで許諾を得るべきなのは,言うまでもありません。データそのものではなく,さまざまな方法に則って加工した二次データならば公開・二次利用の可能性が拓かれます。どの程度の加工を施すのかが次に問題となり,問題が小さい順に,集計データとしての公開,匿名データとしての公開,生データとしての公開,となるでしょう。二次利用の許諾をそのときどきではとっていないけれども,匿名化された公的統計のミクロデータが利用可能となっているのはひとつのベンチマークであると思います。
ただこれも,どのような状況のもとでおこなわれた調査であるのかも関係します。講演でお話したのは,調査地点が全国規模で,無作為抽出され,数千人が対象となるような,調査主体と対象者の距離が遠いデータを想定しています。これが,特定の病院で,直接に収集した,比較的小人数のデータであれば,匿名化は実質的に困難であり,いっそう公開や二次利用は難しくなると思います。
結局のところ,それぞれの分野ごとにアプローチや規範が異なりますから,その分野にふさわしいデータ公開にかんしてのガイドラインを整備していくことが重要となると思います。調査対象者の個人情報ならびにプライバシーを守ることは当然のことですが,そのうえで,公共財たるデータをいかに社会で共有するかという視点も今後ますます重要になっていくと思います。
質問2
インタビューやフィールドワーク(エスノグラフィ)などの質的な研究のデータのオープン化についてはどのようにお考えでしょうか。現在、質的研究のデータについてもデータベースの構築等は行われているのでしょうか。
回答:まず,質的データのオープン化(※1)については,学術界を取り巻くオープンサイエンス(※2)の流れの中で,今後,間違いなく進んでいくものと思われます。実際,ここ数年内で,質的データの二次分析に関する学術書の出版も増えている様子がみられます(※3)。
また,現状での質的データのデータベース/アーカイブについて,国内では,広く学術研究によって収集された質的データを保管したり,2次利用のために提供している機関はありません。ただ,近年では,「健康と病の語りのデータ」を扱っているDIPExJAPAN(※4)など,一般的なデータアーカイブとは異なる運営体制や活動範囲のもと,分野,テーマ,データの種類などを限定したりすることで,質的データをオープンにしていく活動が行われております。
海外では,1994年にイギリスで設立されたQualitative Data Archival Resource Centre(通称Qualidata)を皮切りに,2000年代に入ってからは,フィンランドのFinnish Data
ServiceやスイスのSwiss Data Serviceなど,ヨーロッパでも質的データのアーカイビングが行われるようになっています。さらに,アジアでは,韓国のKorea Social Science Data
Archiveが2010年以降に質的データを取り扱うようになっています(※5)。
(※1)2次利用を見据えて,質的データをアーカイビングしたり共有すること。
(※2)主にICTを活用することで,研究データや研究成果に専門家や非専門家が広くアクセスできるようにするような取り組み。
(※3)たとえば,Beck (2019) Secondary qualitative data analysis in the health and social sciences.
(※4)https://www.dipex-j.org/
(※5)海外では,質的データのアーカイブが新しく設立されるような事例だけでなく,既存のデータアーカイブで質的データを取り扱うようになった事例も多くみられます。
ちなみに,Qualidataは2001年にUK Data Archiveと統合しています。
質問3
質的データの開示は、研究対象者の個人的な背景と密接にかかわる内容も多く含まれます。開示できるようなデータに加工する手続きとして、どのような点に注意が必要かを教えていただきたいです。
回答:大変重要なご指摘と存じます。2次利用に供するための質的データの加工(匿名化,画像・音声の処理など)については,データの種類,研究テーマ,データがいつ収集されたか,どのような同意を得ているか,などによっても異なるため,一般化してお答えするのが難しいというのが実情です。実際に,質的データの加工それ自体がひとつの研究テーマとして成立しています(※1)。
このような前置きのうえで,インタビューデータを念頭に置いて簡略化してお答えしますと,データの価値と参加者のプライバシーのバランスを図りつつ,「トランスクリプトの情報をどこまで匿名化するか」を決めていくことになると思われます。その際,特に注意すべき情報としては,たとえば,氏名,場所,宗教的背景,政治的信念,職業,家族関係などが挙げられます。
(※1)たとえば,Saunders, Kitzinger, & Kitzinger (2015) Anonymising interview data: challenges and compromise in practice.
質問4
質的データの研究結果の信頼性を確保するために、様々な研究者が同じデータを活用して別々に分析し、結果を比較し、より精度の高い結果を導き出した事例がありましたら教えてください。
回答:まず,ご質問いただいた内容について,当方で把握できている事例はございません。そのうえで,少し補足をさせていただきます。信頼性(=trustworthiness, rigorousness,
validity)の確保や向上を目的とした場合,そもそも質的データの2次分析とみなされない場合があります。たとえば,同じ研究目的のもと,同じ研究チーム内で,別々の研究者による分析結果を比較する方法はトライアンギュレーションとして知られていますが,これは「同じ研究目的」であることから,2次分析ではないとみなされています(※1)。一方で,過去の結果の信頼性を「検証する」ことを目的とするのであれば,2次分析のひとつのパターンとみなされることもあります(※2)。ただ,そもそも過去の質的研究の結果を「検証する」という考え方自体がどこまで妥当かについても,研究者間で様々な見解が存在しています(※3)。
(※1)たとえば,Heaton (2004) Reworking qualitative dataでは,同じような理由から質的メタ分析も2次分析ではないという見解を示しています。
(※2)Thorne (1994) Secondary analysis in qualitative research: issues and
implicationsでは,このような2次分析を“cross-validation”と呼び,Corti & Thompson (2004) Secondary analysis of archived
dataでは,“verification”と呼んでいます。
(※3)たとえば,上述のCorti & Thompson (2004)でも言及されています。
第17回JANSセミナー
看護学研究の社会実装:インプリメンテーション研究とデータサイエンスの潮流
質問1
データ抽出や分析等研究を進めていく上で有効と思われる電子カルテは、どの業者のものがお勧めでしょうか?
回答:最近はある程度大手であればどの電子カルテベンダーの製品も、DWH(データウェアハウス)機能を備えていますし、電子カルテのデータベース自体から直接抽出することも可能です。DWHは製品オプションの位置づけであれば、施設の予算の関係で導入できていないかもしれません。また、抽出作業を行うスキルがあるスタッフが居るか居ないかも、データ抽出してもらえるかどうかに関わってきます。その他、ベンダーとの契約によりデータ抽出作業の委託も可能ですが、こちらも予算が関係してくるかも知れません。
質問2
分析スキルの習得をPythonとRのどちらにしようか迷っています。つきましては、Pythonが第一推奨で、次点推奨がRである理由をお教えいただけましたら幸いでございます。
回答:インターネット上の情報量の多さと今後の発展性から、Pythonを第一推奨にしました。私見としては、機械学習を主にしたい場合(人工知能開発など)はPython、データ分析研究を主としたい場合はRが良いと思います。私は用途に応じてどちらも使っています。